Scaling Laws và Cuộc Cách Mạng trong Máy Học Siêu Lớn
Scaling Laws và Cuộc Cách Mạng trong Máy Học Siêu Lớn
Như sự phát triển của một con người, mỗi mô hình máy học lớn cần phải học từ một lượng lớn dữ liệu văn bản để giải quyết các vấn đề phức tạp.
Google đã đào tạo mô hình Gemma với 7 tỷ tham số, cho phép nó “đọc” 6 nghìn tỷ token (từ) văn bản. Trong khi đó, mô hình Mistral với 7,3 tỷ tham số được huấn luyện từ 8 nghìn tỷ token văn bản. Việc huấn luyện các mô hình này với lượng dữ liệu khổng lồ như vậy là một cách tiếp cận tốn kém nhưng hiệu quả.
Một CEO khác, Mark Zuckerberg của Meta, không hài lòng với điều này. Anh ta đã đầu tư vào việc huấn luyện mô hình Llama 3 với 8 tỷ tham số, sử dụng 15 nghìn tỷ token dữ liệu huấn luyện, gấp đôi so với Google và nhiều hơn nhiều so với các công ty nhỏ.
Theo thông tin từ Meta, mô hình Llama 3 mới của họ đã vượt qua nhiều đối thủ cạnh tranh trong các bài kiểm tra đánh giá phổ biến. Đặc biệt, mô hình 8 tỷ tham số của họ đã đạt được điểm số cao hơn đáng kể so với các đối thủ cùng cấp.
Meta cũng đang nghiên cứu một mô hình lớn hơn với 4050 tỷ tham số, cho thấy kết quả tương đương với GPT-4. Điều này đã thu hút sự chú ý của cộng đồng nghiên cứu và doanh nghiệp.
Việc huấn luyện mô hình lớn không chỉ đòi hỏi nguồn lực tài chính mà còn cả nguồn lực tính toán. Meta đã sử dụng hai cụm máy tính với tổng cộng 48.000 card đồ họa H100 để đào tạo Llama 3, tiêu tốn khoảng 1,3 triệu giờ tính toán.
Để giảm chi phí, nhiều công ty đang tập trung vào việc huấn luyện mô hình nhỏ hơn. Google và Anthropic đã ra mắt các phiên bản mô hình nhỏ hơn của mình, trong khi Microsoft chọn cách sử dụng dữ liệu chất lượng cao từ GPT-4 để huấn luyện mô hình nhỏ hơn.
Meta tiếp tục theo đuổi hướng đi này bằng cách tăng cường nguồn lực tính toán của mình. Họ dự định tăng số lượng card đồ họa H100 lên 350.000 vào cuối năm nay.
“Chúng tôi muốn tạo ra những mô hình nhỏ hơn nhưng vẫn mạnh mẽ”, Zuckerberg chia sẻ. “Chúng tôi hy vọng sẽ đạt được những tiến bộ đáng kể với mô hình có 1 tỷ hoặc 5 tỷ tham số.”
### Từ khóa
– Máy học siêu lớn
– Scaling Laws
– Mô hình lớn
– Dữ liệu huấn luyện
– Công nghệ