Từ mô hình ngôn ngữ lớn đến mô hình suy luận
Từ mô hình ngôn ngữ lớn đến mô hình suy luận
OpenAI đã ra mắt sản phẩm quan trọng nhất của họ trong năm nay, mô hình O1, như dự kiến. Giá cổ phiếu của NVIDIA, công ty hưởng lợi nhiều nhất từ AI, đã tăng 10% trong hai ngày liên tiếp.
Mô hình O1 tiêu thụ nhiều năng lượng hơn để trả lời câu hỏi, mất vài chục giây hoặc lâu hơn để “suy nghĩ” trước khi đưa ra câu trả lời. Theo OpenAI, nó thể hiện hiệu suất vượt trội so với các mô hình lớn hiện có trên thị trường khi giải bài toán Olympic về toán học hay hoàn thành nhiệm vụ lập trình.
Tuy nhiên, niềm vui của CEO Sam Altman (Sam Altman) của OpenAI đã bị gián đoạn. Bình luận đầu tiên dưới bài đăng thông báo O1 được ra mắt đầy đủ là: “Khi nào chúng ta có thể sử dụng tính năng giọng nói mới??” Ông đáp lại ngay: “Có thể dành vài tuần để cảm ơn thứ ma thuật này trước khi yêu cầu món đồ mới?”
Nhưng người dùng này không phải đang đòi món đồ mới, mà là tính năng GPT-4O đầu cuối về giọng nói mà OpenAI đã hứa sẽ ra mắt vào tháng 5. Trong buổi giới thiệu trực tiếp, AI này cho thấy giọng nói tự nhiên và phản ứng nhanh chóng, biết khi nào nên xen vào cuộc trò chuyện, khiến mọi người khó lòng phân biệt được đâu là thật. Theo lịch trình chính thức, hàng triệu người dùng trả phí của ChatGPT sẽ có thể sử dụng tính năng này trong vài tuần, nhưng đến nay vẫn chưa được thực hiện.
Trong năm qua, các sản phẩm của OpenAI đều giống như những “hàng hóa tương lai”: GPT-4 đã ra mắt hơn một năm, nhưng mô hình thế hệ tiếp theo GPT-5 vẫn chưa có dấu hiệu ra mắt. Mô hình video Sora cũng chưa được mở rộng quy mô, chỉ có một số ít người trong ngành được chọn để sử dụng.
Sự thất bại liên tục của các công ty hàng đầu trong việc ra mắt sản phẩm đã làm mòn đi sự kiên nhẫn của thị trường tài chính đối với các mô hình lớn. Một số công ty công nghệ Trung Quốc và công ty mô hình lớn đã hoãn việc huấn luyện mô hình cơ bản trong năm nay, chuyển nguồn lực sang phát triển ứng dụng hoặc thuê GPU cho khách hàng bên ngoài. Họ lo ngại rằng công nghệ không còn nhiều tiến bộ, bắt đầu giảm đầu tư và tìm kiếm lợi nhuận.
Trước đó, giá trị thị trường của NVIDIA đã giảm hơn 20% so với đỉnh điểm vào tháng 6, và Microsoft cũng giảm 13%, mỗi công ty mất hàng nghìn tỷ đô la. CFO của Microsoft cho biết, họ cần tới 15 năm hoặc lâu hơn để thu hồi vốn từ khoản đầu tư hàng trăm tỷ đô la vào lĩnh vực mô hình lớn.
Theo nghiên cứu của Sequoia, đầu tư vào lĩnh vực AI năm ngoái vượt xa doanh thu 1200 tỷ đô la, và con số này có thể tăng lên 5000 tỷ đô la trong năm nay. Nhưng trừ NVIDIA, không có công ty nào chứng kiến sự tăng trưởng đáng kể về doanh thu. Nhiều người trong ngành bắt đầu thảo luận, nếu khả năng của các mô hình lớn chỉ dừng lại ở đây, bong bóng AI có thể lại vỡ tan?
“Bong bóng” không nhất thiết là điều xấu. Trước khi công nghệ thay đổi thế giới, giai đoạn viễn cảnh vượt xa thực tế luôn xuất hiện. Điều khác biệt là viễn cảnh có thể thực hiện được và khi nào thực hiện được. Nếu không thể thực hiện trong thời gian dài, bong bóng vỡ, công ty phá sản, và bong bóng vỡ nghiêm trọng có thể đánh sập một lĩnh vực hoặc nhiều nền kinh tế. Nếu viễn cảnh được thực hiện, đó chỉ là một phần chú thích của sự tiến bộ công nghệ.
Mô hình O1 của OpenAI ít nhất sẽ tạm thời xoá bỏ nghi ngờ rằng không còn tiến bộ trong mô hình lớn, kéo dài “bong bóng” AI.
Bất kỳ công nghệ mới nào cũng cần liên tục tiến bộ để có thể thay đổi thế giới. Điểm độc đáo của O1 không chỉ nằm ở hiệu suất cải thiện đáng kể trong các lĩnh vực như lập trình, toán học, vật lý, mà còn ở việc phân bổ nhiều năng lượng hơn cho quá trình suy luận khi trả lời câu hỏi, tăng cường khả năng logic. Trước đây, mô hình lớn đã gặp phải giới hạn của Định luật Scaling, hiệu suất tăng dần khi kích thước mô hình mở rộng.
Mô hình O1-mini, được tối ưu hóa cho các vấn đề toán học, lập trình và khoa học, cũng cho thấy tiềm năng ứng dụng đáng kể, giúp nhà khoa học và lập trình viên nâng cao hiệu suất công việc, đồng thời chỉ dẫn cách phát triển các mô hình có hiệu suất và an toàn tốt hơn trong các lĩnh vực giá trị cao khác.
Như các lần công bố trước, OpenAI đã cẩn thận lựa chọn thời điểm để ra mắt O1. Theo báo cáo truyền thông, trước khi ra mắt O1, OpenAI đang tìm kiếm 7 tỷ đô la tài trợ mới với định giá 150 tỷ đô la, các nhà đầu tư tiềm năng bao gồm Apple, NVIDIA, Microsoft và Quỹ Đầu tư của Các Tiểu vương quốc Ả Rập Thống nhất.
Như vậy, cuộc đua đầu tư này lại có thêm lý do để tiếp tục.
Đến từ mô hình ngôn ngữ lớn đến mô hình suy luận, O1 mạnh về lý thuyết nhưng yếu về văn bản.
OpenAI đã công bố hai mô hình cho người dùng là O1-preview và O1-mini, và dự đoán nhiều mô hình O1 khác sẽ ra mắt trong tương lai.
Lý do đặt tên loạt mô hình này là O1 thay vì tiếp tục sử dụng GPT, là do cách huấn luyện của chúng có sự thay đổi rõ rệt. Trong bài blog giới thiệu O1 của OpenAI, mô hình này được gọi là mô hình suy luận (reasoning model), không phải mô hình ngôn ngữ lớn (Large Language Model) như GPT.
Mô hình GPT và các mô hình ngôn ngữ lớn truyền thống sử dụng quy trình huấn luyện tổng thể là tiền huấn luyện (pre-training) cộng tinh chỉnh (fine-tuning): đầu tiên, mô hình lớn được dạy dự đoán từ tiếp theo bằng cách sử dụng dữ liệu khổng lồ, sau đó được huấn luyện để học kiến thức cụ thể trong giai đoạn tinh chỉnh, với sự hướng dẫn của con người để mô hình biết được câu trả lời mà con người mong muốn, và máy tính cải thiện dựa trên phản hồi.
Khóa học mới của O1 là học máy tăng cường (Reinforcement Learning) và chuỗi suy nghĩ (Chain of Thought, CoT).
OpenAI mô tả quá trình này như sau: “Qua học máy tăng cường, O1 học cách rèn luyện chuỗi suy nghĩ của mình và hoàn thiện chiến lược mà nó sử dụng. Nó học cách nhận diện và sửa lỗi của mình; phân chia bước phức tạp thành các bước đơn giản hơn; thử nghiệm các phương pháp khác khi phương pháp hiện tại không hoạt động. Điều này đã nâng cao đáng kể khả năng suy luận của mô hình.”
AlphaGo và các mô hình tiếp theo như AlphaZero, được huấn luyện bằng học máy tăng cường, cho phép mô hình tự chơi (self-play), học cách sử dụng chiến lược nào để tăng tỷ lệ thắng trong các tình huống khác nhau. Mô hình còn tạo ra dữ liệu để huấn luyện chính nó.
Mô hình O1 của OpenAI sử dụng phương pháp tương tự: cung cấp dữ liệu giải bài toán từng bước cho mô hình, để mô hình học cách tự sửa lỗi và học cách trả lời từng bước để đạt được kết quả tối ưu.
“Khả năng của mô hình AI vẫn phụ thuộc vào dữ liệu, nếu dữ liệu không có hoặc không đầy đủ, mô hình không thể học được, O1 đã thực hiện một phương pháp tổng hợp dữ liệu chuyên nghiệp. Với dữ liệu chuyên nghiệp này, O1 có thể học được kỹ năng chuyên môn.” Giám đốc sáng lập Silicon Flow Yuan Jinhui nói.
Khi trả lời câu hỏi, O1 cũng sẽ phân tích câu hỏi thành một loạt câu hỏi nhỏ, suy luận từng bước để trả lời, đó là “chuỗi suy nghĩ”. Theo OpenAI, quá trình trả lời câu hỏi của O1 như sau (trong phiên bản người dùng, OpenAI ẩn nội dung chuỗi suy nghĩ):
…
Mặc dù học máy tăng cường và chuỗi suy nghĩ không phải là khái niệm do OpenAI đề xuất đầu tiên, nhưng OpenAI một lần nữa chứng minh rằng họ có thể tạo ra mô hình hiệu quả hơn dựa trên nền tảng ngành.
Theo OpenAI, mô hình o1-ioi được huấn luyện đặc biệt cho Olympic thông tin quốc tế có thể giành huy chương vàng. Nhờ phương pháp huấn luyện và suy luận mới, mô hình O1-preview của OpenAI vượt trội hơn GPT-4o trong việc giải các bài toán khó về toán học và xử lý nhiệm vụ lập trình.
…
Mô hình O1-preview và O1-mini được ra mắt giới hạn chỉ là phiên bản ban đầu, phiên bản tiếp theo của họ trong các bài kiểm tra khó như vật lý, hóa học, sinh học có hiệu suất tương đương với tiến sĩ, trong khi mô hình trước đó chủ yếu đạt trình độ đại học hoặc thạc sĩ.
…
Những người dùng GPT-4o không thể giải quyết được các vấn đề, O1-preview cũng gặp phải, ví dụ, nó cũng có xu hướng “nói dối”, cho rằng 9.11 lớn hơn 9.2.
…
Chuỗi suy nghĩ dẫn đến thời gian phản hồi lâu hơn (suy nghĩ) có thể là nhược điểm thực tế của mô hình O1. Khi được yêu cầu “liệt kê năm quốc gia có chữ cái thứ ba là A”, GPT-4o chỉ mất 3 giây, trong khi O1-mini mất 9 giây và O1-preview mất 32 giây, gấp 10 lần GPT-4o. Đối với các câu hỏi đơn giản, điều này gần như không khả thi.
…
Mô hình O1-preview và mini tạm thời không có chức năng duyệt web, lấy thông tin, và xử lý các tệp đính kèm, hình ảnh như GPT-4o. Hiện tại, những người dùng có thể nhanh chóng cải thiện năng suất nhờ O1 có vẻ là các nhà phát triển phần mềm, nhưng OpenAI cũng hạn chế cách họ gọi API: mỗi phút chỉ có thể gọi 20 lần, không bao gồm các cuộc gọi hàm, truyền thông trực tiếp, hỗ trợ tin nhắn hệ thống.
…
Trong mắt nhiều nhà nghiên cứu mô hình lớn, sự thay đổi quan trọng nhất của O1 là cho thấy một con đường mới để cải thiện đáng kể khả năng của mô hình lớn.
…
Như biểu đồ dưới đây, O1 cho thấy rằng việc cho phép mô hình dành nhiều thời gian và năng lượng hơn để trả lời câu hỏi (test-time compute), hiệu suất cũng sẽ tiếp tục tăng. Jim Fan, nhà khoa học AI kỳ cựu của NVIDIA, đã viết trên mạng xã hội rằng, đây có thể là biểu đồ quan trọng nhất trong lĩnh vực mô hình lớn kể từ khi DeepMind đề xuất Chinchill Scaling Laws (một cải tiến trên Định luật Scaling gốc) vào năm 2022.
…
Jim Fan cũng đưa ra một khả năng tiến hóa cho mô hình lớn trong tương lai: các mô hình tương lai có thể tách biệt suy luận và kiến thức, có một “lõi suy luận” nhỏ, đồng thời sử dụng nhiều tham số để ghi nhớ sự kiện (kiến thức) để biểu hiện tốt trong các bài kiểm tra như câu hỏi vặt.
…
OpenAI cũng đặc biệt đề cập trong bài viết giới thiệu O1 rằng họ sẽ tiếp tục phát triển mô hình GPT. Điều này có thể dự đoán rằng OpenAI sẽ áp dụng phương pháp sử dụng trong O1 vào mô hình GPT thế hệ tiếp theo.
…
Dù O1 trở thành phương pháp chính mới, hay O1 kết hợp với GPT-series, sự phát triển của mô hình lớn tiếp theo sẽ đòi hỏi nhiều năng lượng hơn.
…
OpenAI chưa công bố chi phí suy luận của loạt mô hình O1, nhưng từ thời gian trả lời câu hỏi của mô hình và các hạn chế sử dụng của OpenAI, có thể suy đoán rằng O1 cần nhiều năng lượng suy luận hơn so với series GPT.
…
Người dùng trả phí ChatGPT Plus hàng tháng, hiện tại chỉ có thể sử dụng 30 lần O1-preview và 50 lần O1-mini mỗi tuần. Trong khi đó, giới hạn của GPT-4o là 4480 lần (80 lần mỗi 3 giờ), gấp 90 lần so với O1-mini và 150 lần so với O1-preview.
…
O1-preview mất nhiều thời gian hơn để trả lời câu hỏi so với mô hình GPT-series, từ giây lên đến vài chục giây, thậm chí lâu hơn. Nó cũng xử lý nhiều văn bản hơn khi trả lời câu hỏi. Ví dụ, trong quá trình giải bài toán lập trình được mô tả trong bài viết, O1 xử lý 6632 ký tự, gấp 4,2 lần so với GPT-4o. Thời gian tính toán lâu hơn và đầu ra dài hơn đều nghĩa là chi phí năng lượng cao hơn.
…
Sự kích thích của O1 đối với triển vọng AI và tiêu thụ năng lượng nhanh chóng phản ánh trên thị trường tài chính. Từ đầu tuần, khi có tin OpenAI sắp ra mắt mô hình mới, giá cổ phiếu NVIDIA đã tăng 10%, và Microsoft cũng tăng.
…
Đối với những công ty không chắc chắn về hướng tiến hóa công nghệ hoặc đã tạm ngừng nghiên cứu mô hình cơ bản, bây giờ họ lại có công việc mới để làm, có hướng mới để theo đuổi. Sự ra mắt của O1 có thể nghĩa là khoảng cách cạnh tranh trên mô hình suy luận đã được mở rộng một lần nữa, và một giai đoạn tăng tốc theo đuổi và đầu tư sắp diễn ra.
…
“Đã đến lúc nghiêm túc làm việc, nếu không chúng ta sẽ thực sự không còn trong trò chơi,” một nhà nghiên cứu mô hình lớn Trung Quốc nói.
…
Bài viết này được biên tập bởi Chương Mạn Kỳ và Hoàng Tuấn Kiệt.
**Từ khóa:**
– Mô hình ngôn ngữ lớn
– Mô hình suy luận
– OpenAI
– NVIDIA
– AI