Trong chiều nay, nhà sáng lập của Mặt Trăng Bóng Tối, Yang Zhilin, đã tham gia một cuộc họp báo nhỏ với giới truyền thông và công bố mô hình toán học Kimi, k0-math. Ông cho biết mô hình này sẽ được đưa vào sản phẩm Kimi trong vòng 1-2 tuần tới; đồng thời, Yang Zhilin cũng tiết lộ rằng số người sử dụng Kimi trong tháng 10 đã vượt quá 36 triệu.
Cuộc họp báo này được tổ chức vào hôm trước, thường có thời gian tự do để hỏi câu hỏi từ phía các phóng viên, Mặt Trăng Bóng Tối đã mở 3-5 câu hỏi tự do tại chỗ và thu thập một số câu hỏi trước đó, sau đó trình bày trên màn hình, Yang Zhilin đã chọn và trả lời từ những câu hỏi này.
Báo cáo của Dark Currents Waves vào thứ Hai đã đề cập đến việc một công ty khởi nghiệp trước đây mà Yang Zhilin đồng sáng lập, Loop Intelligence, đã đưa ra yêu cầu trọng tài đối với Yang Zhilin và người đồng sáng lập khác của Loop Intelligence, Zhang Yutao, tại Hong Kong. Một nguồn tin gần gũi với sự kiện này cho biết nguyên nhân yêu cầu trọng tài có thể là vì Yang Zhilin và Zhang Yutao đã bắt đầu việc huy động vốn cho Mặt Trăng Bóng Tối mà không có sự chấp thuận của các nhà đầu tư của Loop Intelligence.
Mặt Trăng Bóng Tối sau đó đã phản hồi: Văn phòng luật sư Mingde đã tiếp nhận ủy quyền của Yang Zhilin và Zhang Yutao, văn phòng này cho rằng yêu cầu trọng tài không có cơ sở pháp lý và không có cơ sở thực tế, và sẽ đưa ra kháng cáo theo pháp luật.
Trước cuộc họp báo, Mặt Trăng Bóng Tối tuyên bố rằng cuộc họp chỉ thảo luận về kỹ thuật và sản phẩm, không trả lời các vấn đề không liên quan đến kỹ thuật và sản phẩm, bao gồm cả yêu cầu trọng tài.
Tại phần chia sẻ của cuộc họp báo, Yang Zhilin đã giới thiệu một số chỉ số cơ bản của mô hình toán học Kimi. Mặt Trăng Bóng Tối hiếm khi tham gia vào đánh giá công khai, nhưng lần này đã mang ra một bảng so sánh điểm số với mô hình o1.
K0-math so sánh với các mô hình như o1-mini và o1-preview trong bài kiểm tra toán học.
Theo Mặt Trăng Bóng Tối, trong các bài kiểm tra trung học, cao đẳng và nghiên cứu sau đại học, k0-math đã vượt qua mô hình o1 của OpenAI. Mặt Trăng Bóng Tối tuyên bố rằng họ đã sử dụng các đề thi thật từ các kỳ thi trung học, cao đẳng và nghiên cứu sau đại học để thử nghiệm.
Về bài kiểm tra OMNI-MATH (một chuẩn đánh giá được Đại học Bắc Kinh và Alibaba công bố năm nay, nhằm đánh giá khả năng suy luận của các mô hình ngôn ngữ lớn trong các bài toán Olympic) và AIME (American Invitational Mathematics Examination – Cuộc thi mời toán Mỹ), k0-math đã đạt điểm thấp hơn so với o1.
K0-math có cách tiếp cận kỹ thuật tương tự như o1, cũng kết hợp thuật toán học tập tăng cường vào cấu trúc mô hình ngôn ngữ lớn để tạo ra một mô hình có thể suy nghĩ từng bước giống như con người, thể hiện “chuỗi suy nghĩ” (CoT, Chain of Thoughts) khi trả lời câu hỏi và tạo nội dung.
Yang Zhilin đã tóm tắt điều này là sự chuyển đổi mô hình quy mô từ dự đoán token tiếp theo (Next-Token Prediction Scaling) sang học tập tăng cường (Reinforcement Learning Scaling).
Yang Zhilin đã trình bày một số ví dụ về k0-math tại chỗ. Ví dụ, khi xử lý câu hỏi cuối cùng của cuộc thi toán AIME, k0-math đã thử nhiều hướng khác nhau, ban đầu sử dụng bất đẳng thức nhưng thất bại, sau đó sử dụng phương pháp thay thế để tìm ra câu trả lời chính xác, k0-math đã trình bày quá trình suy nghĩ chi tiết.
Một phần của quá trình suy nghĩ của k0-math khi giải quyết câu hỏi toán học, câu trả lời đầy đủ có hơn 100 dòng.
Nhưng đối với một số câu hỏi đơn giản, ví dụ như liệu 1+1 có bằng 1 hay không, 4046 / 476 là bao nhiêu, k0-math hiện đang có xu hướng “suy nghĩ quá mức”. Yang Zhilin nói rằng trong tương lai, khi mô hình trở nên thông minh hơn, nó sẽ có thể tự đánh giá xem câu hỏi nào cần suy nghĩ lâu hơn và câu hỏi nào có thể trả lời ngay lập tức.
Về cách sử dụng mô hình toán học mới, Yang Zhilin cho biết họ hy vọng sẽ sử dụng khả năng học tập tăng cường của k0-math trong các trường hợp tìm kiếm, kết hợp với phiên bản khám phá của Kimi, để hoàn thành tìm kiếm phức tạp hơn và phát huy nhiều giá trị hơn trong các tình huống làm việc.
Ví dụ, mô hình mới có thể hiểu ý định phong phú hơn của người dùng – khi một người dùng nhập “Tesla Model Y”, phiên bản khám phá có thể suy đoán rằng người dùng muốn thông tin về báo cáo tài chính hay so sánh giá, thay vì chỉ trả lời câu hỏi. “Trong quá trình thu thập dữ liệu, chúng ta có thể thấy rất nhiều nguồn dữ liệu khác nhau, dữ liệu giữa các nguồn có mâu thuẫn, cần suy nghĩ xem dữ liệu nào là thật và hiệu quả. Như vậy, mô hình có thể mở rộng sang nhiều nguồn dữ liệu hơn đồng thời hoàn thành suy luận chuỗi.” Yang Zhilin nói.
Trước đó, các hoạt động kỹ thuật và sản phẩm của Mặt Trăng Bóng Tối chủ yếu liên quan đến nén văn bản không mất dữ liệu (lossless long context). Khi ra mắt lần đầu tiên vào tháng 10 năm ngoái, Mặt Trăng Bóng Tối đã tuyên bố rằng Kimi có thể xử lý văn bản dài 200.000 chữ. Sau đó, Mặt Trăng Bóng Tối đã phát hành ba mô hình thuộc dòng moonshot-v1, phù hợp với việc tạo ra văn bản ngắn, văn bản dài và văn bản siêu dài. Đến tháng 3, văn bản dài đã được mở rộng từ 200.000 chữ lên 2 triệu chữ.
Yang Zhilin luôn nhấn mạnh rằng mô hình là sản phẩm. Cho đến nay, Mặt Trăng Bóng Tối ít công bố thông tin về mô hình và đánh giá, nói nhiều nhất về sản phẩm. Sản phẩm chính của Mặt Trăng Bóng Tối, Kimi, từ khi ra mắt vào tháng 11 năm ngoái đến nay đã tăng trưởng từ 0 lên 36 triệu người dùng hàng tháng, điều này giúp Mặt Trăng Bóng Tối, thành lập vào tháng 4 năm ngoái, đạt giá trị định giá hơn 3 tỷ USD trong chưa đầy 24 tháng.
Ngoài kỹ thuật, sản phẩm và thương mại hóa, thị trường cũng quan tâm đến đội ngũ cốt lõi, cấu trúc quản lý và các sự kiện tạm thời chưa rõ ràng xoay quanh nhóm sáng lập: điều này bao gồm khoản đầu tư 800 triệu đô la Mỹ từ Alibaba và các diễn biến sau đó, cũng như cuộc tranh chấp gần đây.
Công ty thường là sự thể hiện của đặc điểm cá nhân và phong cách của người sáng lập, đặc biệt là trong các công ty giai đoạn đầu.
Chủ đề chính của việc khởi nghiệp mô hình lớn AI vẫn là tốc độ tiến hóa kỹ thuật và ứng dụng. Nhưng mọi người cũng muốn biết thêm về Mặt Trăng Bóng Tối, muốn biết người lãnh đạo công ty này là ai.
Sau cuộc họp báo, Yang Zhilin đã trả lời một số câu hỏi tại chỗ, trích dẫn như sau (một số phần văn bản đã được cắt giảm):
Hỏi về kỹ thuật:
Có thể tóm tắt quá trình Mặt Trăng Bóng Tối chú ý đến mô hình học tập tăng cường không?
Yang Zhilin: Thay đổi này có thể dự đoán được. Chúng tôi đã nói từ sớm rằng tỷ lệ suy luận (tính toán) sẽ vượt xa tỷ lệ huấn luyện, về bản chất, đây là một vấn đề, vì không có nhiều dữ liệu để huấn luyện, chắc chắn sẽ thông qua học tập tăng cường để tạo dữ liệu. Vì vậy, chúng tôi đã lên kế hoạch từ sớm về việc chúng tôi có thể làm gì trong học tập tăng cường, bao gồm cả nhân lực và dự trữ kỹ thuật.
Nhân lực, chúng tôi đã chuẩn bị từ năm ngoái; về mặt kỹ thuật, cũng trải qua quá trình khác nhau, ví dụ như ban đầu là RLHF (học tập tăng cường dựa trên phản hồi của con người, đây là phương pháp hiệu chỉnh mà OpenAI sử dụng trên GPT-4), phát hiện rằng giới hạn không cao như mong đợi, vì vậy cần phải khám phá các cách mới, thực sự quy mô hóa.
Các mô hình và huấn luyện tiền kỳ của Mặt Trăng Bóng Tối trước đây ít được giới thiệu trực tiếp, hiện tại tình hình huấn luyện tiền kỳ của bạn như thế nào?
Yang Zhilin: Tôi nghĩ còn nửa thế hệ hoặc một thế hệ nữa, không gian này sẽ được mở ra vào năm sau, các mô hình hàng đầu năm sau sẽ đạt đến giai đoạn cực kỳ tốt của huấn luyện tiền kỳ.
Nhưng sau đó trọng tâm chính vẫn là học tập tăng cường. Nó vẫn là quy mô, chỉ là thông qua các cách khác nhau để quy mô hóa.
Mô hình cơ bản của Mặt Trăng Bóng Tối có sử dụng một phần mô hình nguồn mở không, hay tự làm?
Yang Zhilin: Chúng tôi tự làm.
Tại sao Mặt Trăng Bóng Tối chưa công bố mô hình đa phương thức?
Yang Zhilin: Chúng tôi cũng đang làm, đang thử nghiệm một số khả năng đa phương thức.
Khả năng AI quan trọng nhất tiếp theo là suy nghĩ và giao tiếp, tầm quan trọng của suy nghĩ lớn hơn giao tiếp, vì suy nghĩ sẽ quyết định giới hạn, trong khi giao tiếp là điều kiện cần thiết, nếu không có khả năng thị giác thì không thể giao tiếp.
Cách nhìn về giới hạn? Hãy xem xét nhiệm vụ này, độ khó của việc đánh dấu là gì, bạn cần một tiến sĩ để đánh dấu, hay mọi người đều có thể đánh dấu? Điều nào khó hơn, nó chính là giới hạn của AI hiện tại. Vì vậy, tôi nghĩ đa phương thức chắc chắn cần thiết, nhưng suy nghĩ quyết định giới hạn của AI.
Nhiều người hiện nay cảm thấy quy luật mở rộng quy mô gặp phải rào cản, bạn nghĩ điều này sẽ ảnh hưởng như thế nào đến cuộc cạnh tranh giữa các mô hình lớn của Mỹ và Trung Quốc? Giới hạn sẽ trở nên lớn hơn hay nhỏ hơn? Điều này có lợi hay hại cho các công ty Trung Quốc?
Yang Zhilin: Tôi nghĩ khoảng cách này tương đối là một hằng số, đối với chúng tôi, điều này có thể là một điều tốt.
Giả sử bạn tiếp tục huấn luyện tiền kỳ, năm nay 1 tỷ, năm sau 10 tỷ hoặc 100 tỷ, điều này không chắc chắn bền vững. Tất nhiên, huấn luyện sau cũng cần mở rộng quy mô, chỉ là điểm mở rộng ban đầu rất thấp, trong một thời gian ngắn, tính toán không phải là giới hạn, lúc này sự đổi mới là quan trọng hơn. Trong trường hợp này, chúng tôi có lợi thế.
Có vẻ như quy luật mở rộng quy mô đang hạn chế trí tuệ của bạn?
Yang Zhilin: Tôi khá lạc quan. Cốt lõi ở đây là, cách mở rộng quy mô ban đầu là sử dụng bộ dữ liệu tĩnh, khá đơn giản và thô bạo; giờ đây, sử dụng học tập tăng cường, trong nhiều trường hợp có người tham gia vào quá trình này, nhưng người không thể đánh dấu nhiều dữ liệu, vì vậy sử dụng AI làm đòn bẩy cho việc đánh dấu của con người, ví dụ đánh dấu 100 dòng dữ liệu có thể tạo ra tác động rất lớn, vì phần còn lại là AI tự suy nghĩ.
Tôi nghĩ rằng thông qua cách này, khả năng tạo ra sản phẩm rất cao.
Hỏi về sản phẩm và thương mại hóa:
Mô hình toán học mới này có chi phí suy luận như thế nào? Sau 1-2 tuần ra mắt, liệu người dùng có được lựa chọn sử dụng k0-math hay không, và trong trường hợp Kimi chưa có đăng ký thanh toán, làm thế nào để cân nhắc chi phí và cho phép nhiều người dùng hơn?
Yang Zhilin: Chúng tôi sẽ cho phép người dùng lựa chọn trong giai đoạn đầu, cách này giúp đáp ứng kỳ vọng của người dùng tốt hơn.
Nhưng cuối cùng, đây vẫn là vấn đề kỹ thuật, có hai điểm: một là có thể phân bổ sức mạnh tính toán một cách linh hoạt hơn, nếu mô hình đủ thông minh, nó nên biết câu hỏi nào cần suy nghĩ bao lâu, giống như con người, không suy nghĩ quá lâu về 1+1; hai là về lâu dài, chi phí cũng sẽ giảm dần, ví dụ, năm nay để đạt được mức độ tương đương với GPT-4 của năm ngoái, chỉ cần vài tỷ tham số, trong khi năm ngoái có thể cần hơn 100 tỷ. Toàn ngành đều đi từ lớn đến nhỏ, đây là quy luật chung.
Có thể nhìn nhận Kimi và Doubao như thế nào?
Yang Zhilin: Tôi không muốn chúng tôi quá tập trung vào cạnh tranh, vì cạnh tranh không tạo ra giá trị. Chúng tôi tập trung hơn vào việc cải tiến kỹ thuật và sản phẩm tốt hơn. Chúng tôi tập trung vào việc làm cho khả năng suy nghĩ và suy luận của mô hình tốt hơn.
Làm đúng việc, chứ không phải cố gắng làm điều gì đó khác biệt. Miễn là có ai đó thực hiện AGI, điều đó rất tốt.
Mục tiêu quan trọng nhất của Kimi hiện tại là gì?
Yang Zhilin: Mục tiêu quan trọng nhất là nâng cao tỷ lệ giữ chân người dùng. Vì tỷ lệ giữ chân là một chỉ số quan trọng để đánh giá sự trưởng thành của kỹ thuật, và hiện tại còn rất nhiều không gian để cải thiện. Khả năng của mô hình của chúng tôi và chỉ số sản phẩm có mối liên hệ chặt chẽ.
Hiện tại, khả năng suy nghĩ của mô hình của chúng tôi có thể chưa đủ mạnh, tương tác chưa đủ phong phú, khi chúng tôi làm tốt hơn những điều này, tỷ lệ giữ chân sẽ tăng lên.
Gần đây, một tổ chức bên thứ ba ước tính rằng Kimi đã chi 400-500 triệu đô la Mỹ cho quảng cáo, chủ yếu là quảng cáo video. Chiến lược chạy quảng cáo của Kimi là gì?
Yang Zhilin: Đầu tiên, dữ liệu không chính xác. Thứ hai, đối với chúng tôi, mục tiêu quan trọng nhất vẫn là giữ chân và tăng trưởng. Quảng cáo thích hợp là cần thiết, nhưng cần cân nhắc mối quan hệ giữa những điều này.
Tỷ lệ giữ chân bao nhiêu thì tôi sẽ hài lòng?
Yang Zhilin: Không bao giờ dừng lại.
Hỏi về đội ngũ:
Có thể nhìn nhận về việc nhân viên từ các công ty khởi nghiệp AI quay lại các công ty lớn không?
Yang Zhilin: Chúng tôi không gặp vấn đề này. Nếu các công ty khác gặp vấn đề, điều này cũng bình thường, vì sự phát triển của ngành công nghiệp đã bước vào giai đoạn mới, sẽ từ nhiều công ty làm việc, trở thành ít công ty làm việc hơn, và các công ty tiếp theo sẽ làm những việc khác nhau. Đây là quy luật tất yếu.
Có thể nhìn nhận về việc nhân viên rời bỏ Mặt Trăng Bóng Tối gần đây không?
Yang Zhilin: Đầu tiên, hãy xác nhận xem có vấn đề không, rồi mới hỏi tại sao. Chúng tôi không gặp vấn đề về nhân viên rời bỏ, chúng tôi đã chủ động làm giảm quy mô hoạt động.
Đây cũng là bài học lớn của chúng tôi trong năm qua, chúng tôi đã thử làm nhiều sản phẩm cùng một lúc, điều này đã hiệu quả trong một thời gian, nhưng sau đó phát hiện rằng điều này khiến chúng tôi trở thành một công ty lớn, không có lợi thế nào.
Cắt giảm hoạt động về cơ bản cũng là kiểm soát số lượng nhân viên. Trong số các công ty khởi nghiệp mô hình lớn, chúng tôi luôn duy trì số lượng nhân viên ít nhất, luôn duy trì tỷ lệ nhân viên cao nhất, điều này rất quan trọng. Chúng tôi không muốn đội ngũ của mình mở rộng quá lớn, điều này sẽ gây hại cho đổi mới.
Bên cạnh đó, chúng tôi cũng sẽ đánh giá tình hình thị trường Mỹ để xác định khả năng làm lớn của mỗi hoạt động. Siêu ứng dụng đã xuất hiện, lượt xem hàng tháng của ChatGPT đã vượt quá 500 triệu, nó ít nhất là một nửa siêu ứng dụng. Trong khi đó, các sản phẩm như Character.ai ban đầu có lượng người dùng lớn, nhưng sau đó khó phá vỡ ranh giới.
Vì vậy, dựa trên đánh giá của chúng tôi và tình hình thị trường Mỹ, chúng tôi tập trung vào những việc mà chúng tôi cho là có tiềm năng cao nhất, và điều này cũng liên quan nhất đến sứ mệnh AGI của chúng tôi.
Từ khóa:
- Facespace
- Yang Zhilin
- Reinforcement Learning
- AGI
- Retention Rate