Google Trở Lại với Gemini: Thách Thức OpenAI và NVIDIA
Google Trở Lại với Gemini: Thách Thức OpenAI và NVIDIA
Không có một buổi họp báo hoành tráng, không có chiến dịch quảng cáo rầm rộ, chỉ thông qua một bài blog và một báo cáo kỹ thuật, Google có thể đã thay đổi cục diện của ngành công nghệ mô hình lớn toàn cầu.
Vào ngày 6 tháng 12 theo giờ địa phương, Google đã công bố ba phiên bản của mô hình đa phương tiện lớn, được gọi là Gemini (Song Tử). Trong đó, phiên bản Gemini Ultra được so sánh với mô hình lớn nhất hiện tại, GPT-4. Sundar Pichai, Giám đốc điều hành của Google, nói rằng: “Đây là mô hình mạnh mẽ và linh hoạt nhất mà chúng tôi từng tạo ra, dẫn đầu trong nhiều bài kiểm tra chuẩn hàng đầu.”
Phiên bản Gemini Ultra, với quy mô tham số lớn nhất và hiệu suất tốt nhất. Google không tiết lộ cụ thể số lượng tham số, nhưng các chuyên gia trong ngành ước tính vượt quá một nghìn tỷ. Phiên bản này đối đầu trực tiếp với GPT-4 về hiệu suất.
Phiên bản Gemini Pro có ít tham số hơn phiên bản Ultra, tối ưu hóa chi phí suy luận, trở thành phiên bản chính được triển khai nội bộ và cung cấp dịch vụ bên ngoài. Hiện tại, nó đã được sử dụng trong chatbot Google Bard.
Phiên bản Gemini Nano, được huấn luyện đặc biệt cho thiết bị di động. Với hai phiên bản khác nhau để phù hợp với bộ nhớ khác nhau của thiết bị, với số lượng tham số lần lượt là 180 triệu và 325 triệu.
Ngoài việc Gemini Ultra và các phiên bản khác đạt được những điểm số ấn tượng trong các bài kiểm tra, quy trình và phương pháp huấn luyện mô hình lớn của Google có thể mang lại ảnh hưởng lớn hơn cho cả ngành công nghiệp.
Là mô hình lớn được huấn luyện bằng cách sử dụng TPU tự phát triển của Google, TPU v4 và TPU v5e, ba phiên bản Gemini mỗi phiên bản đều có trọng tâm riêng, cùng nhau phá vỡ những giới hạn trước đây – thách thức OpenAI đồng thời còn có khả năng làm lung lay vị thế độc quyền của NVIDIA trong thị trường chip AI.
Sự xuất hiện của Gemini Ultra đã đưa Google vào hàng ngũ các công ty hàng đầu trong lĩnh vực mô hình lớn. Theo Google, Gemini Ultra đã vượt qua GPT-4 trong 30 bài kiểm tra khả năng của mô hình lớn, và đạt 90% điểm trong bài kiểm tra MMLU đánh giá kiến thức về toán học, lịch sử, vật lý, luật pháp và 57 môn học khác, trở thành mô hình đầu tiên vượt qua trình độ chuyên gia con người.
Gemini Ultra đã vượt qua GPT-4 trong nhiều bài kiểm tra. Hình bên trái là khả năng xử lý văn bản, hình bên phải là khả năng xử lý hình ảnh, video và âm thanh. Hình ảnh từ Google. (Chuyển trang để xem)
Sundar Pichai đã sử dụng một đoạn video vẽ để thể hiện khả năng hiểu biết đa chiều của Gemini Ultra. Khi một người thật vẽ một con vịt và trò chuyện, mô hình có thể hiểu được từng bước vẽ và nói chính xác điều đó. Ví dụ, khi người vẽ sơn màu xanh lên con vịt, mô hình sẽ nói “con vịt trông màu xanh”, sau đó, không cần nhận thêm lệnh mới, nó sẽ chỉ ra rằng con vịt xanh không phổ biến.
Tuy nhiên, phiên bản mạnh nhất của Gemini sẽ chỉ được mở cửa cho công chúng vào năm tới, và hiệu quả thực sự của nó có thể vượt qua GPT-4 hay không vẫn cần được xác minh. Sundar Pichai giải thích rằng việc dành thêm thời gian là để thực hiện kiểm tra an toàn nghiêm ngặt và khám phá đầy đủ chức năng thực sự của nó. Trước đó, OpenAI đã mất nửa năm sau khi hoàn thành GPT-4 để làm tương tự.
Các phiên bản lớn hơn với tham số nhỏ hơn đã được phân phối dưới dạng khác nhau cho người dùng và nhà phát triển. Nhà phát triển Android đã có thể sử dụng Gemini Nano để phát triển ứng dụng trên điện thoại Pixel 8 Pro; người dùng Pixel 8 Pro cũng có thể sử dụng nó để tóm tắt ghi chú cuộc họp.
Google đã thay đổi mô hình đằng sau chatbot Bard của mình từ PaLM 2 sang Gemini Pro. Một số nhà phát triển đã thử nghiệm và thấy rằng hiệu quả cải thiện hơn so với phiên bản cũ, nhưng so với GPT-4 vẫn còn khoảng cách đáng kể, thậm chí một số người nói rằng nó chỉ ở mức GPT-3.5.
Khi nhìn vào kết quả mới nhất của Google, một số chuyên gia trong lĩnh vực trí tuệ nhân tạo và các nhà đầu tư trên Phố Wall dường như tỏ ra lạnh nhạt. Một số chuyên gia AI không tỏ ra ấn tượng như khi GPT-4 ra mắt, mà chỉ nói rằng Google đã quay trở lại. Họ cho rằng Google nên đã làm được điều này từ lâu.
Những điều này có thể giải thích tại sao cổ phiếu của Google giảm 0,74% sau giờ giao dịch, vượt xa mức giảm của chỉ số NASDAQ. Tuy nhiên, điều này đã khá hơn so với lần Google công bố chatbot Bard vào đầu năm, khi đó cổ phiếu của họ giảm 7,4%.
Trong làn sóng trí tuệ nhân tạo, Google luôn ở vị trí độc đáo. Đây là một trong những công ty đầu tiên nghiên cứu AI và có công nghệ tiên tiến nhất, sở hữu nhiều bằng sáng chế về công nghệ cơ bản của AI. Trong báo cáo kỹ thuật của Google, có đến 837 người đóng góp cho Gemini, nhiều hơn cả số nhân viên của OpenAI.
Nó cũng là công ty internet lớn nhất thế giới, phục vụ hàng tỷ người mỗi ngày. Hệ điều hành Android của nó có thể ảnh hưởng đến hơn 3 tỷ người dùng điện thoại trên toàn thế giới. Nó có khả năng thu thập dữ liệu khổng lồ hơn bất kỳ công ty nào khác, không chỉ là văn bản, mà còn có video (YouTube).
Nói về hạ tầng, Google đã nghiên cứu chip AI trong tám năm và sắp tới sẽ có lượng sức mạnh AI lớn nhất thế giới. Một trong những lý do thành lập OpenAI là để ngăn chặn AI mạnh mẽ chỉ rơi vào tay Google – liên minh với Microsoft và NVIDIA, OpenAI đã phần nào đạt được mục tiêu này.
Sau khi bỏ lỡ thời cơ trong lĩnh vực điện toán đám mây, Google đang có cơ hội để thể hiện lựa chọn chip AI mới: không cần GPU hàng đầu, cũng có thể huấn luyện mô hình lớn hàng đầu.
Giữa lúc các đối thủ phải vật lộn để mua đủ GPU của NVIDIA, Google thông qua việc tự phát triển đã cung cấp nguồn tài nguyên tính toán không chỉ giúp họ nhanh chóng cải tiến mô hình lớn, mà còn có cơ hội kiếm thêm thu nhập từ việc bán phần cứng. Họ tuyên bố rằng khách hàng như Salesforce và Lightrick đã sử dụng siêu máy tính TPU v5p của Google Cloud để huấn luyện mô hình lớn.
Nhiều năm qua, việc nghiên cứu và ra mắt sản phẩm AI của Google đã được cân nhắc kỹ lưỡng hơn về mặt pháp lý và dư luận xã hội, do đó, nó thường được xem là thận trọng hơn so với các công ty nhỏ hơn, đây cũng là một trong những lý do mà nhiều nhân viên Google tin rằng OpenAI đã có thể ra mắt ChatGPT trước.
Đối mặt với tấn công mạnh mẽ từ liên minh OpenAI và Microsoft, Google đã nhanh chóng hành động, tích hợp Google AI và DeepMind, bắt đầu trì hoãn việc công bố kết quả nghiên cứu mới nhất, nhằm lấy lại lợi thế đã mất – Google không thể chấp nhận việc tụt hậu trong kỷ nguyên AI sau khi đã bỏ lỡ thời cơ trong kỷ nguyên điện toán đám mây.
Trong tài liệu kỹ thuật và lời phát biểu công khai, các giám đốc điều hành của Google đã nhấn mạnh rằng đây chỉ là phiên bản 1.0 của Gemini, và sẽ có phiên bản nâng cao hơn được ra mắt vào năm tới.
Năm nay, khi được hỏi về việc không ra mắt Bard trước khi ChatGPT ra đời, Sundar Pichai trả lời rằng Google không phải là người đầu tiên tạo ra công cụ tìm kiếm, cũng không phải là người đầu tiên tạo ra trình duyệt. “Đôi khi việc trở thành người đầu tiên rất quan trọng, nhưng đôi khi không,” ông nói. Ông cho rằng, miễn là liên tục cải tiến sản phẩm, thực hiện các chức năng tốt hơn, thì việc ra mắt sau cũng có thể đi trước.
Nay, khi được hỏi “Bạn đã học được gì từ GPT-4?”, câu trả lời của ông là: “Hiện tại không phải là một trò chơi không-tổng-hợp, trí tuệ nhân tạo có ảnh hưởng lớn, và chúng ta vẫn đang ở giai đoạn đầu. Tương lai đầy cơ hội.”
Từ khóa:
- Gemini
- OpenAI
- NVIDIA
- Trí tuệ nhân tạo