Hành trình phát triển của một nghệ sĩ AI丨TECH TUESDAY




Giữa AI Sinh Ảnh: Tại Sao Khác Nhau Đến Vậy?

Giữa AI Sinh Ảnh: Tại Sao Khác Nhau Đến Vậy?

Bạn đã bao giờ tự hỏi tại sao những công cụ sinh ảnh từ văn bản như Stable Diffusion, Midjourney, DALL·E 2 và Văn Tâm Nhất Ký lại cho ra kết quả khác nhau? Mặc dù chúng đều dựa trên các thuật toán tương tự, nhưng hiệu suất của chúng có thể khác biệt đáng kể.

Khi bạn nhập một vài từ vào hộp văn bản, mong muốn biến chúng thành hình ảnh – từ núi non, hồ nước, động vật đến con người, đó không phải là điều dễ dàng. Để thực hiện điều này, máy tính cần hiểu được ngôn ngữ của chúng ta và chuyển đổi nó thành hình ảnh. Quá trình này đòi hỏi việc giải quyết các vấn đề khó khăn nhất trong lĩnh vực xử lý hình ảnh và xử lý ngôn ngữ tự nhiên.

Các sản phẩm như Stable Diffusion, Midjourney, DALL·E 2 và Văn Tâm Nhất Ký đều đã đạt được mức độ trưởng thành nhất định về mặt kỹ thuật. Tuy nhiên, Văn Tâm Nhất Ký đã gặp phải một số vấn đề gần đây khi tạo ra những hình ảnh không phù hợp với gợi ý. Ví dụ, khi nhận được gợi ý “cẩu thăng”, nó lại vẽ ra một con “tiên nga”, hoặc khi nhận “chuột máy tính” thì vẽ ra một con “chuột”.

Để giải thích cho những sai lầm này, Văn Tâm Nhất Ký đã đưa ra một tuyên bố ngắn gọn, nói rằng họ đã sử dụng dữ liệu công khai toàn cầu để huấn luyện mô hình của mình. Tuy nhiên, họ không giải thích rõ ràng tại sao lại xảy ra những lỗi này.

Mỗi sản phẩm đều phụ thuộc vào cơ sở hạ tầng do Google và OpenAI xây dựng. Sự bùng nổ trong việc tạo ra hình ảnh từ văn bản bắt đầu khi OpenAI ra mắt DALL·E 2 vào năm 2022, giới thiệu một loạt các tác phẩm mới do mô hình mới tạo ra.

Nhiều nhà khoa học đã thử nghiệm công nghệ “mạng sinh đối kháng” (GAN) từ năm 2015 để dạy máy tính cách tạo ra hình ảnh. Công nghệ này dựa trên việc huấn luyện mô hình bằng cách sử dụng hàng loạt hình ảnh giống hệt nhau, ví dụ như khuôn mặt con người, để học hỏi về đặc điểm của chúng.

Mặc dù đã có nhiều tiến bộ, nhưng vẫn còn nhiều hạn chế. Mô hình chỉ có thể vẽ những gì chúng đã được huấn luyện để vẽ – nếu được huấn luyện bằng dữ liệu khuôn mặt, chúng chỉ có thể tạo ra hình ảnh khuôn mặt ngẫu nhiên.

Năm 2017, Google đã giới thiệu cấu trúc Transformer, nâng cao khả năng hiểu ngôn ngữ của máy tính. Công nghệ này sau đó trở thành nền tảng cho nhiều mô hình ngôn ngữ lớn, như ChatGPT và GPT-4. Năm 2020, Google bắt đầu thí nghiệm với cấu trúc Transformer trong lĩnh vực xử lý hình ảnh, mở ra thời đại nghiên cứu mô hình lớn trong lĩnh vực thị giác máy tính.

Với sự hỗ trợ của kiến trúc Transformer của Google, OpenAI đã đạt được bước đột phá quan trọng trong việc tạo ra hình ảnh từ văn bản vào năm 2021. Họ đã huấn luyện mô hình của mình bằng hơn 400 triệu cặp hình ảnh và văn bản, chứng minh rằng mô hình AI có thể tìm kiếm hình ảnh chính xác dựa trên văn bản và ngược lại, nó cũng có thể hiểu được hình ảnh.

Hầu hết các sản phẩm sinh ảnh từ văn bản hiện nay, bao gồm DALL·E 2, Midjourney và Văn Tâm Nhất Ký, đều sử dụng hoặc lấy cảm hứng từ công nghệ CLIP của OpenAI để hiểu mối quan hệ giữa ngữ nghĩa và hình ảnh, sau đó tạo ra hình ảnh thông qua mô hình phân tán.

Một yếu tố quan trọng khác quyết định chất lượng của hình ảnh sinh ra là chất lượng dữ liệu huấn luyện và chiến lược điều chỉnh mô hình. Văn Tâm Nhất Ký đã công bố mô hình ERNIE-ViLG của mình vào năm 2021, với phương pháp huấn luyện tương tự như các đồng nghiệp. Tuy nhiên, họ đã cập nhật phiên bản 2.0 vào tháng 10 năm ngoái. Theo bài báo của họ, tập dữ liệu huấn luyện của ERNIE-ViLG bao gồm 177 triệu cặp hình ảnh và văn bản, một phần trong số đó là dữ liệu tiếng Trung của Baidu, và một phần khác là phiên bản dịch từ dữ liệu tiếng Anh công cộng.

Từ khóa: AI, Sinh Ảnh, Văn Bản, Công Nghệ, Hình Ảnh


Từ khóa: AI, Sinh Ảnh, Văn Bản, Công Nghệ, Hình Ảnh

Viết một bình luận