Nghe mô tả mà họa nên hình

TTCT - Trao tài cầm kỳ thi họa cho trí tuệ nhân tạo từ lâu đã là mục tiêu được các ông lớn công nghệ theo đuổi. Đỉnh cao mới nhất họ hướng đến là tạo ra thuật toán nghe mô tả bức tranh cần vẽ và họa ngay sản phẩm đúng yêu cầu.

Công ty nghiên cứu trí tuệ nhân tạo (AI) OpenAI và Google mới đây đã công bố thế hệ mới của AI chuyển văn bản thành hình ảnh (text-to-image) với khả năng đáng kinh ngạc: chúng có thể vẽ nên mọi thứ với đủ phong cách từ những mô tả bằng câu chữ; giới hạn duy nhất là trí tưởng tượng.

Cuộc đua song mã

Ra mắt lần đầu vào đầu năm 2021, Dall-E của OpenAI là sự pha trộn giữa hai cái tên Salvador Dali (danh họa siêu thực người Tây Ban Nha) và Wall-E (chú robot trong bộ phim hoạt hình cùng tên của Pixar). Chương trình này có thể tiếp nhận mô tả bằng ngôn ngữ viết và tạo ra một hình ảnh hoàn toàn độc đáo bằng thuật toán AI. Đầu vào “một con cáo trên cây” sẽ trả về bức ảnh con cáo đang ngồi trên cây; hoặc “phi hành gia với chiếc bánh mì trên tay” sẽ có kết quả… đúng như những gì bạn đang hình dung trong đầu. Thế hệ AI đầu tiên này dù gây ấn tượng nhưng chưa thật sự hoàn hảo: hình ảnh thường bị mờ, nội dung không hoàn toàn chính xác như mô tả và phải mất một lúc lâu mới cho ra kết quả.

Phiên bản Dall-E 2 ra mắt vào tháng 4-2022 là một sự cải tiến vượt bậc. Cùng với một số tính năng mới, sự khác biệt chính ở thế hệ 2.0 là bước tiến dài về độ phân giải hình ảnh, độ trễ được cải thiện đáng kể, và một thuật toán thông minh hơn. Dall-E 2 không chỉ tạo ra hình ảnh theo một kiểu duy nhất (ảnh chụp) mà giờ đây đã có thể thỏa mãn các yêu cầu về chất liệu và phong cách nghệ thuật khác nhau như sơn dầu, đất sét, dệt len, tranh hang động thời tiền sử hoặc thậm chí là nhại theo phong cách một tấm apphich phim thập niên 1960.

“Dall-E 2 là một trợ lý rất hữu ích giúp khuếch đại những gì một người bình thường có thể làm, nhưng nó thực sự phụ thuộc vào sự sáng tạo của người sử dụng nó. Một nghệ sĩ hoặc một người có khả năng sáng tạo có thể tạo ra một số tác phẩm thật sự thú vị” - Aditya Ramesh, một trong những kỹ sư chính đằng sau dự án Dall-E 2 nói với tạp chí Science Focus.

Tuy vậy, Dall-E nhanh chóng có đối thủ đáng gờm khi ngày 23-5 vừa qua Google đã chính thức tham gia cuộc chơi với sự ra đời của Imagen - một AI chuyển văn bản thành hình ảnh hứa hẹn đem lại chất lượng đầu ra vượt trội. Google tự tin tuyên bố hình ảnh do Imagen tạo ra có độ chân thực và chính xác cao hơn DALL-E 2, dựa trên một hệ đánh giá do chính công ty này tạo ra có tên DrawBench (để tình nguyện viên chấm điểm “mù” tranh thật và tranh do AI của Google và đối thủ vẽ).

Một tác phẩm của Dall-E 2: hai con gấu Teddy đi mua thực phẩm vẽ theo phong cách tranh phù thế (ukiyo-e).

Tiềm năng vô hạn

Mô hình của Google và OpenAI có nguyên lý hoạt động gần giống nhau. Trước một đoạn văn bản, thuật toán liên tục tạo ra các hình ảnh và thay đổi từng pixel một cho đến khi khớp với phần mô tả nhất dựa trên những gì nó đã học được. Chương trình này cũng có thể chỉnh sửa một hình ảnh cho sẵn để thêm vào đó một vật thể mà vẫn đảm bảo mọi yếu tố từ ánh sáng, đổ bóng, hình ảnh phản chiếu và kết cấu đều nhất quán với mọi thứ xung quanh. Thậm chí, AI này còn có khả năng tạo ra nhiều phiên bản khác nhau từ một bức ảnh gốc mà vẫn giữ nguyên phong cách nghệ thuật cũng như chủ thể.

Tương lai các họa sĩ minh họa và tay máy chuyên chụp ảnh stock có thể sẽ thất nghiệp nếu phần mềm này thật sự làm được những gì mà nó hứa hẹn. Cần ảnh bìa cho một bài báo về tương lai robot xâm chiếm trái đất? Chỉ cần nhập vào “hai robot thưởng thức bữa ăn sang trọng với hậu cảnh là tháp Eiffel” là có ngay một tấm ảnh xịn sò. Cần tranh minh họa cho tiểu thuyết? Chỉ cần nhập nội chung chính của phân cảnh đó cùng phong cách nghệ thuật mong muốn.

Nên nhớ các AI như Dall-E 2 và Imagen không đơn thuần chỉ là cái máy ghép ảnh, nghĩa là lấy những hình ảnh có sẵn của từng thực thể rồi ghép chúng lại với nhau trong một bức ảnh. Nhờ việc kết xuất ngẫu nhiên từng pixel, ngay cả những viễn cảnh phức tạp không ai nghĩ tới và chưa từng xảy ra trong thực tế như “một chú chó corgi bên trong chuồng chó làm bằng cơm cuộn”, “tranh sơn dầu vẽ một con gấu mèo mặc đồ hoàng gia, treo trên một bức tường được trang trí bằng giấy dán tường”... đều được AI tạo ra một cách hoàn hảo và không chút khó khăn.

“Tôi chưa bao giờ nghĩ những người làm công việc sáng tạo lại phải lo sợ mất việc. Nhưng tôi không còn chắc chắn về điều đó nữa” - tài khoản Twitter ArjunoKecil cảm thán. “Thật là điên rồ. Nghề mới của tương lai chăng: chuyên viên nghĩ ra mô tả cho AI…” - một người dùng khác bình luận.

Và những hạn chế

Cách tốt nhất để đánh giá chất lượng những hình ảnh do các AI này tạo ra là tự xem và cảm nhận bằng chính mắt mình. Cả OpenAI và Google đều có trang web riêng để công chúng chiêm ngưỡng các tác phẩm do AI của họ sáng tạo ra, lần lượt tại địa chỉ openai.com/dall-e-2 và imagen.research.google.

Tuy nhiên, sẽ rất khó đánh giá đầy đủ ở thời điểm hiện tại vì cả 2 công ty đều không cung cấp công cụ cho phép người dùng tùy nghi nhập vào phần mô tả để kiểm chứng kết quả, mà chỉ giới hạn lựa chọn trong những từ khóa được cung cấp sẵn. Tốt khoe xấu che, nên cũng không có gì lạ nếu các công ty này chỉ đăng những kết quả tốt nhất trong khi bỏ qua những “sản phẩm lỗi” của mình. Do đó, dù tất cả những bức ảnh được công khai đều trông có vẻ hoàn hảo, chúng có thể không đại diện cho đầu ra trung bình của cả hệ thống.

Các tác phẩm của Imagen dựa trên những yêu cầu kỳ quặc nhất.

Nhưng Google và OpenAI có lý do chính đáng cho việc hạn chế tiếp cận bộ công cụ AI mạnh mẽ của họ, bởi chúng có thể bị lợi dụng cho mục đích xấu. Hãy tưởng tượng một hệ thống mở với khả năng sản xuất hình ảnh với bất cứ nội dung gì để sử dụng cho việc lan truyền tin giả, lừa đảo, quấy rối hoặc thậm chí là khiêu dâm. Hơn nữa, như chính Google cũng lưu ý, hệ thống của họ có thể vô tình chịu ảnh hưởng bởi các định kiến xã hội như phân biệt chủng tộc, phân biệt giới tính hoặc mang tính độc hại theo nhiều cách khác nhau. Chẳng hạn, từ khóa “tiếp viên hàng không” gần như chắc chắn trả về hình ảnh nữ giới, trong khi “CEO” sẽ cho ra kết quả một người đàn ông da trắng.

Phần lớn nguyên nhân là do cách các hệ thống này được lập trình. Về cơ bản, để đào tạo bất kỳ AI nào đều cần dữ liệu (trong trường hợp này là các cặp hình ảnh - chú thích). Thuật toán máy tính sẽ nghiên cứu dữ liệu này để tìm ra quy luật và học cách tái tạo chúng. Nhưng những mô hình như thế cần rất nhiều dữ liệu đầu vào và hầu hết các nhà nghiên cứu - ngay cả những người làm việc cho những gã khổng lồ công nghệ với tiềm lực dồi dào như Google - đều đồng ý rằng tự nghĩ ra dữ liệu là bất khả thi. Vì vậy, họ chấp nhận thu thập một lượng lớn hình ảnh cùng chú thích đi kèm từ Internet. Kết quả là các mô hình AI đã dung nạp (và học cách tái tạo) cả những điều tốt lẫn tất tần tật những thứ xấu xa mà ta bắt gặp trên mạng.

Các tác phẩm của Dall-E 2. Mỗi dòng yêu cầu lại có nhiều phiên bản khác nhau.

“Yêu cầu về dữ liệu quy mô lớn của các mô hình chuyển văn bản thành hình ảnh […] đã khiến các nhà nghiên cứu phụ thuộc nhiều vào tập dữ liệu lớn được quét từ Internet, hầu hết là không được chọn lọc[...] Các cuộc kiểm định đã cho thấy những tập dữ liệu này có xu hướng phản ánh các định kiến xã hội, quan điểm áp bức và các mối liên hệ mang tính xúc phạm hoặc có hại đối với các nhóm dân bên lề xã hội” - bài báo của Google thừa nhận.

Vì lý do này, OpenAI không phát hành DALL-E công khai, nhưng công ty cung cấp quyền truy cập cho số lượng hạn chế những người tham gia thử nghiệm giai đoạn beta. Chương trình cũng có bộ lọc đầu vào để ngăn mô hình này bị sử dụng để tạo ra hình ảnh phân biệt chủng tộc, bạo lực hoặc khiêu dâm. Còn với Google, Imagen “không phù hợp để công chúng sử dụng ở thời điểm hiện tại” và công ty cho biết họ có kế hoạch phát triển một cách mới để đánh giá “thiên kiến xã hội và văn hóa trong các sản phẩm tương lai”.■