Họ làm một video giả như thế nào?

TTCT - Chúng ta đã biết chuyện các doanh nghiệp đang tìm cách thương mại hóa các công cụ làm ảnh giả, giọng nói giả, thân hình giả. Giờ, hãy tìm hiểu một doanh nghiệp khởi nghiệp với video giả.

Rất có thể bạn đã xem trên Facebook lan truyền một video rất “dễ thương”: lãnh đạo hàng loạt nước thay phiên nhau cùng hát bài Imagine của John Lennon.

Tổng thống Mỹ D. Trump xuất hiện trong video hát bài Imagine như thật.

Trong một vài phút, bạn tưởng như mình đang nằm mơ, thấy các chính trị gia gác sang một bên mọi xung đột, mọi hiềm khích để cùng nhau “tưởng tượng” về một thế giới hòa bình, không còn đói khát, không còn lòng tham, tất cả mọi dân tộc cùng chia sẻ Trái đất này. Tất nhiên, dù nhìn y như thật, đây là video giả do Canny AI, doanh nghiệp khởi nghiệp của Israel, tạo ra.

Canny AI dùng video này để minh họa phần mềm thông minh của họ mang tên VDR (Video Dialogue Replacement - Thay thế nội dung video), có khả năng thay thế bất kỳ đối thoại nào trong video. Tức bạn có thể lấy một video quay bài nói chuyện của cựu tổng thống Obama rồi dùng VDR chuyển thành video ông Obama hát nhạc rap dễ dàng.

Video hát Imagine nói trên thì “dễ thương” vì thể hiện mong muốn về một thế giới sống chung trong hòa bình, tuy nhiên tiềm năng kẻ xấu sử dụng công nghệ này làm video giả mạo nhằm mục đích xấu là rất cao. Và thường thì các video làm giả để chuyên chở những mục đích tăm tối.

Dẫu vậy, mục đích ban đầu của hai người sáng lập Canny AI thì khá “trong sáng”. Cả hai người, Omer Ben-Ami và Jonathan Heimann, đều xuất thân từ quân đội Israel, một người có bằng tiến sĩ vật lý lý thuyết, một người chuyên về tin học. Họ kể ở Israel, bộ phim truyền hình nhiều tập “3%” của Brazil rất được ưa chuộng nhưng cách lồng tiếng rất tệ. Nếu sử dụng công nghệ VDR của họ, việc chuyển đổi đối thoại trên bất kỳ phim nào từ ngôn ngữ này sang ngôn ngữ khác sẽ y như thật, tức diễn viên sẽ trông như đang nói thứ tiếng được lồng vào.

Lý do sáng tạo ra video giả các nhà lãnh đạo thế giới cùng nhau hát Imagine là bởi công nghệ sử dụng trí tuệ nhân tạo để tạo ra video giả bị gán cho tai tiếng là deepfakes, họ muốn tạo ra một video dù giả nhưng mang thông điệp tích cực để xóa tiếng oan cho công nghệ này.

Để tạo ra video Imagine, họ sử dụng những clip quay các nhà lãnh đạo thế giới, càng nhiều càng tốt. Sau đó, họ tự hát bài Imagine để có hình ảnh môi cử động theo đúng lời bài hát. Công đoạn tiếp theo là cho chạy hai dòng video này để phần mềm tự tìm và tự cắt dán sao cho khớp. Đầu tiên, họ cho mỗi nhà lãnh đạo hát nguyên cả bài. Sau đó, họ tuyển chọn để biên tập thành ra cảnh nhiều người lần lượt hát từng câu. Họ cho biết huấn luyện cho phần mềm lúc ban đầu thì mất thời gian nhưng sau khi máy đã học xong, quy trình chuyển đổi sẽ rất nhanh.

Mục đích sau cùng của họ với công nghệ VDR là nhằm lồng tiếng cho phim, chuyển đổi các phim huấn luyện sang nhiều ngôn ngữ khác nhau.

Nói thì dễ, nhưng thực ra rất khó để khiến các hãng phim đồng ý để nhà nhập khẩu lồng tiếng cho phim mà lại can thiệp vào cả hình ảnh. Lồng tiếng hay chen phụ đề là một chuyện; chỉnh sửa để miệng nhân vật cử động theo đúng ngôn ngữ được lồng là vi phạm bản quyền, ít ai chấp nhận.

Trong một video khác, Canny AI biểu diễn hướng lồng tiếng ngược lại, tức từ video gốc là một nhà lãnh đạo đang phát biểu bằng tiếng nước mình, ví dụ bằng tiếng Hàn, họ sẽ “chuyển dịch” để một người khác không biết gì tiếng Hàn vẫn biểu diễn miệng khép mở y như đang dùng tiếng Hàn để phát biểu.

Trước đó, một doanh nghiệp khác ở Anh, Synthesia cũng đã biểu diễn một màn lồng tiếng độc đáo mà thực chất là giữ nguyên giọng nói, thay gương mặt. Phát thanh viên Matthew Amroliwala của Đài BBC chỉ nói tiếng Anh nhưng trong một video do Synthesia chế biến, ông này hết chuyển từ tiếng Tây Ban Nha sang tiếng Tàu lẫn tiếng Hindi...

Đầu tiên, họ nhờ ông đọc bản tin bằng tiếng Anh, đồng thời cùng nội dung đó họ nhờ những người nói tiếng Tây Ban Nha, tiếng Tàu, tiếng Hindi đọc bằng ngôn ngữ của chính họ. Synthesia sử dụng phần mềm của họ sáng tạo để chỉnh sửa khuôn mặt của Amroliwala theo khuôn mặt của người nói từng ngôn ngữ khác nhau.

Synthesia do giáo sư Matthias Niessner đồng sáng lập. Ông là một trong những tác giả của công trình nghiên cứu do Đại học Stanford công bố về cách chỉnh sửa video để khớp với bất kỳ ngôn ngữ nào trên thế giới gọi là tổng hợp gương mặt. Synthesia đang rao dịch vụ dịch nội dung video sang nhiều thứ tiếng, trong đó miệng của các nhân vật sẽ cử động khớp với ngôn ngữ mới.

Chưa biết họ sẽ đắt khách hay không nhưng như tên của doanh nghiệp này cho thấy, họ sẽ khai sinh một loại truyền thông mới, truyền thông nhân tạo (synthetic media). Với chiều hướng này, chúng ta ngày càng sẽ khó phân biệt đâu là tin thật, đâu là tin giả, bởi giữa chúng nay còn thêm tin “nhân tạo”, video “nhân tạo” nữa.■