Giả video từ chỉ một bức ảnh

TTCT - Trước đây người ta cần hàng ngàn tấm ảnh, nhiều giờ video của nhân vật đưa cho máy học rồi sau đó mới trông mong nó “sáng tạo” video mới. Nay chỉ cần một tấm ảnh thôi là đủ!

Mấy tuần trước, thiên hạ xôn xao chuyện chủ tịch Hạ viện Mỹ - bà Nancy Pelosi bị chỉnh sửa video để trông có vẻ phát biểu khi đang say rượu. Thật ra, chuyện này không có nhiều ý nghĩa xét về khía cạnh thật - giả, vì giả như thế rất dễ phát hiện.

Điều đáng lưu ý là mặc dù YouTube ngay sau đó đã gỡ bỏ video này nhưng Facebook thì không. Facebook lấy lý do họ không có chủ trương buộc mọi thông tin do người dùng đưa lên Facebook phải đúng sự thật.

Nếu ai còn hoài nghi về vai trò của Facebook trong lan truyền tin giả thì đây là minh chứng mới nhất cho lập trường rất kỳ lạ của Facebook: họ nói vừa gỡ bỏ 3 tỉ tài khoản giả nhưng một video giả có hại cho uy tín một cá nhân lại không được gỡ xuống.

Quay lại chuyện dùng trí tuệ nhân tạo (AI) để làm video giả, trước đây người ta cần hàng ngàn tấm ảnh, nhiều giờ video của nhân vật đưa cho máy học rồi sau đó mới trông mong nó “sáng tạo” video mới, Nay chỉ cần một tấm ảnh thôi là đủ!

Trung tâm AI của Samsung tại Nga vừa công bố một nghiên cứu trong đó họ huấn luyện cho máy làm quen với các đặc điểm chính yếu của gương mặt, tức hình dạng chung của mắt, mũi, miệng ở các cử động tiêu biểu. Khi máy đã học xong, nó có thể dựa vào chỉ một tấm hình duy nhất, từ đó tạo ra video có nhân vật trong tấm hình nói chuyện tự nhiên như thật.

Một video công bố kèm theo cho thấy các tấm hình quen thuộc chụp các nhân vật nổi tiếng như Albert Einstein, Fyodor Dostoyevsky hay Marilyn Monroe cử động y như đang nói chuyện. Ngay cả các bức họa nổi tiếng như bức Người đàn bà xa lạ, hay bức Mona Lisa cũng có thể là nguồn dữ liệu để máy biến hóa thành video Mona Lisa nói chuyện với người xem tranh!

Dĩ nhiên, công nghệ cho ảnh tĩnh thành ảnh động vẫn còn sơ khai; Người đàn bà xa lạ khi mở miệng nói sẽ làm nhiều người thích bức tranh này vỡ mộng. Các cử động của Mona Lisa cứng nhắc làm mất hẳn vẻ mềm mại của tranh gốc. Nhưng máy đã làm được đến đó thì chỉ cần có thêm thời gian, nó sẽ hoàn thiện các video giả từ một tấm ảnh để lừa hết thảy chúng ta. Nếu chỉ sử dụng một tấm ảnh để tạo video, hình động của người trong ảnh sẽ còn giữ các nét chính của nhân vật dùng để dạy cho máy. Càng sử dụng nhiều ảnh tĩnh, máy càng dễ tạo video giả trông thật hơn.

Giám đốc Công ty Synthesia, Victor Riparbelli, cho rằng chỉ ba năm nữa, người ta sẽ tạo ra các video giả các nhân vật nổi tiếng thật đến nỗi không ai có thể biết đâu là giả, đâu là thật. Synthesia vừa tạo ra một video David Beckham cho chiến dịch phòng chống bệnh sốt rét, trong đó anh chàng cầu thủ này tuyên truyền cho chiến dịch nhưng nói bằng 9 thứ tiếng bằng 9 giọng nói của những bệnh nhân sốt rét được chữa khỏi.

David Beckham trong video của chiến dịch chống bệnh sốt rét (Ảnh: .menshealth.com)

Dù sao cho đến nay, trong hàng loạt fake news bị vạch trần, chưa thấy có fake news nào liên quan đến deepfake, trừ video bà Nancy Pelosi nói trên - mà thực chất chỉ là cho tốc độ của video chạy chậm lại chứ không phải sử dụng AI gì cả.

Lý do đầu tiên là video làm giả theo kiểu AI để lại dấu vết rất rõ - hiện nay đã có những thuật toán phát hiện video giả công khai cho mọi người dùng. Chẳng hạn, các nhà nghiên cứu ở Đại học Albany phát hiện chỉ cần phân tích cách nhân vật chớp mắt trong một video là có thể phân định đâu là giả, đâu là thật. Video chỉnh sửa theo các phương pháp cổ điển như thay đổi tốc độ, ánh sáng… thì máy không tự động phát hiện nên các nhóm làm tin giả không dại gì làm deepfake.

Một đặc điểm của tin giả là nửa giả nửa thật, thường không khẳng định chuyện gì mà chỉ nói khơi khơi như thật. Deepfake không có đặc điểm này vì nó đập vào mắt người xem (chẳng hạn, ai cũng biết David Beckham làm sao nói được 9 thứ tiếng, mà toàn ngôn ngữ lạ).

Quan trọng nhất, các deepfake dù tinh vi đến mấy cũng rơi vào chỗ để lại cái cảm giác “ghê ghê” như đang chứng kiến người máy nói chuyện trong phim giả tưởng. Cảm giác này hiện diện rất rõ khi xem các robot kiểu Sophia nói chuyện.

Robot Sophia

Như vậy, cái đáng sợ không phải là video kiểu Mona Lisa hát nhạc rap. Cái đáng sợ hơn là một môi trường văn hóa nơi người ta có thể tin vào những câu chuyện hoang đường, lúc đó video giả chỉ là chất củng cố niềm tin của mọi người theo thiên kiến có sẵn.■