Mọi thứ đều có thể... giả mạo

TTCT - Trong thời tin tức giả (fake news), đôi khi “trăm nghe trăm thấy” cũng vẫn bị lừa như thường.

minh họa

Đặt câu hỏi “tấm ảnh này có bị Photoshop không?” gần như đã trở thành phản xạ của những người “cảnh giác cao” trong thời fake news.

Nhưng với những “chứng cứ” khác, như đoạn video quay “cảnh nóng” của người nổi tiếng hay băng ghi âm phát ngôn nhạy cảm của chính trị gia, ta dễ tin rằng sự việc đã diễn ra đúng như thế vì những bằng chứng này dường như không thể ngụy tạo bằng phần mềm như Photoshop.

Điều đó chỉ đúng trước khi trí tuệ nhân tạo (AI) bùng nổ. Giờ đây, thật - giả chắc như “mắt thấy tai nghe” cũng bị lung lay, bởi vì AI vừa có thể “phù phép” giọng nói như xử lý một bức hình - chỉnh sửa, thêm bớt, thậm chí nhái giọng như thật, vừa có thể tạo video giả kiểu “nhét chữ vào mồm” - cho nhân vật mấp môi theo bất kỳ đoạn âm thanh nào.

Trong bài viết “AI sẽ khiến việc làm giả mọi thứ dễ dàng như thế nào?” trên Wired ngày 1-7, tác giả Greg Allen vẽ ra tương lai đáng sợ khi con người sẽ phải “liên tục đối mặt với băng ghi âm và ghi hình giả nhưng nhìn và nghe như thật”.

“Khi bị “ngập lụt” trong những thông tin thật giả lẫn lộn đó, chúng ta sẽ phải vật lộn để biết nên tin vào cái gì” - Allen cảnh báo.

Nghiên cứu làm giả đoạn diễn văn của ông Obama.

Làm giả bài phát biểu của tổng thống

Người Mỹ không xa lạ gì với việc xem ông Barack Obama khi còn là tổng thống đọc bài phát biểu với quốc dân vào mỗi thứ bảy (weekly address) qua video phát trên website Nhà Trắng. Định dạng chung của các video này là ông Obama ngồi trong văn phòng ở tòa Bạch Ốc và đọc, với góc quay ngang ngực.

Giữa tháng 7, các nhà nghiên cứu thuộc ĐH Washington giới thiệu công cụ có thể “phù phép” một video như thế, để ông Obama thay vì nói chuyện quốc gia đại sự sẽ chia sẻ chuyện sắp tới gia đình ông định nghỉ lễ Giáng sinh thế nào.

Chuyện không đơn giản chỉ là xóa âm thanh của video gốc và ghép lời nói trong một cuộc nói chuyện khác của ông Obama vào, vì người xem sẽ phát hiện ngay khi thấy khẩu hình không khớp với tiếng nói.

Video của ĐH Washington cho thấy chuyển động môi của cựu tổng thống chính xác như những lời thốt ra, dù rõ ràng ông không nói chuyện riêng tư như thế trong bài phát biểu từ Nhà Trắng.

Để biến điều không thể trên thành có thể, nhóm nghiên cứu cho AI “nghiền ngẫm” các video có cảnh ông Obama nói chuyện để học cách chuyển động môi của ông.

Khi đã “thuộc bài”, AI có thể chỉnh sửa khẩu hình ông Obama trong một video bất kỳ cho khớp với phần audio (tiếng nói) tùy chọn và “dán đè” chuyển động môi đó lên chính đoạn phim đó mà không để lại dấu vết.

Nhóm nghiên cứu đã dùng nguồn audio từ cuộc phỏng vấn của ông Obama với người dẫn chương trình Steve Harvey về chủ đề Giáng sinh để gán vào đoạn phim quay cảnh ông ngồi đọc diễn văn cuối tuần, mà nội dung gốc không liên quan gì đến chuyện lễ lạt.

Các nhà nghiên cứu đã cho AI xem video tổng cộng 17 tiếng để nắm được cách bắt ông Obama tròn môi khép miệng theo ý muốn.

Trong tương lai, việc dạy này có thể rút xuống chỉ còn một giờ! Nhóm nghiên cứu cho rằng công nghệ của họ có thể ứng dụng vào các chương trình gọi điện qua Internet: khi cần “alô” cho người thân, ta chỉ việc gọi thoại thông thường mà không cần gọi video call, vừa nhanh vừa tiết kiệm tiền dữ liệu mà “đầu dây” bên kia vẫn thấy video mình nói chuyện như thật.

Video gốc (hình dưới bên trái): gương mặt ông Trump bình thường. Khi người điều khiển “làm trò”, miệng ông Trump cũng méo theo (hình bên phải).

Giọng ải giọng ai?

Hạ tuần tháng 4, Công ty khởi nghiệp Lyrebird (Canada) công bố chương trình AI chỉ cần nghe đúng một phút “giọng mẫu” là có thể “copy” được giọng nói của bất kỳ ai.

Lyrebird khoe công nghệ của mình bằng một đoạn ghi âm buổi thảo luận về chủ đề khởi nghiệp giữa đương kim Tổng thống Mỹ Donald Trump, người tiền nhiệm Obama và bà Hillary Clinton. Đoạn băng này hoàn toàn giả vì ba người chưa bao giờ gặp nhau như thế và toàn bộ giọng nói đều do AI tạo ra.

Vì công nghệ còn ở mức sơ khai, nếu tinh ý, người nghe vẫn có thể phát hiện dù rất giống nhưng các giọng nói này là sản phẩm của máy móc, chứ không phải con người thật.

Song giới chuyên gia đánh giá công nghệ của Lyrebird thật sự ấn tượng (giọng ông Trump nghe giống nhất) và hoàn toàn có lý do để tin rằng nó sẽ đạt mức hoàn thiện cao hơn trong tương lai rất gần.

Lyrebird cho biết thuật toán của họ còn có thể thêm cảm xúc cho giọng nói, như tỏ ra vui vẻ hay giận dữ hơn và có nhiều ứng dụng hữu ích như làm sách nói với giọng đọc của người nổi tiếng, làm giọng nói cho trợ lý ảo, trò chơi điện tử hay tạo giọng nói cho người khuyết tật.

Năm ngoái, Adobe - cha đẻ phần mềm Photoshop - công bố dự án VoCo, được kỳ vọng sẽ là “Photoshop của âm thanh” - tức chỉnh sửa các file âm thanh dễ dàng và linh hoạt như với hình ảnh.

VoCo cũng có thể bắt chước giọng nói, nhưng cần phải được nghe ít nhất 20 phút giọng nói gốc để học, so với chỉ một phút như Lyrebird. Song tính năng nổi bật nhất của VoCo là đổi hoặc thêm từ ngữ vào đoạn ghi âm gốc, dù người nói không hề có các phát ngôn đó.

Khi xử lý file thu âm, lồng tiếng, đôi khi chúng ta muốn thay đổi hoặc thêm một hay vài từ vào bản ghi. Thông thường sẽ phải cho đọc và thu âm lại, song VoCo sẽ giải quyết vấn đề này dễ dàng trên máy tính.

“Bạn chỉ việc gõ từ muốn đổi hay thêm vào, phần mềm sẽ xử lý để có bản ghi âm mới với nội dung mới, chân thật như thể chính người được ghi âm đã nói những từ cần chỉnh sửa đó” - Adobe giải thích.

Tháng 3-2016, một nhóm các nhà nghiên cứu từ Học viện công nghệ thông tin Max Planck (Max Planck Institute for Informatics), ĐH Erlangen-Nuremberg và ĐH Stanford ra mắt phần mềm Face2Face, cho phép người dùng tùy biến gương mặt của nhân vật trong băng video theo biểu cảm thật trên mặt của mình.

Ví dụ của nhóm cho thấy một người ngồi làm đủ trò với gương mặt của mình, từ nheo, nhắm mắt đến nhăn nhó và trên màn hình tivi, gương mặt của Tổng thống Trump, cựu tổng thống George Bush và cả Tổng thống Nga Putin cũng có các biểu cảm tương ứng.

ĐH London (Anh) công bố thuật toán có thể nhái nét chữ giống gần như 100%. Nhóm nghiên cứu thừa nhận các chuyên gia giám định có thể phát hiện “hàng giả” của họ, song phần mềm sẽ tiếp tục được phát triển và ngày càng khó bị “bắt bài” hơn.

Mọi thứ đều giả, thì sao?

Với những “chuyên gia copy” AI kể trên, có thể tưởng tượng một viễn cảnh bi thảm đến mức nào nếu những công nghệ này bị lợi dụng. Ta sẽ phải làm gì nếu ngày nọ bỗng dưng nhận được trát tòa án cáo buộc tội danh gì đó với một mớ bằng chứng, file ghi âm, bản viết tay, cả video dường như không chối cãi được, nhưng thật ra chúng đều là sản phẩm của những phần mềm kể trên?

Phần mềm của ĐH Washington chỉ hoạt động với giọng nói của ông Obama. Vậy nếu ai đó dùng Lyrebird để giả giọng đương kim tổng thống Mỹ nói những điều kinh khủng, tạo video giả, chiếu cảnh ông nói ra những lời ấy khi đang đăng đàn chính thức tại một sự kiện quốc tế thì sao?

Những công cụ nói trên có lẽ là điều khao khát của những kẻ chuyên trục lợi từ tin đồn nhảm trên mạng.

Khi công nghệ đạt đỉnh, việc ngụy tạo file ghi âm hay video có liên quan đến người nổi tiếng, chính trị gia trở nên quá dễ dàng và mạng xã hội luôn là mảnh đất màu mỡ để những tin giả đó lan truyền với tốc độ chóng mặt.

Những tin đồn vô căn cứ hiện đã rất dễ bùng phát trên Facebook, khi chúng được làm giả tinh vi hơn thì mức độ lan tỏa sẽ còn đến mức nào?

Theo Wired, chỉ 2-3 năm nữa công nghệ nhái giọng có thể đủ tốt để đánh lừa tai nghe thông thường và 5-10 năm để qua mặt được chuyên gia giám định.

Hệ sinh thái thông tin khi ấy dù muốn dù không cũng phải chấp nhận thêm audio và video giả bên cạnh hình ảnh hay tài liệu giả. “Sự phát triển của công nghệ làm giả này sẽ làm thay đổi bản chất của hai từ “chứng cứ” và “sự thật” trong nhiều lĩnh vực, từ báo chí, thông tin chính phủ, lời khai tại tòa và tất nhiên còn có an ninh quốc gia” - tác giả Allen cảnh báo.

Các nhà nghiên cứu “làm giả với AI” nhận thức được mặt trái của công nghệ này và có sẵn câu trả lời để trấn an dư luận. Nhóm nghiên cứu ĐH Washington cho biết họ phản đối việc “nhét chữ vào mồm” người khác.

“Vì thế bạn sẽ không thể lấy bất kỳ giọng nói của ai rồi tạo video ông Obama nói điều đó” - GS Steve Seitz, đại diện nhóm, khẳng định.

Lyrebird cũng nói rõ họ nắm vững các khía cạnh đạo đức khi phát triển công nghệ nhái giọng của mình. Giải pháp của Lyrebird là công khai để mọi người đều biết “trên đời này có tồn tại công nghệ bắt chước giọng nói” nhằm cảnh giác.

“Công nghệ này sẽ phải diễn ra, nếu chúng tôi không làm thì người khác sẽ làm” - đại diện Lyrebird, Alexandre de Brébisson, biện bạch.

De Brébisson và nhiều chuyên gia tin rằng chuyện audio hay video giả cũng giống như khi ảnh bị chỉnh sửa xuất hiện cùng với sự ra đời của Photoshop.

Điều cần làm là phổ biến cho mọi người biết rằng âm thanh và video có thể bị làm giả “và chúng ta sẽ thích nghi với “thế giới mới” này, thậm chí còn có thể đùa vui với chúng” - tác giả Tony Aube nói trong bài viết “AI và dấu chấm hết cho sự thật” trên VentureBeat ngày 9-2.■

Các thuật toán AI đều cần thêm thời gian hoàn thiện, vì thế vẫn còn kịp để đồng thời phát triển các công nghệ phát hiện giọng nói hay video giả. The Economist gợi ý cần ra quy định “mọi bản ghi âm, video đều phải có thêm thông tin cụ thể nó đã được quay, ghi từ khi nào, ở đâu và như thế nào” để phát hiện file giả bằng cách đối chiếu lại với tình hình thực tế.