Vì sao nhiều tờ báo "bán mình" cho AI?

TTCT - Trước làn sóng mô hình ngôn ngữ lớn luôn "khát" dữ liệu, các báo có hai chọn lựa: hoặc kiện để cấm AI lấy dữ liệu hoặc ký hợp đồng bán luôn hết thảy mọi thông tin.

Các mô hình ngôn ngữ lớn như ChatGPT của OpenAI, Gemini của Google hay Copilot của Microsoft sống nhờ dữ liệu. Chúng tiêu thụ hết mọi thứ từng đăng tải trên Internet, từ đủ loại sách truyện đến các bàn luận trên các diễn đàn và nhiều nhất là lấy từ báo chí.

Đứng trước thực tế này, các báo có hai chọn lựa: hoặc kiện để cấm AI lấy dữ liệu hoặc ký hợp đồng bán luôn hết thảy mọi thông tin.

Tờ The New York Times chọn cách đầu khi kiện OpenAI và Microsoft vì theo họ, công ty này đã lấy cả triệu bài báo trên The New York Times để huấn luyện cho các AI tạo sinh mà không xin phép gì cả.

Trong khi đó, mới tuần trước trang Vox và tạp chí The Atlantic chọn cách sau khi ký hợp đồng với OpenAI cho nơi này tùy nghi sử dụng nội dung trên các ấn phẩm của hai nơi này với số tiền không được tiết lộ.

Chủ bán, nhân viên phản đối

Một điểm gây ngạc nhiên là sau tin The Atlantic bán nội dung cho OpenAI, một cây bút của tờ báo này đăng ngay một bài mang tựa đề "Cuộc mặc cả quỷ dữ với OpenAI".

Bên trong bài, tác giả nói rõ hơn sau khi kể nhiều tờ báo khác cũng bán như thế như Business Insider và Politico: "Tất cả có cảm giác như thể các chủ báo đang thương lượng với, chà, nói được không nhỉ - [với] một gã thân đỏ, đuôi nhọn, có hai sừng".

Tác giả lập luận AI tạo sinh không phải là bạn bè thân thiết gì với báo chí vì từng lấy hết nội dung có bản quyền để huấn luyện mà không xin phép; chúng cũng tạo điều kiện phát tán tin giả, báo giả, góp phần gây hại cho báo chí đang ở vào giai đoạn khó khăn nhất. Jessica Lessin, CEO của The Information, viết: "Các chủ báo phải bảo vệ giá trị của báo, kể cả kho báo cũ. Họ phải có sự liêm chính để trả lời - Không bán".

Báo chí trong thời đại kỹ thuật số đối diện với câu hỏi sinh tử: Làm thế nào để đưa tin tức đến với bạn đọc?

Báo chí tự mình không thể phát hành đến độc giả; một phần lớn là nhờ các nền tảng công nghệ, từ bộ máy tìm kiếm thông tin như Google Search, các mạng xã hội như Facebook hay gần đây là các AI tạo sinh, tiêu thụ tin tức rồi đẻ ra câu trả lời cho người hỏi.

Vì lý do đó, báo chí phải cạnh tranh với bất kỳ người viết nào khác, dù chỉ là một cá nhân viết trên Facebook, nhất là các cá nhân này cũng sản xuất được video, hình ảnh và bài viết chất lượng.

Cuộc cạnh tranh như thế dẫn đến việc bỏ qua công đoạn tốn kém, mất thời gian là kiểm chứng thông tin. Các nền tảng công nghệ, kể cả thuật toán của Google kích thích các đề tài giật gân hoặc đề tài gây cảm xúc mạnh mẽ; từ đó mới đẻ ra các loại tít câu view, câu khách.

Báo chí có chất lượng cố gắng duy trì việc kiểm chứng thông tin trước khi đăng tải nhưng nhìn chung chất lượng báo chí giảm sút vì cuộc cạnh tranh sống còn này. Nhiều báo chú tâm tạo nội dung phù hợp với việc tối ưu hóa cho bộ máy tìm kiếm hơn là nội dung có ích cho độc giả.

Từ đó câu hỏi đặt ra cho các báo đồng ý "bán mình" cho OpenAI là nhằm mục đích gì. Nicholas Thompson, CEO của tờ The Atlantic, vẫn đồng ý trả lời phỏng vấn của báo mình và giải thích: "Về mặt nội dung chúng ta có làm gì khác trước vì nay có sự hợp tác với OpenAI? Không có gì cả. Chúng ta cũng sẽ xuất bản cùng các bài đó, làm các việc như cũ - chỉ có điều tôi hy vọng chúng ta sẽ có thêm độc giả đọc báo [nhờ OpenAI]".

Rõ ràng tiền là một động cơ mạnh, dù không báo nào tiết lộ cụ thể. Các báo có thêm các công cụ AI hỗ trợ cho nhà báo. Vươn tới nhiều độc giả hơn là ước muốn của mọi báo.

Thế nhưng các vấn đề mà sự hợp tác này có thể gây ra cũng không phải là ít. Nhìn chung AI tạo sinh không làm cho Internet lành mạnh hơn, chính xác hơn. Ngược lại chúng tạo điều kiện cho mọi thứ tin giả được viết chuyên nghiệp đi kèm hình ảnh, video giả như thật lan rộng.

Chỉ riêng chuyện các AI tạo sinh thường bị ảo giác, cung cấp thông tin sai lệch; giả dụ thông tin sai lệch lại được ChatGPT gán cho các tờ báo họ mua thông tin, cái hại cho uy tín các báo sẽ vô cùng to lớn.

Ở đây cần nói thêm, thỏa thuận giữa The Atlantic và OpenAI không có nghĩa người dùng ChatGPT có thể đọc nguyên bài báo trên tờ The Atlantic, bỏ qua tường lửa báo này dựng lên để bán báo.

OpenAI chỉ được phép trích dẫn The Atlantic ở mức độ "fair use" (sử dụng hợp lý) theo luật bản quyền. OpenAI có quyền tiếp cận nội dung cũ của The Atlantic ngay từ lúc thành lập báo vào năm 1857.

Về mặt chính thức, công đoàn đại diện cho nhân viên tờ The Atlantic phản đối thỏa thuận của chủ báo với OpenAI, đặc biệt vì sự thiếu minh bạch về nội dung chi tiết của thỏa thuận, các tác động lên tương lai nhân viên và tờ báo.

Công đoàn Vox cũng bày tỏ lo ngại về sự hợp tác, theo họ, sẽ có tác động tiêu cực lên nhân viên, chưa kể mối lo ngại về đạo đức và môi trường xung quanh việc sử dụng AI tạo sinh.

Giám đốc nội dung, Bryan Walsh của Vox so sánh việc các mô hình AI khát dữ liệu với câu chuyện ngụ ngôn con người sai AI chế tạo kẹp giấy (xem box), để cảnh báo rằng sự tập trung của các công ty công nghệ vào lợi nhuận và thị phần sẽ dẫn tới sự diệt vong hệ sinh thái chính các AI đang dựa vào để huấn luyện.

Trước đó, OpenAI đã ký nhiều hợp đồng mua nội dung của nhiều nơi khác như Nhà xuất bản Axel Springer, mạng xã hội Reddit, gây ra phản ứng của người dùng mạng này; các báo thì có tờ Wall Street Journal, Financial Times, hãng tin AP… tổng cộng chừng 70 đơn vị. Google thì chưa thỏa thuận với ai.

Kiện được không?

Với vụ kiện của The New York Times, phía OpenAI nói họ có lấy nội dung nhưng trong phạm vi "sử dụng hợp lý" luật bản quyền cho phép. Nghĩ cũng khó kiện vì các chatbot như ChatGPT đọc The New York Times như mọi độc giả khác; chúng đọc xong, tiêu thụ và đẻ ra nội dung mới dựa vào cái chúng đã đọc là chuyện bình thường với người khác ngoài đời thật.

Chứng minh chúng vi phạm bản quyền dựa vào nội dung chúng cung cấp là khó. Chính vì vậy The New York Times kiện chuyện OpenAI chép hàng triệu bài báo của họ để huấn luyện ChatGPT, tức kiện "nhân" chứ không kiện "quả".

Nhân vụ hai chủ báo "bán mình" cho OpenAI, đại diện The New York Times lên tiếng cho rằng việc OpenAI quyết định đi đến thỏa thuận với một số báo càng khẳng định việc họ ý thức được họ đang sử dụng trái phép những nội dung có bản quyền, vượt xa mức "sử dụng hợp lý".

Vụ kiện của The New York Times không nêu yêu cầu bồi thường nhưng buộc bên bị kiện phải chịu trách nhiệm cho "hàng tỉ đô la thiệt hại" và yêu cầu các hãng phải phá hủy các mô hình nào có vi phạm bản quyền.

Đối chiếu với các sai sót cho AI gây ra cho Google khi nhanh nhảu trả lời bậy cho người tìm thông tin, có thể nói sẽ có thêm nhiều vụ kiện như thế.

Khi có người hỏi nên ăn mỗi ngày bao nhiêu viên đá, AI của Google trả lời các nhà địa chất khuyến cáo nên ăn ít nhất một viên đá mỗi ngày - đây là nội dung lấy từ tít một bài báo trên tờ báo châm biếm The Onion.

Một câu hỏi khác "CIA thường dùng bút dạ quang màu gì?", Google đáp màu đen mà không biết nguồn nó trích dẫn cũng từ một bài báo tiếu lâm trên The Onion. Chỉ cần hai trường hợp này Onion đã có thể kiện Google lấy thông tin từ họ, cung cấp sai tinh thần thông tin, có thể gây hại đến uy tín của họ.

Ngay trong đơn kiện của The New York Times, họ trích dẫn một số trường hợp Bing Chat của Microsoft cung cấp thông tin sai mà nói là lấy nguồn từ The New York Times, như kết quả của câu hỏi "15 thức ăn lành mạnh nhất", trong đó 12 loại thức ăn do Bing bịa ra chứ trong bài báo được trích dẫn là không đề cập.

Ngoài The New York Times, hàng loạt tờ báo khác cũng kiện OpenAI như New York Daily News, Chicago Tribune, Denver Post, Mercury News, The Intercept, Raw Story… Chưa có vụ kiện nào được đưa ra xử.

Nan đề AI và kẹp giấy là một thí nghiệm tưởng tượng do triết gia và chuyên gia AI Nick Bostrom đưa ra. Ông vẽ ra viễn cảnh AI tối tân được giao một nhiệm vụ duy nhất, tưởng hoàn toàn vô hại: làm ra càng nhiều kẹp giấy càng tốt. Với một mục tiêu như vậy, AI sẽ cố đạt được bằng mọi cách.

"AI sẽ nhanh chóng nhận ra là không có con người sẽ tốt hơn vì con người có thể sẽ tắt nguồn nó, mà tắt nó đi thì sẽ làm được ít kẹp giấy hơn. Chưa kể cơ thể con người cũng có nhiều nguyên tử làm kẹp giấy được. Tương lai mà AI hướng tới sẽ có thật nhiều kẹp giấy nhưng không có con người" - Bostrom giải thích trên tờ HuffPost năm 2014.

Câu chuyện này từ đó được dẫn lại mỗi khi đề cập tới nguy cơ AI trở nên "hủy diệt" nếu không được kiểu soát đúng mực.