Ngăn AI 'xài chùa' nội dung

TTCT - Các nền tảng AI đang "cào" thông tin miễn phí trên Internet để giải đáp mọi thắc mắc của người dùng. Chủ sở hữu những nội dung số ấy đang chống lại và tìm kiếm một mô hình công bằng hơn.

Những nền tảng AI như ChatGPT đang sử dụng công cụ thu thập thông tin tự động (crawler) để tổng hợp nội dung từ nhiều nguồn khác nhau trên Internet, gần như loại bỏ hoàn toàn nhu cầu ghé thăm trang web gốc của người dùng và ảnh hưởng đến "chén cơm" của những trang này.

Chặn crawler hay biến nó thành một nguồn thu hợp lý đang là câu hỏi mà nhiều chủ trang phải đối diện.

"Hiến pháp" đầu tiên của Internet

Các công cụ tìm kiếm truyền thống chẳng hạn như Google sử dụng crawler để lập danh mục toàn bộ Internet rộng lớn: chúng tự động ghé thăm một trang web, đọc nội dung của nó, rồi tiếp tục ghé thăm tất cả liên kết có trong trang web đó để vẽ lên một tấm bản đồ tương đối hoàn chỉnh của hàng tỉ tên miền khác nhau trên Internet.

Và trong suốt ba thập kỷ qua, một tập tin đơn giản hiện diện trong hầu hết mã nguồn của các trang web đã tồn tại như một bản giao ước ngầm giữa các bên nhằm giúp Internet vận hành trơn tru theo cách có lợi cho tất cả mọi người.

Tập tin mang tên robots.txt cho phép bất kỳ ai điều hành một trang web dù lớn hay nhỏ - từ trang blog cá nhân cho đến trang chủ của tập đoàn đa quốc gia - đặt ra "nội quy" dành cho các crawler tự động rằng chúng có được chào đón hay không.

Khi crawler của một công cụ tìm kiếm ghé thăm một địa chỉ web, robots.txt thường là tập tin mà nó đọc đầu tiên để hiểu ý muốn của chủ nhà. Nếu chủ nhà đồng ý, trang web của họ sẽ được lập danh mục và có thể hiển thị trong kết quả tìm kiếm.

Đây là một cuộc trao đổi đôi bên cùng có lợi: bạn cho phép công cụ tìm kiếm thu thập thông tin, đổi lại chúng hứa sẽ mang người dùng đến trang của bạn thông qua kết quả tìm kiếm. "Nó như một bản hiến pháp mini của Internet" - cây bút David Pierce ví von trong bài viết đăng trên trang The Verge.

Sáng kiến về tập tin robots.txt ra đời từ thập niên 1990, xuất phát từ đề xuất của một nhóm quản trị viên và lập trình viên nhằm giúp các trang web không bị quá tải vì lưu lượng truy cập đến từ những công cụ tự động. Ngày nay, một ước tính của Google năm 2019 cho thấy có hơn 500 triệu trang web có chứa tập tin robots.txt.

Dù là một quy ước được chấp nhận rộng rãi, robots.txt không phải là một văn bản pháp lý thực thụ mà vận hành chủ yếu dựa vào thiện chí của các bên liên quan trong suốt 30 năm qua. Nó chẳng khác nào tấm biển "không phận sự miễn vào" được gắn trên cửa các khu vực hạn chế - đó là một thông báo, nhưng không phải là cơ chế ngăn chặn thực thụ.

Trong thực tế, trang Internet Archive - với sứ mệnh trở thành kho lưu trữ toàn bộ Internet - năm 2017 đã tuyên bố rằng họ sẽ không tiếp tục tuân thủ những gì mà tập tin robots.txt của các trang web quy định mà vẫn sẽ đọc nội dung của chúng như thường.

"Qua thời gian, chúng tôi nhận thấy rằng các tập tin robots.txt hướng đến crawler của công cụ tìm kiếm không nhất thiết phục vụ mục đích lưu trữ của chúng tôi" - Mark Graham, giám đốc dự án Wayback Machine thuộc Internet Archive, viết vào thời điểm đó.

Giao ước bị đảo lộn

Sự xuất hiện của AI càng khiến giao ước tồn tại hàng chục năm này có nguy cơ bị đảo lộn. Sự trỗi dậy của các sản phẩm AI như ChatGPT mà nền tảng là các mô hình ngôn ngữ lớn đã biến dữ liệu đào tạo AI chất lượng cao trở thành một trong những mặt hàng có giá trị nhất trên Internet.

Đối với nhiều người, việc các mô hình AI thu thập thông tin trên trang của mình không còn là một giao dịch có qua có lại mà là hành vi ăn cắp chất xám, bởi họ không được lợi gì từ chúng.

"Điều mà chúng tôi nhanh chóng nhận ra ở các công ty AI không chỉ đó không phải là một cuộc trao đổi của giá trị, mà chúng tôi còn chẳng nhận lại gì. Hoàn toàn là con số 0" - CEO nền tảng Medium Tony Stubblebine nói với The Verge.

Phần lớn giới truyền thông có cùng quan điểm với Stubblebine. Năm ngoái, giám đốc đài BBC Rhodri Talfan Davies tuyên bố kênh tin tức này sẽ chặn crawler của OpenAI vì họ không tin rằng việc cào dữ liệu từ BBC để huấn luyện mô hình AI là "vì lợi ích cộng đồng".

Báo The New York Times cũng chặn crawler của OpenAI và đệ đơn kiện công ty này với cáo buộc xây dựng các mô hình của họ bằng cách sao chép và sử dụng hàng triệu sản phẩm có bản quyền của tờ báo.

Một thống kê do biên tập viên Ben Welsh của hãng tin Reuters thực hiện năm 2025 cho thấy 606 trong số 1.156 đơn vị xuất bản tin tức được khảo sát có chặn crawler của OpenAI trong tập tin robots.txt của họ.

Nhưng số lượng các công ty AI đang gia tăng nhanh chóng cộng với việc không có ràng buộc nào khiến họ phải tôn trọng quy ước của tập tin robots.txt tạo ra nhu cầu về một giải pháp căn cơ hơn là tiếp tục thêm tên những crawler mình muốn chặn vào danh sách ngày một dài.

"Nếu AI thật sự là tương lai của tìm kiếm như Google và những công ty khác đã dự báo, chặn crawler AI có thể là một chiến thắng về ngắn hạn nhưng lại là thảm họa về lâu dài" - The Verge nhận xét.

Thu tiền thay vì ngăn chặn

Cloudflare - nhà cung cấp dịch vụ hạ tầng, an ninh và phần mềm cho khoảng 20% các trang web hiện hữu trên Internet - vừa giới thiệu một khuôn khổ chính sách mới được thiết kế nhằm cung cấp cho chủ sở hữu trang web, nhà xuất bản và người tạo nội dung quyền kiểm soát tốt hơn đối với cách các hệ thống AI truy cập và sử dụng nội dung của họ.

CEO Cloudflare Matthew Prince cho biết chính sách này sinh ra nhằm mục đích tạo ra một sân chơi công bằng. "Mọi công cụ trả lời bằng AI cần phải chơi theo những luật lệ giống nhau" - Prince nói với Business Insider.

Theo đó, công cụ mới này của Cloudflare sẽ cho phép các chủ trang quy định chi tiết hơn không chỉ nội dung nào của họ mà crawler được phép truy cập, mà còn tinh chỉnh tùy vào mục đích của việc thu thập.

Chẳng hạn, người dùng Cloudflare sẽ có thể cho phép crawler của Google truy cập nhằm mục đích lập chỉ mục và liệt kê trang web của họ trong kết quả tìm kiếm, nhưng không được phép lấy nội dung để huấn luyện mô hình AI.

Ngoài khuôn khổ do Cloudflare đề xuất, còn có các sáng kiến khác như chuẩn Responsible AI Licensing Standard (RSL) được phát triển bởi một nhóm các nền tảng như Reddit, Fastly và một số đơn vị xuất bản tin tức. RSL tạo ra một bộ tiêu chuẩn để các nhà xuất bản nội dung "tính tiền" AI - về cơ bản là yêu cầu AI trả tiền bản quyền bất cứ khi nào nội dung của họ được thu thập, theo trang Digiday.

Thu phí thay vì ngăn chặn cũng là ý tưởng đằng sau chính sách thử nghiệm "pay-per-crawl" (trả tiền mỗi lượt crawl) mà Cloudflare giới thiệu từ tháng 7-2025. Theo bài blog giới thiệu về công nghệ này, Cloudflare cho biết khách hàng của họ có thể ra giá cho một crawler bất kỳ biết cần trả bao nhiêu tiền để truy cập nội dung.

Ở phía ngược lại, công ty vận hành crawler cũng có thể cài đặt mức giá có thể chấp nhận được cho mỗi lượt truy cập. Nếu hai bên "khớp giá", truy cập sẽ được mở như thường lệ và hóa đơn tính tiền sẽ được Cloudflare thay mặt khách hàng gửi đến các đơn vị liên quan mỗi tháng.

TollBit, một công ty start-up có trụ sở tại New York, đang theo đuổi mô hình kinh doanh bằng cách giúp các nhà xuất bản tin tức theo dõi và kiếm tiền từ việc cho phép các công ty AI sử dụng nội dung của mình.

Số liệu được TollBit chia sẻ với báo The Washington Post cho thấy lưu lượng truy cập từ các công cụ thu thập thông tin đã tăng 49% trong quý 1-2025 so với quý 4-2024 dựa trên 266 trang web mà công ty này theo dõi.

"Số lượng người thật truy cập vào trang của bạn có thể giảm, nhưng chúng tôi tin rằng lưu lượng truy cập ròng về cơ bản sẽ bùng nổ" - The Washington Post dẫn lời CEO kiêm người đồng sáng lập TollBit Toshit Panigrahi.

Hiện có hơn 3.000 nhà xuất bản và trang web sử dụng nền tảng TollBit trên toàn cầu để theo dõi hơn 1,5 tỉ lượt thu thập dữ liệu của bot máy tính mỗi quý và nhận thanh toán trực tiếp mỗi khi các bot này truy cập trang web của họ, theo thông cáo báo chí ngày 17-9 của Akamai, một đơn vị hợp tác với TollBit.

Similarweb, công ty đo lường lưu lượng truy cập đến hơn 100 triệu tên miền web, ước tính rằng tỉ lệ lưu lượng truy cập toàn cầu đến từ các công cụ tìm kiếm đã giảm khoảng 5% từ đầu năm tính đến tháng 6-2025, theo tạp chí The Economist.

Các trang web bị ảnh hưởng nặng nề nhất chính là những trang có nội dung những gì người dùng có xu hướng tìm đến AI để tìm câu trả lời nhanh chóng, chẳng hạn như tin tức, khoa học hay sức khỏe. Đối với các trang kiếm tiền nhờ đặt quảng cáo hoặc thu phí đăng ký, mất đi lượt truy cập đồng nghĩa mất doanh thu.

Neil Vogel, người đứng đầu nhà phát hành tin tức Dotdash Meredith (đã đổi tên thành People Inc.), cho biết cách đây 3 năm, hơn 60% lưu lượng các trang web của họ đến từ Google, nhưng giờ đã giảm xuống chỉ còn trên 30%. Similarweb ước tính kể từ khi Google ra mắt tính năng AI Overviews thì tỉ lệ các tìm kiếm liên quan đến tin tức trong đó người dùng không nhấp vào đường dẫn đến trang web nào đã tăng từ 56% lên 69%.