"Thư viện bóng tối": Anh hùng hay đạo tặc?

TTCT - Các nền tảng lưu trữ và cho phép người dùng tải trái phép sách có bản quyền đang vận hành như những "thư viện bóng tối" (shadow library) đầy tranh cãi.

Theo Báo cáo minh bạch của Google, tính đến 10-11, hãng đã gỡ bỏ khỏi kết quả tìm kiếm hơn 755 triệu đường dẫn (URL) có liên quan đến Anna's Archive - một trong những nền tảng tải sách lậu lớn nhất thế giới - vì lý do vi phạm bản quyền.

Cũng theo thống kê này, các đường dẫn liên quan đến Anna's Archive nằm trong top 3 tên miền được chủ sở hữu bản quyền báo cáo vi phạm nhiều nhất, cho thấy sức ảnh hưởng của những nền tảng được mệnh danh là các "thư viện bóng đêm" đang khiến giới xuất bản đau đầu.

Đánh cắp hay "sử dụng hợp lý"?

Anna's Archive tự nhận là "thư viện mở thật sự lớn nhất trong lịch sử nhân loại" với hơn 61 triệu đầu sách và 95 triệu bài báo khoa học - hầu hết đều là những nội dung vi phạm bản quyền và được phân phối trái phép.

Theo trang Mashable, bản thân nền tảng Anna's Archive chỉ là một công cụ tìm kiếm: nó không lưu trữ tài liệu vi phạm bản quyền, mà chỉ giúp người dùng tìm kiếm tài liệu đó trên Internet. Hơn 1.000 nhà xuất bản khác nhau và cả những tác giả độc lập đã đề nghị Google gỡ bỏ đường dẫn liên quan đến nền tảng này khỏi kết quả tìm kiếm, chiếm khoảng 5% trên tổng số hơn 15 tỉ URL được yêu cầu gỡ bỏ kể từ ngày 10-3-2011 (thời điểm Google bắt đầu công khai báo cáo minh bạch).

Con số trên càng đáng kinh ngạc hơn khi Anna's Archive chỉ mới xuất hiện từ năm 2022, nghĩa là chỉ mất 3 năm để trở thành mối bận tâm hàng đầu của giới xuất bản.

Ngoài phục vụ nhu cầu tải sách lậu của các cá nhân, các thư viện bóng tối còn đang nổi lên như một kho tài nguyên ngồn ngộn hoàn toàn miễn phí dùng để huấn luyện mô hình ngôn ngữ lớn được các công ty phát triển trí tuệ nhân tạo (AI) ưa chuộng.

Apple là công ty mới nhất trong số các ông lớn công nghệ vướng phải rắc rối pháp lý liên quan đến việc sử dụng sách lậu để huấn luyện AI.

Theo đơn kiện tập thể do hai nhà khoa học đến từ Đại học tiểu bang New York nộp lên tòa sơ thẩm liên bang Hoa Kỳ ngày 9-10, Apple bị cáo buộc vi phạm luật bản quyền khi sử dụng các tài liệu được tải lậu và bản sao của sách điện tử để đào tạo công cụ Apple Intelligence.

Trong số các tập dữ liệu được Apple sử dụng để huấn luyện mô hình OpenELM có "Books3" - một cơ sở dữ liệu sách vi phạm bản quyền bao gồm những cuốn sách mà nguyên đơn là tác giả, theo trang Bloomberg Law.

Trước đó, Apple từng bị hai tác giả khác kiện với cáo buộc rằng công cụ "cào" dữ liệu Internet tự động Applebot của công ty đã lấy tài liệu từ các thư viện bóng tối.

Bên cạnh Apple, các ông lớn về AI khác là Meta, OpenAI và Anthropic cũng đều đã bị kiện vì sử dụng trái phép tài liệu có bản quyền để huấn luyện AI, theo Mashable. Thông thường, các công ty công nghệ bào chữa cho hành vi của mình bằng cách tuyên bố rằng chúng tuân theo học thuyết "sử dụng hợp lý" (fair use) trong pháp luật về sở hữu trí tuệ.

Học thuyết này cho phép sử dụng tác phẩm có bản quyền mà không cần xin phép trong một số trường hợp nhất định nhằm phục vụ lợi ích công cộng chẳng hạn như giáo dục, nghiên cứu, bình luận, đưa tin hoặc phê bình.

Ít nhất 2 trong số các vụ kiện liên quan đến vấn đề này - một vụ nhắm đến Meta và vụ kia là Anthropic - đã được tòa xử theo hướng có lợi cho các công ty AI. Tuy nhiên, vấn đề vi phạm bản quyền trong đào tạo AI vẫn chưa ngã ngũ khi nhiều vụ kiện vẫn đang được xem xét bởi hệ thống tòa án trên khắp nước Mỹ.

Hồi tháng 9, Anthropic đã chấp nhận chi 1,5 tỉ USD để dàn xếp một vụ kiện tập thể liên quan đến việc công ty này đã sử dụng 500.000 tác phẩm vi phạm bản quyền để huấn luyện chatbot Claude, theo Mashable.

AI: cứu tinh của web lậu

Những nội dung trao đổi nội bộ qua thư điện tử của Meta được tòa án công bố hồi đầu năm nay dường như cho thấy công ty này đã cố ý sử dụng sách vi phạm bản quyền trong huấn luyện AI.

Các email được công khai là do một công ty luật đã đệ đơn kiện tập thể lên tòa án liên bang Mỹ thay mặt cho các tác giả chống lại OpenAI và Meta, cáo buộc các công ty này sử dụng trái phép tài liệu có bản quyền để đào tạo các mô hình ngôn ngữ lớn như ChatGPT và Llama.

Theo đó, Meta đã tải "ít nhất 81,7 terabyte dữ liệu từ nhiều thư viện bóng tối như Anna's Archive, Z-Library và LibGen" cho mục đích này. Cứ cho mỗi tài liệu "nặng" 1MB, số dữ liệu nói trên tương đương gần 82 triệu quyển sách/tài liệu.

Tài liệu được công bố cho thấy Meta biết rõ LibGen là nền tảng trái phép, đồng thời thể hiện quan ngại trong nội bộ công ty về hệ quả nếu các đơn vị quản lý biết được Meta đang huấn luyện Llama bằng dữ liệu không có bản quyền.

Thậm chí, bộ phận pháp lý của Meta còn tư vấn rằng công ty nên từ bỏ những nỗ lực xin phép sử dụng dữ liệu có bản quyền và thay vào đó chỉ nên tận dụng các tác phẩm được tải lậu.

Nội dung cuộc trao đổi nội bộ của Meta còn đề cập chuyện đối thủ OpenAI rất có thể đang huấn luyện AI của họ bằng dữ liệu từ những thư viện bóng tối như Smashwords hay LibGen.

Để "hỗ trợ" các đơn vị có nhu cầu tải tài liệu số lượng lớn, thư viện Anna's Archive đã ra mắt gói trả phí 100.000 USD với quyền lợi là tốc độ tải cao hơn, theo báo Daily Journal. Có ít nhất 30 công ty giấu tên đã chấp nhận chi trả để tiếp cận đặc quyền này, với các khoản thanh toán được thực hiện thông qua tiền điện tử nhằm tránh để lộ danh tính.

Theo trang blog của Anna's Archive, đa số các đơn vị trả phí "là những công ty mô hình ngôn ngữ lớn", trong khi một số khác là những công ty chuyên môi giới dữ liệu. Cũng theo trang này, đa số các công ty chịu chi đến từ Trung Quốc, nhưng cũng có số khác đến từ Mỹ, châu Âu, Nga, Hàn Quốc và Nhật Bản.

Bài toán kinh tế rõ ràng quá đơn giản, đặc biệt là với những công ty bỗng rơi vào thế bị động trong cuộc đua AI khi OpenAI ra mắt ChatGPT vào năm 2022: tiêu tốn thời gian và tiền của để thương thảo mua bản quyền hàng chục triệu đầu sách hay tiếp cận chúng hoàn toàn miễn phí ngay lập tức rồi xử lý phí tổn pháp lý sau.

Trong điều kiện lý tưởng nhất, những công ty này có thể không cần chi trả đồng nào nếu họ có thể thuyết phục tòa án rằng trường hợp của mình rơi vào "sử dụng hợp lý".

"Sự trỗi dậy nhanh chóng của công nghệ AI đã mở ra một kỷ nguyên mới của vi phạm bản quyền số ở một quy mô chưa từng thấy. Thật vậy, Anna's Archive đã khoe khoang rằng AI là cứu tinh của những thư viện bóng đêm" - Daily Journal nhận xét.

"Sứ mệnh" cao cả

Trong một bài blog năm 2024, Anna's Archive cho rằng thập kỷ tiếp theo mang tính "sống còn" đối với sứ mệnh "bảo tồn kiến thức và văn hóa nhân loại" của họ. Tại sao lại lựa chọn sách và bài báo khoa học mà không phải là hình thức thông tin nào khác? Câu trả lời đơn giản là vì mật độ thông tin của chúng cao nhất trong các hình thức lưu giữ thông tin.

"Dù chúng tôi quan tâm cả tri thức lẫn văn hóa, chúng tôi vẫn dành sự quan tâm nhiều hơn cho tri thức" - Anna's Archive giải thích. Cũng vì sứ mệnh bảo tồn của mình mà nền tảng này cho biết họ ưu tiên lưu giữ những tác phẩm hiếm, ít được bảo tồn, hoặc có nguy cơ biến mất vì chiến tranh, kinh tế hoặc chính trị.

"Cuối cùng, chúng tôi quan tâm đến quy mô. Vì thời gian và tiền có hạn, chúng tôi thà bỏ ra một tháng để cứu 10.000 quyển sách hơn là chừng đó thời gian chỉ để cứu 1.000 quyển - nếu chúng có giá trị và đối diện rủi ro như nhau" - bài blog cho biết.

Lý giải về nguyên nhân cần có sự hiện diện của những thư viện bóng đêm trong khi không thiếu những trung tâm bảo tồn sách và tư liệu hoàn toàn hợp pháp được tài trợ bởi chính phủ và tư nhân, Anna's Archive cho rằng rào cản lớn nhất của những trung tâm này chính là… hệ thống pháp luật.

Bài blog viết tiếp: "Chúng tôi có thể làm những việc mà các cơ sở (chính quy) khác không được phép làm. Có những cuốn sách chỉ tồn tại độc bản tại một thư viện vật lý ở đâu đó. Có những tư liệu được lưu giữ bởi công ty duy nhất… Mà thư viện thì có thể bị cắt ngân sách tài trợ, công ty có thể phá sản và các trung tâm lưu trữ có thể bị đánh bom hoặc phá hủy bởi một trận hỏa hoạn".

Theo dự báo của Anna's Archive, chi phí lưu trữ ngày càng rẻ cộng với mật độ thông tin trên mỗi đơn vị lưu trữ ngày càng tăng đồng nghĩa chỉ vài năm nữa thôi toàn bộ bộ sưu tập sách và bài báo khoa học của nền tảng này có thể được sao chép một cách rộng rãi bởi nhiều bên khác nhau, và vì thế "vượt ra khỏi tầm với của tai nạn" - nghĩa là không có một sự kiện đơn lẻ nào có thể làm mất đi tri thức của nhân loại.

Nền tảng này dự báo nếu có thể vượt qua 5 đến 10 năm tới mà không bị các nỗ lực pháp lý ngăn chặn, những thư viện bóng đêm sẽ "thật sự bảo tồn kiến thức và văn hóa của nhân loại một cách vĩnh cửu".

Sci-Hub: thiên đường giới học thuật

Dù vi phạm pháp luật, các thư viện bóng đêm cực kỳ được ưa thích trong giới học thuật và được ví như "thiên đường lý tưởng" nơi tất cả đều có cơ hội ngang nhau để tiếp cận tri thức nhân loại nhanh chóng và hiệu quả, theo báo Le Monde.

Nhà khoa học máy tính người Kazakhstan Alexandra Elbakyan được gán biệt danh "Robin Hood trong lĩnh vực khoa học" vì có công sáng lập ra Sci-Hub, nền tảng cung cấp hàng triệu bài báo khoa học hoàn toàn miễn phí.

"Địa chỉ Internet của họ (các thư viện bóng đêm) được truyền tai nhau trong các trường đại học ở Mỹ giống như cách mà các bản sao hoặc tệp máy tính được chia sẻ qua modem thời trước" - Le Monde mô tả. Cả sinh viên thiếu tiền lẫn những nhà nghiên cứu khoa học chân chính đều bị cuốn hút bởi quyền truy cập miễn phí mà những nền tảng này cung cấp.

Đã là "thư viện" thì không thể thiếu "thủ thư". Jason (người Mỹ, tên nhân vật đã thay đổi) đã sử dụng thư viện bóng đêm từ khi học thạc sĩ vào những năm 2000 bởi giá sách giáo khoa quá đắt đỏ ở Mỹ - có thể lên đến hơn 100 USD mỗi cuốn.

Giờ đã ngoài 40 tuổi, Jason cho biết anh đã quyết định đóng góp lại cho cộng đồng bằng cách trở thành một "thủ thư" tình nguyện cho những thư viện bóng đêm. Công việc của những người như Jason là sắp xếp và phê duyệt những đầu sách do người dùng tải lên.

Đôi khi các tình nguyện viên phải lọc ra những tập tin chứa nội dung quảng cáo hoặc kêu gọi người dùng… mua sách gốc. "Công việc đòi hỏi rất nhiều thao tác thủ công, và không bao giờ có đủ tình nguyện viên" - Jason nói với Le Monde.

Và cũng như một thư viện thông thường, những người sử dụng thư viện bóng đêm được yêu cầu "giữ im lặng", bởi chia sẻ đường dẫn tới những thư viện này một cách công khai là hành vi phạm pháp ở nhiều quốc gia.

Cẩn thận không bao giờ là thừa, bởi cuộc chiến giữa các thư viện bóng đêm và những đơn vị xuất bản nắm giữ bản quyền vẫn đang tiếp diễn. Nhiều trang web cung cấp sách vi phạm bản quyền đã phải đóng cửa sau khi vấp phải đơn kiện ở nhiều nước.

Elbakyan - người sáng lập Sci-Hub - đang phải ở ẩn tại Nga sau khi trở thành mục tiêu điều tra của Cục Điều tra liên bang Mỹ (FBI), theo Le Monde. Trang Z-Library cũng chịu số phận tương tự sau khi chính quyền Mỹ thu hồi tên miền của họ năm 2022 và hai công dân Nga bị cáo buộc liên quan trang web này bị bắt ở Argentina.