Ai cứu lấy tàng thư nghiên cứu khoa học trên mạng?

HOÀNG THI 21/11/2024 03:11 GMT+7

TTCT - Hàng triệu các bài báo khoa học đang có nguy cơ biến mất vĩnh viễn khỏi Internet, vì công tác lưu trữ không đi kịp với tốc độ bùng nổ của tri thức.

Ai cứu lấy tàng thư nghiên cứu khoa học trên mạng? - Ảnh 1.

Thư viện Đại học Leiden. Tranh khắc của Willem Isaacsz. van Swanenburg (1610).

Vẫn biết Internet không phải kho lưu trữ hoàn hảo, nhưng số phận của những hồ sơ học thuật, tài liệu nghiên cứu khoa học có phần bi thảm hơn các kiểu dữ liệu khác, vì không được quan tâm gìn giữ đúng mức.

Theo một nghiên cứu công bố trên Nature hồi tháng 3, hàng triệu các bài báo khoa học đang có nguy cơ biến mất vĩnh viễn khỏi Internet, vì công tác lưu trữ không đi kịp với tốc độ bùng nổ của tri thức.

Trước đây, việc bảo quản hồ sơ học thuật là các ấn phẩm dạng vật lý sẽ phải được lưu trữ ở nhiều nơi và bởi nhiều tổ chức. Ví dụ, khi ra mắt một quyển tài liệu mới có được từ nghiên cứu, quyển tài liệu này sẽ phải được sao từ ấn bản gốc và lưu trữ tại nhiều nơi. Trên môi trường số, về cơ bản vẫn phải giữ nguyên tắc này, một hồ sơ học thuật số sẽ phải được lưu ở nhiều địa chỉ. Tuy nhiên, nghiên cứu của Martin Eve - một chuyên gia R&D chính tại Crossref, tổ chức nhận đăng ký mã định danh số quốc tế DOI - chỉ ra mọi thứ không hẳn như lý thuyết.

DOI là mã số xác định sự tồn tại vĩnh viễn của một tập tin trên Internet như bài báo, sách hoặc tác phẩm nghệ thuật. Thường thì một điều kiện để trở thành thành viên Crossref và được chỉ định mã số DOI yêu cầu các nhà xuất bản phải nỗ lực hết sức đảm bảo tài liệu có DOI được lưu trữ tại các bên thứ 3.

Nhóm của Martin Eve đã xem xét 7,5 triệu tài liệu của các thành viên Crossref và đối chiếu với hồ sơ công khai của các kho lưu trữ học thuật lớn gồm Cariniana, CLOCKSS, HathiTrust, Internet Archive/FATCAT, LOCKSS, PKP PLN, Portico và Scholars Portal. Nhóm đối sánh giữa siêu dữ liệu (metadata) cấp mục của từng tác phẩm và thông tin cấp vùng chứa do kho lưu trữ cung cấp.

Eve phát hiện chỉ có 0,96% (tương đương 204 thành viên) đang bảo tồn 75% tài liệu của họ trong ít nhất 3 kho lưu trữ và 8,5% (1.797 thành viên) tàng trữ 50% tài liệu trong ít nhất 2 kho lưu trữ. Trong khi đó, có đến 57,7% (12.257 thành viên) lưu trữ 25% tài liệu chỉ trong kho lưu trữ duy nhất. Đáng lo ngại nhất, 32,9% (6.982 thành viên) không có bất kỳ biện pháp bảo quản kỹ thuật số nào đúng theo khuyến nghị của Liên minh bảo tồn kỹ thuật số.

Trong số 7.438.037 tài liệu được phân tích, nhóm ghi nhận có 5.913.102 "trường hợp bảo quản" (preservation instance), thuật ngữ chỉ số lượng bản sao được lưu trữ. Chẳng hạn, một tài liệu được bảo quản trong 3 kho lưu trữ khác nhau được xem là có 3 bản được bảo quản. 58,38% số tài liệu được xét (trên 4 triệu) có ít nhất một bản lưu ở đâu đó, và 27,64% (trên 2 triệu) không có bất kỳ trường hợp bảo quản nào. Nhóm nghiên cứu loại 13,98% tài liệu trong mẫu vì không phải là bài báo trên tạp chí hoặc không có đủ siêu dữ liệu xác định nguồn.

Trong bài viết diễn giải thêm về nghiên cứu của mình, Martin Eve cho biết phân tích của ông còn trả lời được một câu hỏi khác: các nhà xuất bản nào đang làm tốt công tác bảo quản tài liệu. Kết quả được chia thành 3 nhóm. Nhóm "vàng" bảo tồn hơn 75% tài liệu của họ trong ít nhất 3 kho; nhóm bạc hơn 50% tài liệu trong ít nhất 2 kho; nhóm đồng lưu 25% tài liệu trong một kho; và nhóm không xếp loại là nhóm gần như không có biện pháp bảo quản kỹ thuật số nào.

Lẽ thường, các nhà xuất bản có tiềm lực và doanh thu cao nhất có thể sẽ có rất nhiều thành viên nằm trong nhóm vàng. Thực tế trái ngược. Với những nhà xuất bản có doanh thu trên 500 triệu USD/năm, chỉ có một nhà xuất bản là Elsevier nằm trong nhóm vàng. Ngoài ra có đến hơn 14% thành viên "nhà giàu" này lại rơi vào nhóm không xếp loại.

Các nhà xuất bản có doanh thu từ 50 triệu đến 500 triệu USD không có thành viên nào trong nhóm vàng nhưng cũng rất hiếm có thành viên không được xếp loại. Các nhà xuất bản có doanh thu dưới 50 triệu USD có tỉ lệ thành viên trong nhóm không xếp loại đông nhất, từ 30 - 50%. Tuy nhiên, các nhà xuất bản "nhà nghèo" này vẫn có một số cái tên trong nhóm vàng, kể cả với những nhà xuất bản có doanh thu dưới 1 triệu USD, dù khá hiếm.

Vậy có thể kết luận gì từ công trình này? Eve nhắc lại lời kêu gọi năm 2005 của Hiệp hội thư viện nghiên cứu, tổ chức phi lợi nhuận với thành viên hơn 100 thư viện nghiên cứu ở Mỹ và Canada: "Hành động khẩn cấp cần thiết để bảo tồn tạp chí điện tử học thuật". Sau lời tha thiết ấy, quả là có thêm nhiều kho lưu trữ có thể cung cấp mức dịch vụ tối thiểu, song gần 20 năm sau, tình trạng bảo quản kỹ thuật số các ấn phẩm vẫn còn khá mong manh, lời kêu gọi vẫn chưa được đáp ứng đầy đủ.

Theo Eve, con số khoảng 28% bài báo trên tạp chí học thuật có DOI không được bảo quản sẽ tạo mối nguy hiểm cho cả hệ thống nhận dạng cố định và chuỗi trích dẫn học thuật. Điều này cũng xác nhận những phát hiện của các nghiên cứu khác đã đề cập đến sự biến mất của các tạp chí mở (open access). Tất nhiên, không riêng gì các tạp chí học thuật, việc bảo quản kỹ thuật số tất cả các nguồn tài nguyên điện tử có nhiều thách thức.

Một lo ngại khác là sự lỗi thời của định dạng bảo quản tài liệu trên môi trường số. Bởi bảo quản kỹ thuật số hay bảo quản trên Internet phải là một hoạt động liên tục. Không phải chỉ cất vào trong kho một lần là xong, mà đòi hỏi liên tục được tái đầu tư, cập nhật công nghệ bảo quản. Nhóm nghiên cứu cho rằng mặc dù những lỗ hổng trong công tác bảo tồn trên Internet khó có thể được giải quyết trong tương lai gần nhưng hành động ngay bây giờ sẽ sớm cải thiện tình hình và giúp bảo vệ hồ sơ học thuật số tốt hơn trong tương lai. 

Vấn đề là ai hành động, và động cơ có đủ lớn?

Bình luận Xem thêm
Bình luận (0)
Xem thêm bình luận