TTCT - Khi dữ liệu huấn luyện AI đã cạn, những nội dung công cộng trên mạng sẽ là nguồn tài nguyên quý giá tiếp theo bị nhòm ngó. Ảnh: WILDPIXEL/GETTY IMAGESCũng như với kho dữ liệu đa phần "xài chùa" trước đó, các hãng công nghệ cũng không muốn chi xu nào để khai thác mỏ vàng sẵn có trước mắt: thành quả của những "công nhân dữ liệu" bất đắc dĩ cho cỗ máy AI - không ai khác là chính chúng ta.Kho dữ liệu bất đắc dĩTrong vài tháng trở lại đây, hàng loạt công ty như X (Twitter), Microsoft, Meta và Zoom đã gấp rút cập nhật điều khoản dịch vụ và chính sách về quyền riêng tư, cho phép các nền tảng của mình thu thập thông tin và nội dung từ người dùng để làm dữ liệu huấn luyện các mô hình AI tạo sinh do họ phát triển.Một khi AI vẫn tiếp tục phát triển về quy mô và độ phức tạp, nhu cầu về dữ liệu đào tạo sẽ ngày càng tăng cao và được đánh đổi bằng quyền của chúng ta trên chính những gì mình đưa lên mạng. Mỗi khi ta đăng bài viết lên mạng xã hội, sử dụng công cụ tìm kiếm web hay mua hàng trên các nền tảng thương mại điện tử sắp tới đây đều sẽ là cơ hội để các công ty đứng sau những nền tảng đó hoàn thiện công cụ AI của riêng mình."Chúng tôi có thể sử dụng thông tin mà chúng tôi thu thập và các thông tin công khai có sẵn để giúp đào tạo các mô hình học máy hoặc AI cho các mục đích được nêu trong chính sách này" - chính sách riêng tư của mạng xã hội X ở thời điểm truy cập ngày 18-9 nêu rõ. Ông chủ của X là tỉ phú Elon Musk vốn dĩ có tham vọng tham gia thị trường AI, bằng chứng là việc thành lập công ty xAI vào tháng 3-2023. Nhiều khả năng Musk muốn sử dụng mạng xã hội hơn 350 triệu người dùng này làm nguồn dữ liệu vô giá phục vụ cho giấc mơ AI của mình.Meta cũng đã cập nhật chính sách riêng từ tháng 6 với nội dung "hoạt động và thông tin mà bạn cung cấp trên các sản phẩm và dịch vụ của chúng tôi" sẽ được sử dụng để huấn luyện các mô hình AI tạo sinh. Nói cách khác, tất cả mọi thứ người dùng thực hiện từ cập nhật trạng thái Facebook cho đến đăng ảnh lên Instagram đều có thể trở thành một phần của bộ dữ liệu mà Meta dùng để huấn luyện các công cụ AI của mình. Cuối tháng 8, Meta cung cấp thêm một mẫu đơn cho phép người dùng yêu cầu công ty không sử dụng dữ liệu của họ theo cách này, nhưng không nói rõ liệu công ty có nghĩa vụ phải làm theo yêu cầu đó hay không.Thỏa thuận dịch vụ mới của Microsoft, hiệu lực từ ngày 30-9, cũng dành riêng một đề mục cho AI trong đó có nội dung "trong quá trình cung cấp các dịch vụ AI, Microsoft sẽ xử lý và lưu trữ dữ liệu bạn cung cấp cho dịch vụ cũng như dữ liệu do dịch vụ cung cấp".Nền tảng họp trực tuyến Zoom trong lần cập nhật điều khoản dịch vụ có hiệu lực từ ngày 27-7 đã cài cắm thêm nội dung cho phép Zoom sử dụng một số thành tố của dữ liệu người dùng "được tạo ra bởi dịch vụ" để huấn luyện và tinh chỉnh AI của mình. Sau khi gặp phản ứng gay gắt, Zoom sau đó đã phải sửa câu chữ của điều khoản để làm rõ nền tảng này "không sử dụng bất kỳ âm thanh, video, trò chuyện, chia sẻ màn hình, tệp đính kèm hoặc các thông tin liên lạc khác… để đào tạo các mô hình AI của Zoom hoặc bên thứ ba".Phiên bản chính sách riêng tư của Google có hiệu lực từ ngày 1-7 cũng có sửa đổi một số câu chữ quan trọng liên quan đến việc sử dụng "thông tin trực tuyến công khai có sẵn" của người dùng. Chẳng hạn, Google giờ đây nêu rõ dữ liệu này có thể được khai thác để giúp đào tạo "các mô hình AI". Công cụ AI Google Bard cũng được nêu đích danh là một trong những dịch vụ hưởng lợi từ những thông tin được thu thập.Cũng cần phải nhắc một thực tế: không mấy người đọc điều khoản dịch vụ hay theo dõi tin tức để biết về những thay đổi nói trên.Giới truyền thông phản khángCào dữ liệu (data scraping) là một kỹ thuật thu thập dữ liệu bằng cách sử dụng một chương trình máy tính tự động quét qua nội dung các trang web và lưu lại dữ liệu dưới dạng có cấu trúc rõ ràng. Dữ liệu này sau đó có thể được dùng để nạp vào mô hình AI phục vụ việc huấn luyện.Kỹ thuật này không mới nhưng gần đây trở nên ngày càng phổ biến đặc biệt là khi nhu cầu dữ liệu dành cho AI tăng cao. Thực tế này vô tình biến mọi nhà sản xuất nội dung trên mạng thành những người "công nhân dữ liệu" bất đắc dĩ cho cỗ máy AI đã vào guồng, TS Hanlin Li viết cho Tech Policy."Việc thiếu sự đồng thuận, bảo vệ bản quyền và cân nhắc về quyền riêng tư đang tạo ra tranh cãi lớn đứng từ góc nhìn của người dùng và các nhà sáng tạo nội dung" - Li chỉ ra. Người dùng đứng giữa hai lựa chọn: ngừng chia sẻ nội dung công khai trên mạng hoặc phó mặc cho các công ty muốn làm gì tùy thích với nguồn tài nguyên quý giá này.Không chỉ người dùng cá nhân mà các đơn vị sản xuất nội dung chuyên nghiệp như cơ quan báo chí cũng đang phản ứng gay gắt trước việc nội dung họ tạo ra bằng chất xám và tiền bạc bị tận dụng "miễn phí" để huấn luyện ra những mô hình AI mà rất có thể một ngày nào đó sẽ hất đổ chén cơm của chính mình.Tập đoàn truyền thông News Corp - đơn vị đứng sau một số tờ báo lớn như Wall Street Journal và Sunday Times - đang tham gia "nhiều cuộc thương thảo" với các công ty AI để đạt thỏa thuận về việc sử dụng nội dung của họ, Reuters dẫn phát biểu của CEO Robert Thompson hôm 7-9.Các hãng thông tấn AFP của Pháp, AP của Mỹ cùng 7 đơn vị truyền thông lớn khác thì phát đi một bức "tâm thư" ngày 9-8 chỉ trích việc sử dụng không xin phép dữ liệu có bản quyền của các đơn vị truyền thông cho huấn luyện AI. "Những hoạt động như vậy làm suy yếu các mô hình kinh doanh cốt lõi của ngành truyền thông, vốn dựa trên lượng độc giả và người xem (chẳng hạn thông qua gói đăng ký), việc cấp phép nội dung và quảng cáo" - lá thư nêu rõ. Ngoài việc vi phạm luật bản quyền, hành động này còn gián tiếp "làm giảm khả năng tiếp cận của công chúng với thông tin chất lượng cao và đáng tin cậy", các cơ quan này cáo buộc.Một tờ báo lớn của Mỹ là The New York Times thì đã có nước đi phủ đầu nhằm ngăn chặn nội dung của họ bị sử dụng để đào tạo các mô hình AI. Theo bài viết đăng trên Adweek, NYT đã cập nhật điều khoản dịch vụ của mình vào ngày 3-8 để cấm nội dung của tờ báo - bao gồm văn bản, hình ảnh, đoạn âm thanh/video, giao diện, siêu dữ liệu (metadata) hoặc tổng hợp những yếu tố này - được sử dụng trong quá trình phát triển của "bất kỳ chương trình phần mềm nào, bao gồm nhưng không giới hạn ở việc đào tạo hệ thống học máy hoặc AI". Các điều khoản cập nhật hiện cũng nêu rõ không được sử dụng các công cụ tự động như chương trình cào dữ liệu web để sử dụng, truy cập hoặc thu thập nội dung của báo mà không có sự cho phép bằng văn bản. Cơ quan này cũng được cho là đã rút khỏi một liên minh truyền thông đang nỗ lực đàm phán với các công ty công nghệ về việc sử dụng dữ liệu để huấn luyện AI, theo Semafor.Với những người dùng cá nhân yếm thế hơn, sự phản kháng chỉ có thể đến dưới hình thức yêu cầu các nền tảng không sử dụng dữ liệu của mình để phát triển công cụ AI - một yêu cầu mà các công ty có thể chấp thuận hoặc không một khi mà pháp luật chưa cung cấp sự bảo vệ chặt chẽ. "Các nhà hoạch định chính sách và nhà nghiên cứu phải tăng gấp đôi nỗ lực thiết lập quyền quản lý dữ liệu để tương lai của AI được xây dựng dựa trên sự đồng thuận, công bằng và chặt chẽ. Trong khi ta khen ngợi các hệ thống AI, thì những người sản xuất dữ liệu đã giúp tạo nên những hệ thống đó nên có tiếng nói trong vấn đề này" - TS Li viết. Tags: Dữ liệu AIDữ liệu người dùngNguồn tài nguyênHãng công nghệQuyền riêng tưThu thập thông tinMạng xã hộiCông cụ tìm kiếmThương mại điện tửAITrí tuệ nhân tạoHuấn luyện AI
Quỹ nhà ở quốc gia như Singapore, được không? ts nguyễn ngọc hiếu (Trường đại học Việt Đức) 27/03/2025 1896 từ
Cần Giờ muốn chia thành 2 hoặc 3 xã, giữ lại xã đảo Thạnh An dù chỉ hơn 4.000 dân TIẾN LONG 27/03/2025 Huyện Cần Giờ đang nghiên cứu, thảo luận đề xuất tổ chức lại các đơn vị hành chính cấp xã hiện nay thành 2 hoặc 3 đơn vị hành chính cấp cơ sở, riêng xã đảo Thạnh An thành một đơn vị.
Tin tức sáng 27-3: TP.HCM đổi nơi cấp phù hiệu xe kinh doanh vận tải; Kho bạc chào mua 1,2 tỉ USD THU DUNG 27/03/2025 Tin tức đáng chú ý: TP.HCM đổi địa điểm cấp phù hiệu xe kinh doanh vận tải; Đề xuất lập khu thương mại tự do gần sân bay Long Thành; Kho bạc Nhà nước chào mua hơn 1,2 tỉ USD...
Giảm khí thải xe xăng: Cấm xe theo khu vực hay hạn chế mua xe mới? LƯU NGỌC 27/03/2025 Theo tôi, cả hai chỉ là giải pháp ở phần ngọn. Phần gốc nằm ở sự phát triển các loại xe công cộng, xe cá nhân năng lượng sạch. Khi buýt điện, metro kết nối thuận tiện hơn, người dân đô thị sẽ có sự chọn lựa khác.
Họa sĩ gửi tranh ra nước ngoài để triển lãm, đại sứ tự ý lấy làm quà tặng? THIÊN ĐIỂU 26/03/2025 Họa sĩ Trần Gia Tùng cho biết anh gửi bốn bức tranh đến Đại sứ quán Việt Nam tại Anh để bày triển lãm nhưng chỉ được trả lại một bức, các bức khác đại sứ quán đã ‘làm quà tặng cấp cao’ mà không có sự đồng ý của anh.