Trong thế giới của những người huấn luyện trí tuệ nhân tạo

  • NGUYỄN VŨ
  • 29.10.2019, 15:56

TTCT - Với nhiều người, AI (Artificial Intelligence - trí tuệ nhân tạo) là một chiếc đũa thần kỳ, chỉ cần tìm cách sở hữu nó để khi cần vung đũa lên là giải quyết hết thảy mọi vấn đề. Nhưng ít ai biết, để có chiếc đũa thần ấy, thiên hạ phải đang thuê hàng chục ngàn người, ngày đêm mài giũa mới trông mong có đũa để xài.

Một phóng sự trên tờ The New York Times bắt đầu với một người được thuê như thế, đang sống ở Ấn Độ.

Namita Pradhan (thứ nhì từ phải sang) cùng các đồng nghiệp đang “dạy” cho AI từ Ấn Độ bằng cách dán nhãn dữ liệu. Ảnh: New York Times
Namita Pradhan (thứ nhì từ phải sang) cùng các đồng nghiệp đang “dạy” cho AI từ Ấn Độ bằng cách dán nhãn dữ liệu. Ảnh: New York Times

Nhiệm vụ hằng ngày của Namita Pradhan là ngồi trước màn hình chăm chú xem video nội soi đại tràng một bệnh nhân ở tuốt bên Mỹ, tìm các polyp, tức các khối u có thể dẫn tới ung thư. Mỗi khi phát hiện polyp nào, cô sẽ dùng chuột đánh dấu bằng một vòng tròn quanh khối u nhỏ xíu.

Pradhan không phải là bác sĩ, cô chỉ được thuê để huấn luyện cho một hệ thống AI được kỳ vọng một ngày nào đó sẽ thay thế bác sĩ, chẩn đoán với độ chính xác tuyệt vời.

Đồng nghiệp của cô lại có nhiệm vụ khác, có người chuyên nhìn hình rồi dán nhãn đâu là khách bộ hành, đâu là bảng chỉ dẫn giao thông. Có người chuyên ngồi xem hình chụp từ vệ tinh để đánh dấu các con tàu chở dầu trên biển.

 

Mỗi khi nói đến AI, ai nấy đều hoan hỉ như thể ngày một ngày hai mọi bài toán phức tạp của loài người sẽ giao cho AI giải quyết. Kẹt xe ư, ngập nước chăng - cứ để AI đưa ra giải pháp, vì con người chỉ biết ngồi cãi nhau suốt. 

Nhưng đằng sau mỗi AI đang được phát triển đều là một quá trình cần nhiều lao động tỉ mỉ, cung cấp “dữ liệu, dữ liệu rồi dữ liệu nữa” cho AI học. Và mọi dữ liệu đều phải dán nhãn, phải có con người ngồi chỉ ra cho AI biết đây là một polyp, kia là một bảng cấm đỗ xe...

Từ hàng triệu thông tin như thế, người ta dạy cho AI tiến hóa đến chỗ điều khiển xe tự lái, hệ thống tự chẩn đoán hay hệ thống theo dõi tình trạng giao thông.

Mới đây trong buổi làm việc với Công ty GoViet, một công ty dịch vụ gọi xe ôm trên điện thoại di động, chính giám đốc Sở Quy hoạch - kiến trúc TP.HCM đã đề nghị GoViet chia sẻ dữ liệu liên quan đến lộ trình đi lại của người dân sử dụng GoViet để sở này có thể tìm hiểu, đánh giá được quy luật đi lại của người dân thành phố, phục vụ công tác quy hoạch, quản lý. Bởi dữ liệu không tự nhiên mà có, nó phải được nhập thủ công như ở Ấn Độ hay thu thập tự động qua các ứng dụng rồi lưu trữ, sắp xếp, phân tích. Dữ liệu, vì thế, đang là thế mạnh của các doanh nghiệp công nghệ lớn như Google, Facebook, Grab, Airbnb...


Từ đó, nảy sinh nỗi lo dữ liệu của người dùng bị lộ, gây ra những tác hại to lớn. Cứ hình dung, mọi lần sử dụng dịch vụ thuê phòng của Airbnb, mỗi lần đi Grab tới đâu, mỗi lần tìm thông tin nhạy cảm trên Google, máy móc đều biết và lưu lại hết, còn gì là sự riêng tư của cuộc sống mỗi người?

Trở lại phóng sự của The New York Times, tác giả cho biết những cơ sở chuyên dán nhãn dạy cho AI ở Ấn Độ, Nepal, Trung Quốc, Philippines, Đông Phi mà ông từng ghé qua, không có gì hào nhoáng như thường được gán cho các hệ thống AI mà chúng giống các trung tâm dịch vụ trả lời khách hàng hơn.

Hàng chục ngàn người như cô Pradhan kiên trì dạy cho máy biết đâu là ho bình thường, đâu là ho có vấn đề, hay đường vẽ trên xa lộ là vạch vàng liên tục hay vạch trắng ngắt quãng. Họ được trả lương thấp (từ 150 - 200 USD mỗi tháng), có nơi còn sử dụng chợ đấu giá để dìm tiền công xuống nữa.

Năm 2018 thị trường dán nhãn này đạt mốc 500 triệu USD và sẽ lên mốc 1,2 tỉ USD vào năm 2023. Công việc “mài đũa” kiểu này, theo các nghiên cứu, chiếm đến 80% lượng thời gian dùng để xây dựng các hệ thống AI.


Mặc dù là lao động thủ công, những người làm công việc ghi nhãn cũng phải được huấn luyện, chẳng hạn kỹ năng vẽ vòng tròn khoanh hình chiếc xe hay một bảng chỉ đường trước khi dán nhãn.

Xem đi xem lại các tấm hình gần như nhau suốt ngày không phải là công việc dễ dàng, phải xem video nội soi y tế còn là một cực hình khó tả. Cô Pradhan được một bác sĩ ở tận California huấn luyện trong vòng bảy ngày. Mỗi ngày cô xem chừng 12 video, thường phải tua đi tua lại để nhìn kỹ từng khung hình. Hình ảnh nội soi thoạt tiên làm cô ghê sợ, nhưng về sau quen dần - cô nói với The New York Times.

Tuy thế, vẫn có ý kiến cho rằng huấn luyện cho AI lẽ ra cần bác sĩ hay ít ra cũng là sinh viên y khoa bởi nếu AI được cung cấp thông tin sai, nó sẽ học lệch và sau này chẩn đoán sai thì sao.

Dù sao công việc của Pradhan vẫn còn đỡ hơn việc của nhiều nhân viên khác, nơi đang phục vụ cho khách hàng muốn xây dựng các hệ thống AI chuyên phát hiện và gỡ bỏ các hình ảnh bạo lực, khiêu dâm trên mạng xã hội. Các nhân viên này suốt ngày phải xem và ghi nhãn các hình ảnh máu chảy đầu rơi.

Cũng viết về đề tài dán nhãn dữ liệu cho các hệ thống AI, tờ Financial Times cho biết một giờ video cần đến tám giờ ngồi ghi nhãn. Hiện nay, các hệ thống tự lái đang thu thập cả triệu giờ video cần ghi nhãn, kể cả ý nghĩa của mọi biển giao thông xe quan sát thấy hay sự khác biệt giữa hình ảnh một em bé do mẹ dẫn đi trên vỉa hè và hình ảnh một chú sóc bất chợt phóng ra từ bụi rậm...

Hãng tư vấn McKinsey nhận xét ghi nhãn dữ liệu là trở ngại lớn nhất để các ngành tiếp cận và áp dụng AI vào thực tế. 
Hiện nay các doanh nghiệp công nghệ lớn không đủ nhân lực để tự tổ chức ghi nhãn cho dữ liệu; họ ký hợp đồng “outsource” (thuê ngoài) với các công ty nhỏ ở khắp thế giới, những nơi tiền lương còn thấp như Ấn Độ.

Điều các hãng lớn lo ngại là thị trường ghi nhãn bị xem như thị trường may mặc trong các “công xưởng mồ hôi” (điều kiện lao động tồi tệ, tiền lương thấp) ngày xưa. Hiện mối quan tâm chủ yếu xoay quanh chuyện nhân viên ghi nhãn bị tác động tâm lý bởi dữ liệu xấu, chuyện rò rỉ dữ liệu, chuyện người dùng phản đối khi biết thông tin của họ đang bị săm soi dù ẩn danh...

Quan tâm đến cảnh giàu nghèo, sự trái khoáy của người huấn luyện AI cho các xã hội giàu có đang sống với đồng lương rẻ mạt có lẽ chỉ dừng lại ở phóng viên các báo như New York Times hay Financial Times. Còn lại, đa số vẫn đang ảo tưởng vung đũa thần AI một cách dễ dàng để giải quyết mọi vấn đề của xã hội.■

Vui lòng nhập nội dung bình luận.

Gửi