ChatGPT: Có dữ liệu tốt mới "gột nên hồ"

TTCT - ChatGPT cho ta thấy một vấn đề rất nghiêm trọng cần giải quyết của Việt Nam: thiếu dữ liệu sạch, dữ liệu được tổ chức tốt, dữ liệu được số hóa...

Khi nói đến sự đột phá của ChatGPT, người ta không nói đến dữ liệu, cái quan trọng hơn là làm sao để máy có thể kết nối hàng tỉ từ trên sách vở để hình thành các câu trả lời rất liên quan - một công nghệ mang tính cách mạng. Nhưng chuyện dữ liệu cũng rất quan trọng.

ChatGPT được huấn luyện bằng dữ liệu. Theo tờ Atlantic, ChatGPT được "nhồi nhét" chừng 500GB dữ liệu văn bản, khoảng 300 - 500 tỉ từ hay chừng hơn một nửa số sách từng xuất bản và đã được số hóa. Dữ liệu càng đầy đủ, nó càng thông minh.

Thử hỏi chuyện ChatGPT cả bằng tiếng Việt rồi bằng tiếng Anh, sẽ thấy nó thành thạo hơn, chính xác hơn, nhiều thông tin hơn khi nói tiếng Anh. Với tiếng Việt, nó hồi đáp chậm hơn, sai sót cũng kha khá và tình trạng thiếu thông tin để trả lời không phải là chuyện hiếm.

Thật ra, trong đa phần trường hợp nó nghe hỏi bằng tiếng Việt, tự động dịch sang tiếng Anh, trả lời bằng tiếng Anh nhưng cũng tự động dịch và hiển thị câu trả lời bằng tiếng Việt. Khi hỏi các nội dung riêng cho Việt Nam, chuyện chậm, thiếu thông tin, sai sót, phạm lỗi xảy ra nhiều hơn.

Hãy khoan nói đến chuyện ChatGPT đúng sai, đưa thông tin lệch lạc - đó là bởi nó thu lượm dữ liệu từ mạng Internet thượng vàng hạ cám. Cứ tưởng tượng chúng ta có một bộ khung công nghệ như ChatGPT, sau đó nạp dữ liệu tốt, dữ liệu chính xác cho nó - chẳng hạn, toàn bộ các văn bản luật pháp và tài liệu liên quan, các vụ án, các lần xét xử... Khi đó, chắc chắn hỏi ChatGPT bất kỳ vấn đề luật lệ nào, nó sẽ trả lời vanh vách.

Đầu óc của một luật sư bình thường không thể nào nhớ hết các quy định về một sự việc cụ thể nào đó, nhất là khi luật lệ thay đổi nhanh chóng, cái sau phủ định cái trước. Nay một AI như thế sẽ là một trợ lý không thể thiếu của bất kỳ luật sư nào. Nạp cho nó dữ liệu chuyên ngành, chúng ta sẽ càng ngạc nhiên vì sự thông minh của các mô hình ngôn ngữ.

Như vậy, ChatGPT cho ta thấy một vấn đề rất nghiêm trọng cần giải quyết của Việt Nam: thiếu dữ liệu sạch, dữ liệu được tổ chức tốt, dữ liệu được số hóa. Chúng ta thử bắt ChatGPT làm thơ văn bằng tiếng Việt xem sao; so với tiếng Anh, sản phẩm của ChatGPT không hơn văn mẫu là bao. Đó là bởi Internet tiếng Việt tràn ngập văn mẫu!

Chúng ta cũng đừng ngạc nhiên khi tiếng Việt mà ChatGPT sử dụng đôi khi ngây ngô, rất "cứng", rất "Tây". Đó là bởi trong nhiều năm rồi, chất lượng dịch thuật kém cỏi kéo dài, thế giới mạng đầy rẫy các tác phẩm dịch thuật đầy sai sót. ChatGPT học từ đó nên dịch sai, dịch ngớ ngẩn là đương nhiên.

Nếu chú ý, OpenAI huấn luyện sao cho ChatGPT luôn nhận lỗi và ghi nhận câu chỉnh sửa của khách. Theo lý thuyết, đây là cách để chính AI học hỏi từ cái đúng cái sai trong thực tế để tự hoàn thiện mình. Kỹ thuật này gọi là Reinforcement Learning (học tăng cường) - hàng trăm triệu tương tác thế này sẽ dần dần giúp ChatGPT giảm lỗi, bớt sai.

Nhưng cứ nghĩ mà xem, gặp người dùng từ Việt Nam, hỏi "Tác phẩm Tắt đèn là của ai?", ChatGPT trả lời đúng của Ngô Tất Tố; người dùng nghịch ngợm, chọc nó "Không phải, Tắt đèn là của Vũ Trọng Phụng", nó sẽ nhận lỗi "Xin lỗi tôi sai rồi. Tắt đèn là của Vũ Trọng Phụng".

Thế có phải chúng ta đang phá chính dữ liệu ít ỏi nó thu lượm được hay không? Mạng xã hội có rất nhiều mẩu khoe đã chọc ghẹo ChatGPT như thế, như kiểu người lớn bày bậy cho trẻ con rồi cười to khoái chí. May là với phiên bản ChatGPT hiện tại, những trò chọc phá này chưa thể "xử hư" AI này.

Nói người dùng chưa thể "xử hư" ChatGPT bằng cách bày cho nó thông tin bá láp là bởi AI này hiện chỉ hoạt động trên kiến thức do chính OpenAI huấn luyện và đã "chốt sổ" từ cuối năm 2021. TTCT đã kiểm chứng bằng hội thoại sau (dịch lại nguyên văn từ tiếng Anh).

- Ai vô địch World Cup 2022?

- Tôi xin lỗi, kiến thức của tôi dừng lại ở năm 2021, vì vậy tôi không có thông tin về nhà vô địch FIFA World Cup 2022.

- Nếu ta cho mi câu trả lời, liệu mi có thể dẫn lại nếu lần tới có người hỏi không?

- Là một mô hình ngôn ngữ, tôi chỉ có thể cung cấp thông tin dựa trên dữ liệu đã được huấn luyện và dựa vào khả năng tạo văn bản mới dựa trên sự huấn luyện đó. Tôi không thể "nhớ" thông tin mới như con người được. Tuy vậy, tôi có thể sử dụng thông tin được cung cấp (khi chat) theo thời gian thực để tạo câu trả lời.

- Được rồi, nói cho mi biết, Argentina vô địch World Cup 2022. Đấy có phải World Cup duy nhất họ vô địch không?

- Argentina từng vô địch FIFA World Cup một lần trước đó, vào năm 1986.

Cặp hỏi - đáp cuối cùng cho thấy ChatGPT biết kết hợp dữ kiện mới được cung cấp với mớ "kiến thức" của mình đưa ra phản hồi. Nhưng khi tạo trò chuyện mới (new chat) và hỏi lại câu hỏi ai vô địch World Cup 2022, ChatGPT vẫn sẽ xin lỗi và nói kiến thức của nó đã dừng lại từ 2021, nghĩa là những gì vừa được "dạy" trong trước đó sẽ chỉ thuộc về mỗi đoạn hội thoại đó mà thôi. Lý do vì sao OpenAI chưa để cả thiên hạ cùng dạy dỗ AI này cũng dễ đoán: ChatGPT hiện đã vượt mốc 100 triệu người dùng, mạnh ai nấy cung cấp thông tin, "dạy" AI thế nào mới là đúng thì chắc máy móc cũng phải "tẩu hỏa nhập ma".

Một điều đáng ngạc nhiên, ChatGPT mới ra đời có vài tháng nhưng trên thế giới đã có nhiều khóa đào tạo cách dùng ChatGPT vào các công việc cụ thể - từ viết blog đến soạn tài liệu marketing, từ viết email đến tư vấn doanh nghiệp.

Quan sát sẽ thấy, dùng ChatGPT cũng cần được dạy để hỏi cho đúng. Nếu hỏi đúng cách, hỏi với đầy đủ thông tin thì độ chính xác của câu trả lời mà ChatGPT đưa ra càng cao. Nói cách khác, bạn hỏi như thế nào, bạn sẽ nhận được câu trả lời như thế. Hỏi tốt sẽ có câu trả lời tốt, hỏi tầm bậy sẽ có câu trả lời tầm bậy.

Tờ Time có một bài điều tra về việc OpenAI thuê công nhân tận Kenya với giá rẻ mạt để dán nhãn cho các dữ liệu dùng để huấn luyện ChatGPT. Có thể hình ảnh đưa cho công nhân toàn là hình độc hại, khiêu dâm, bạo lực; có thể đồng lương trả cho họ chỉ 2 USD/giờ là quá rẻ.

Nhưng nổi lên từ câu chuyện này là gì? Đó là việc làm sạch dữ liệu, miêu tả đúng dữ liệu là một quá trình công phu, tốn nhiều công sức nhưng cần thiết, bởi có dạy như thế ChatGPT mới biết đâu là hình ảnh khiêu dâm cần tránh phổ biến.

Chúng ta thường nói về trí tuệ nhân tạo, về học máy và bàn tán sôi nổi về ChatGPT. Nhưng thử hỏi chúng ta đã làm gì để tạo ra dữ liệu cho các mô hình AI này trong tương lai? Có thể không đến nỗi phải thuê người dán nhãn từng tấm hình để dạy cho máy đâu là mèo đâu là cọp, vì thiên hạ đã trải qua công đoạn thủ công cực nhọc này rồi.

Nhưng thử nhìn xem chúng ta đã số hóa được bao nhiêu kho sách xưa nay; kho tàng ca dao tục ngữ đã được đưa vào các cơ sở dữ liệu giáo dục chưa, dữ liệu đã sạch chưa...

Nội chuyện văn bản luật pháp nói ở đầu bài, văn bản sau này dùng font Unicode thống nhất nhưng văn bản xưa hơn dùng các font khác, giờ mở ra sẽ hiển thị toàn ký tự lạ.

Việc thiếu thống nhất cách dùng các từ khoa học, từ chuyên ngành sẽ là một khó khăn khác cho các mô hình ngôn ngữ sau này chúng ta muốn xây dựng. Đó chỉ là một vài ví dụ nghĩ ra bất chợt trong cách rừng dữ liệu cần trồng, cần khai thác.

Nên xem ChatGPT như một hồi chuông cảnh báo cho tình trạng thiếu dữ liệu sạch, dữ liệu đáng tin cậy, dữ liệu có thể dạy cho máy - một tình trạng mà chỉ có chúng ta, chứ không phải con AI nào khác bên Mỹ bên Anh, mới cùng nhau giải quyết được.