Lựa lời mà nói cho vừa lòng... AI

TTCT - Để chiều lòng công nghệ kiểm duyệt nội dung tự động khắt khe của các mạng xã hội, người dùng không ngừng sáng tạo ra hệ thống “ngôn ngữ” riêng với sức sống mạnh mẽ.

"Algospeak" - ghép bởi "algorithm" (thuật toán) và hậu tố "-speak" (cách sử dụng ngôn ngữ mang đặc trưng của một nhóm người) - là khái niệm không chính thống ám chỉ cách nói, cách viết và hệ thống từ vựng mà người dùng mạng xã hội sáng tạo ra trong nỗ lực vượt qua hệ thống kiểm duyệt nội dung tự động bằng thuật toán trí tuệ nhân tạo (AI).

Một ví dụ dễ bắt gặp là thay thế những từ khóa có thể bị xem là nhạy cảm: "chết" viết thành "c.h.ế.t" hoặc dùng emoji đầu lâu, cốt để bài đăng không bị nền tảng hạn chế lượt tiếp cận.

Algospeak đã tồn tại từ lúc thuật toán kiểm duyệt ra đời và là hiện tượng không của riêng mạng xã hội nào, từ Facebook, Instagram, YouTube và mới đây nhất là TikTok - nơi người dùng chủ yếu thuộc thế hệ Gen Z đã đưa nghệ thuật algospeak lêG đỉnh cao mới với những biến hóa ảo diệu trong dụng ngôn.

Văn hay không bằng chọn đúng Algospeak

Sử dụng thuật toán thay con người kiểm duyệt nội dung trên mạng xã hội ngày càng được các nền tảng tăng cường áp dụng, nhất là khi đại dịch tạo nên làn sóng người dùng mới đổ bộ Internet khiến việc quản lý bằng sức người gần như bất khả thi.

Không giống với các mạng xã hội khác, TikTok phân phối nội dung chủ yếu thông qua trang "dành cho bạn" (For You Page) được vận hành hoàn toàn bằng thuật toán để hiển thị các video mà nền tảng cho rằng người dùng quan tâm nhất.

Đứng từ góc nhìn của người sáng tạo nội dung, điều này đồng nghĩa không có gì đảm bảo người theo dõi bạn sẽ thấy nội dung bạn làm ra, trừ khi thuật toán cho rằng nó phù hợp. Tránh làm phật lòng thuật toán do đó trở thành ưu tiên bậc nhất.

Khi dịch COVID-19 bùng phát và tin giả về căn bệnh đường hô hấp tràn lan trên mạng xã hội, TikTok dường như đã điều chỉnh thuật toán để giới hạn sự lan tỏa của các video có nhắc đến từ khóa liên quan như "covid" hay "pandemic" (đại dịch). Nền tảng hơn 1 tỉ người dùng không chính thức xác nhận điều này, nhưng ai cũng ngầm hiểu sử dụng các từ này là một trong những cách dễ nhất để video khó tiếp cận lượng lớn người dùng.

Nhưng ngứa miệng thì vẫn phải nói, và từ đó mà một loạt uyển ngữ algospeak ra đời: "panini" hay "panda express" là một vài ví dụ về cách gọi đại dịch của cộng đồng TikTok sử dụng tiếng Anh.

Chẳng cần ai biên soạn thành từ điển hay quay video hướng dẫn sử dụng, chỉ cần một người dùng nhắc đến khái niệm mới trong ngữ cảnh dễ đoán thì gần như ngay lập tức nó trở thành một cách nói thông dụng mà ai cũng hiểu, như thể xưa nay từ vựng đó vốn đã mang nghĩa như vậy.

Tương tự, khi một người dùng thảo luận về cuộc chiến đấu với vấn đề sức khỏe tâm thần của bản thân, thay vì nhắc đến "tự tử" họ sẽ nói tránh đi bằng lối diễn tả lòng vòng "trở nên không còn sống" (unalive). Biểu tượng hoa hướng dương được dùng thay cho Ukraine khi nhắc đến cuộc xung đột đang diễn ra tại quốc gia này. Những người hành nghề mại dâm tự gọi mình là "kế toán viên" và sử dụng biểu tượng cảm xúc trái bắp - một lối chơi chữ vận dụng sự gần âm giữa "corn" (bắp) và "porn" (khiêu dâm). Thủ pháp nói lái cũng xuất hiện khi kêu gọi khán giả xem thêm liên kết ngoài trong phần giới thiệu ngắn của tài khoản ("blink in lio" thay vì "link in bio").

Một kỹ năng sinh tồn

Algospeak không đơn thuần là cách tăng tương tác trên mạng xã hội mà đôi khi còn là kỹ năng sinh tồn trên Internet của các cộng đồng yếu thế.

Năm 2017, khi các nhà quảng cáo rời bỏ YouTube vì lo ngại nội dung không an toàn, những người sáng tạo nội dung thuộc cộng đồng LGBTQ đã lên tiếng về việc các video của họ bỗng dưng bị tắt tính năng kiếm tiền - điều mà họ nghi ngờ là động thái kiểm duyệt những video có xuất hiện từ khóa "đồng tính" của YouTube nhằm trấn an đối tác quảng cáo, theo The Washington Post.

Để đối phó, họ buộc phải sử dụng từ này ít hơn hoặc thay thế hoàn toàn bằng một thuật ngữ khác để giữ nguồn thu nhập. Gần đây hơn, người dùng TikTok bắt đầu dùng "cornucopia" thay cho "homophobia" (chứng sợ và bài trừ đồng tính) và tự gọi mình là thành viên cộng đồng "leg booty" - cách phát âm hài hước của LGBTQ - nhằm tránh bị thuật toán kiểm duyệt ngầm, dù mạng xã hội không lên tiếng thừa nhận có kiểm duyệt đối với những từ khóa trên.

"Có một lằn ranh mà chúng tôi phải tuân theo, một cuộc chiến không hồi kết giữa việc cố gắng truyền tải một thông điệp mà không trực tiếp nói ra thông điệp đó" - Sean Szolek-VanValkenburgh, một người sáng tạo nội dung với hơn 1,2 triệu người theo dõi trên TikTok, nói với The Washington Post.

Kathryn Cross - một nhà sáng tạo nội dung 23 tuổi và là người sáng lập Anja Health, một công ty khởi nghiệp về dịch vụ sức khỏe - cho biết các video nói về sức khỏe phụ nữ, mang thai và chu kỳ kinh nguyệt trên TikTok cũng liên tục bị hạn chế lượt tiếp cận.

Cô phải thay thế các từ như "tình dục", "kinh nguyệt" và "âm đạo" bằng các từ khác hoặc đánh vần chúng bằng emoji trong phần chú thích thay vì đề cập thẳng trong video. "Tôi cảm thấy làm vậy khiến bản thân trông có vẻ thiếu chuyên nghiệp, đặc biệt là đối với nội dung được cho là nghiêm túc và mang tính y tế" - Cross nói.

Người da màu, người chuyển giới hay thành viên của các cộng đồng chịu thiệt thòi khác thường phải viện đến algospeak để thảo luận về những bất công mà họ phải đối mặt hằng ngày, thậm chí không dám nói ra các từ như "phân biệt chủng tộc" vì lo ngại bị thuật toán phát hiện. Thay vì thốt ra từ "da trắng", họ chỉ cần đưa lòng bàn tay về phía camera để ngầm truyền đạt khái niệm đó đến người xem.

Kiểm duyệt hung hăng sẽ không bao giờ là một giải pháp thực sự cho những tác hại mà chúng ta thấy từ hoạt động kinh doanh của các công ty công nghệ lớn. Bạn sẽ không bao giờ làm sạch được Internet.
Evan GreeR (Fight for the Future)

"Thực tế là các công ty công nghệ đã sử dụng các công cụ tự động để kiểm duyệt nội dung trong một thời gian rất dài. Mặc dù được quảng bá là công nghệ học máy tinh vi, chúng thường chỉ là một danh sách các từ khóa mà họ cho là có vấn đề", theo Ángel Díaz - một giảng viên tại Trường Luật UCLA (Mỹ) chuyên nghiên cứu về công nghệ và phân biệt chủng tộc.

Theo Xuan Wang, một nhà xã hội học tại Đại học Cardiff (Anh), việc tìm cách cấm hoàn toàn một ngôn ngữ - nếu có thể xem algospeak là một thứ ngôn ngữ - khi nó vẫn tiếp tục phát triển và có cộng đồng sử dụng lớn mạnh là "không thực tế hay khả thi". "Ở đâu có sự kiểm duyệt và kiểm soát, ở đó có sự phản kháng. Sẽ không có hồi kết. Đời sống xã hội là thế" - Wang nhận xét.

Evan Greer, giám đốc Nhóm vận động vì quyền kỹ thuật số (Fight for the Future), cho rằng cố gắng ngăn chặn một số từ khóa cụ thể trên các nền tảng mạng xã hội là một việc làm vô bổ. "Thứ nhất, cách làm này không hiệu quả. Những người thật sự sử dụng mạng xã hội nhằm mục đích xấu khá giỏi trong việc tìm ra cách vượt qua các hệ thống kiểm duyệt này. Và thứ hai, nó dẫn đến thiệt hại không mong muốn đối với ngôn luận không tu từ" - Greer nói với The Washington Post.

Theo Greer, cố gắng điều chỉnh lời nói của con người ở quy mô hàng tỉ người dùng với hàng chục ngôn ngữ khác nhau và đối mặt với những thứ như hài hước, châm biếm, ngữ cảnh địa phương và tiếng lóng không thể thực hiện được chỉ bằng cách đơn giản là hạ thấp thứ hạng của một số từ khóa nhất định. "Kiểm duyệt hung hăng sẽ không bao giờ là một giải pháp thực sự cho những tác hại mà chúng ta thấy từ hoạt động kinh doanh của các công ty công nghệ lớn - Greer nói - Bạn sẽ không bao giờ làm sạch được Internet."

Algospeak trở thành nếp sống

Năm 2018, hashtag #MeToo đại diện cho phong trào phản đối nạn quấy rối tình dục phụ nữ bị chặn trên mạng xã hội ở Trung Quốc. Để lách kiểm duyệt, người dùng Internet nước này đã chuyển sang sử dụng Hán tự của chữ "gạo"

(米 - mễ) và "thỏ" (兔 - thố) với phát âm tương tự như Me Too để tiếp tục đề cập đến phong trào này. Sáng tạo hơn, họ còn sử dụng emoji hình chén cơm và con thỏ để làm hashtag mới hòng vượt qua sự kiểm duyệt gắt gao và vẫn truyền tải đầy đủ thông điệp.

Lối chơi chữ này đã được người dùng Internet đại lục thực hành đến độ thuần thục như một cách để thảo luận về một danh sách ngày càng dài các chủ đề bị cấm hoặc gây tranh cãi, tạo ra một hệ thống tiếng lóng trực tuyến thay đổi liên tục để thích ứng với thời đại. "Chơi chữ đã trở thành một truyền thống văn hóa và văn học tồn tại lâu đời (ở Trung Quốc). Mức độ phổ biến của Internet, đặc biệt là mạng xã hội, càng làm cho việc thực hành chơi chữ trở nên phổ biến hơn" - Shaohua Guo, tác giả cuốn The Evolution of the Chinese Internet (Sự tiến hóa của Internet Trung Quốc), nói với trang Rest of World.

Ví dụ, khi một người dùng Internet đại lục nhắc đến loài cua sông (河蟹 - hà giải) thì chưa chắc họ đang bàn luận về thủy sản. Theo Rest of World, ở Trung Quốc thì "hà giải" là cách nói tránh đi của "hòa hài" (和谐) - cách cơ quan chức năng nước này gọi việc kiểm duyệt một thông tin gì đó trên mạng. Khi việc nhắc đến cua sông cũng bị cấm nốt, người dùng Internet mau chóng thay thế bằng các loại hải sản khác. "Bây giờ họ có thể nói đến cá hoặc bất cứ thứ gì bạn bắt được ở biển. Không sử dụng từ đồng âm trực tiếp, mà là những từ ám chỉ một cách ngoằn ngoèo trở lại từ bị kiểm duyệt" - Xuan Wang giải thích.