Mắt thấy tai nghe, ai dè lừa đảo

TTCT - Với năng lực và độ dễ tiếp cận của các công cụ trí tuệ nhân tạo (AI) tạo sinh tân tiến, hoài nghi mọi thứ đang trở thành một kỹ năng sống.

Những tiến bộ AI đang cho phép kẻ xấu sao chép giọng nói chỉ bằng một mẫu âm thanh gốc có độ dài vài giây (thứ mà chính chúng ta vô tư đưa công khai lên mạng) thay vì cần nguồn dữ liệu đầu vào khổng lồ để huấn luyện như trước.

Cuộc gọi ngàn đô

Bà Ruth Card (73 tuổi) và chồng Greg Grace (75 tuổi) vội vã đến ngân hàng ở Regina, thủ phủ tỉnh bang Saskatchewan (Canada) rút 3.000 đô la Canada sau cuộc gọi từ người cháu trai Brandon cầu cứu ông bà nộp tiền bảo lãnh tại ngoại.

Khi họ đến chi nhánh thứ hai với hy vọng có thể rút thêm ngoài hạn mức, quản lý tại đây cảnh báo bà Card và chồng có thể là nạn nhân một vụ lừa đảo công nghệ kiểu mới. Chi nhánh này trước đó từng tiếp một vị khách cũng nhận cuộc gọi tương tự và sau đó đã phát hiện giọng nói giống người thân đến kỳ lạ kia chỉ là giả mạo.

"Chúng tôi bị thuyết phục hoàn toàn. Chúng tôi đã tin chắc rằng lúc đó mình đang nói chuyện với Brandon" - bà Card nói với báo The Washington Post.

Vụ việc của bà Card là dấu hiệu cho thấy một xu hướng đáng lo ngại ở nhiều quốc gia: tiến bộ công nghệ đang giúp tội phạm mạo danh tạo ra những chứng cứ thuyết phục hơn để đánh lừa nạn nhân rằng người thân của họ đang cần giúp đỡ.

Theo dữ liệu từ Ủy ban thương mại liên bang Mỹ (FTC), mạo danh là phương thức lừa đảo phổ biến thứ hai ở nước này trong năm 2022 với hơn 36.000 lượt trình báo bị lừa bởi những kẻ giả danh bạn bè và gia đình. Hơn 5.100 vụ trong số này diễn ra qua điện thoại, gây thiệt hại hơn 11 triệu USD.

Mặc dù lừa đảo mạo danh có nhiều hình thức, nhưng về cơ bản chúng hoạt động theo cùng một nguyên tắc: kẻ lừa đảo giả làm một người đáng tin cậy - thường là người thân trong gia đình hoặc bạn bè - và thuyết phục nạn nhân gửi tiền cho họ để giải quyết một tình huống khẩn cấp nào đó. Cách lừa đảo này không mới và vẫn tồn tại phổ biến từ xưa đến nay, chẳng hạn chiếm tài khoản mạng xã hội và nhắn tin cho danh sách bạn bè để mượn tiền.

Công nghệ tổng hợp giọng nói bằng AI lại giúp kẻ xấu đi xa thêm một bước: Nạn nhân thường thừa nhận họ không đủ bình tĩnh để suy nghĩ thấu đáo khi nghe thấy tiếng của chính những người thân yêu nói rằng đang gặp nguy hiểm. "Đó chắc chắn là cảm giác sợ hãi, rằng chúng tôi phải giúp nó ngay lập tức" - bà Card nhớ lại suy nghĩ trong đầu khi nghe giọng nói quen thuộc của người cháu trai qua điện thoại.

Bản sao hoàn hảo

Một loạt công cụ trực tuyến giá rẻ, thậm chí miễn phí, có thể phân tích các đặc điểm của âm thanh mẫu để rút ra "mô hình" của một giọng nói, sau đó cho phép người dùng yêu cầu giọng nói này "nói" bất cứ thứ gì họ muốn.

Theo GS Hany Farid của Đại học California ở Berkeley, phần mềm tạo sinh giọng nói bằng AI hoạt động bằng cách phân tích các yếu tố khiến chất giọng của mỗi người là độc đáo - có thể là tuổi tác, giới tính hoặc ngữ điệu. Sau đó, nó có thể tái tạo cao độ, âm sắc và các âm thanh đặc trưng của giọng nói để tạo ra hiệu ứng tổng thể giống nhất có thể.

Tất cả những gì AI cần là một mẫu âm thanh ngắn, và nó có thể được lấy từ những nơi công cộng như YouTube, podcast, quảng cáo, video TikTok, Instagram hoặc Facebook mà người dùng mạng xã hội vô tư đăng tải.

"Hai năm trước, hay thậm chí một năm trước, bạn cần rất nhiều tư liệu âm thanh mẫu để sao chép giọng nói của một người. Giờ đây nếu bạn có một tài khoản Facebook hoặc đã quay một clip TikTok chứa giọng nói của mình trong 30 giây, bất cứ ai cũng có thể sao chép giọng nói của bạn" - Farid cảnh báo.

ElevenLabs, một start-up Mỹ mới thành lập năm 2022, là một start-up cung cấp chính xác dịch vụ đó, với các gói thuê bao từ miễn phí cho đến 330 USD/tháng, giá càng cao càng cho phép người dùng tạo nhiều bản audio hơn.

Công ty này hiện đang gặp làn sóng chỉ trích vì công cụ của họ được sử dụng để "nhân bản" giọng nói của những người nổi tiếng cùng phát ngôn gây tranh cãi, chẳng hạn giọng của diễn viên Emma Watson được dùng để đọc trích đoạn trong cuốn Mein Kampf của Adolf Hitler. Để ứng phó, công ty tuyên bố trên Twitter họ đang áp dụng các biện pháp bảo vệ để ngăn chặn việc lạm dụng, bao gồm cấm người dùng miễn phí tạo giọng nói tùy chỉnh và ra mắt công cụ phát hiện âm thanh do AI tạo ra.

Nhưng những lá chắn bảo vệ này có thể là quá trễ với một số nạn nhân. Cha mẹ của Benjamin Perkin (39 tuổi) đã chuyển số tiền trị giá 21.000 đô la Canada bằng bitcoin cho bọn lừa đảo sau cuộc gọi từ người tự xưng là luật sư của anh và cho biết Perkin đang bị tạm giam sau khi gây tai nạn xe hơi chết người.

Để tạo lòng tin, người này đưa điện thoại cho "Perkin" nói chuyện trực tiếp rằng anh cần ông bà gửi tiền gấp. Giọng nói trong điện thoại nghe "đủ giống để cha mẹ tôi thực sự tin rằng họ đã nói chuyện với tôi", Perkin nói với The Washington Post.

Anh không rõ những kẻ lừa đảo lấy mẫu giọng nói của anh từ đâu ra để huấn luyện AI, nhưng Perkin thừa nhận có đăng tải một số video lên YouTube nói về sở thích trượt tuyết. Gia đình anh đã làm đơn trình báo lên cảnh sát liên bang của Canada, nhưng họ không có nhiều hy vọng lấy lại được số tiền đã mất.

Không chỉ người bình thường, mà ngay cả quản lý cấp cao của công ty lớn cũng có thể là nạn nhân của lừa đảo bằng giọng nói nhân bản. Theo Business Insider, năm 2019 giám đốc một công ty năng lượng ở Anh được cho là đã chuyển hơn 240.000 USD vào một tài khoản ở Hungary sau khi anh ta tin rằng sếp của mình đã yêu cầu như vậy qua một cuộc điện thoại.

Tự bảo vệ mình

Các chuyên gia cho biết các cơ quan quản lý hành chính, cơ quan thực thi pháp luật và tòa án không được trang bị đầy đủ để đối phó nạn lừa đảo đang phát triển mạnh này. Hầu hết nạn nhân có rất ít đầu mối giúp cảnh sát xác định thủ phạm, trong khi việc lần theo dấu các cuộc gọi thường đi vào ngõ cụt vì chúng có thể đến từ bất cứ đâu trên thế giới.

Bên cạnh đó, có rất ít tiền lệ pháp lý để tòa án buộc các công ty cung cấp công cụ tổng hợp giọng nói bằng AI phải chịu trách nhiệm cho việc người dùng của họ sử dụng chúng cho mục đích xấu.

Trên hết, cảnh giác mọi lúc mọi nơi là cách tốt nhất để tự bảo vệ mình trước thủ đoạn lừa đảo tinh vi. Trang ZDNET gợi ý bước đầu tiên và cũng đơn giản nhất là chỉ cần ý thức được có loại tội phạm này đang tồn tại. Nếu một người thân gọi điện cho bạn từ một số lạ và nói rằng họ cần tiền, hãy tạm dừng cuộc gọi đó và thử dùng một chiếc điện thoại khác gọi vào số máy mà họ hay dùng.

Ngay cả nếu số gọi đến là số quen, hãy luôn nhớ rằng đầu dây bên kia vẫn có thể là kẻ lừa đảo nếu chẳng may người thân của bạn làm mất điện thoại. Lúc này, bạn có thể xác minh nhân thân người gọi bằng một số câu hỏi mà bạn biết chỉ chính chủ có thể trả lời, chẳng hạn như một kỷ niệm riêng giữa hai người.

Những yêu cầu chuyển tiền đến số tài khoản lạ, chuyển bằng tiền ảo, thẻ nạp điện thoại hoặc thẻ quà tặng cũng là những dấu hiệu cho thấy người ra yêu cầu có thể đang mạo danh và không muốn bị truy vết.

Đối với bà Card, trải nghiệm suýt mất tiền vì tin vào giọng nói AI giúp bà trở nên cảnh giác hơn. Năm ngoái, bà đã vượt qua sự xấu hổ để chia sẻ câu chuyện của mình với tờ báo địa phương Regina Leader-Post nhằm cảnh báo mọi người về chiêu thức gian lận mới. Vì chưa mất tiền, bà quyết định không trình báo cảnh sát. "(Câu chuyện mà bọn lừa đảo dựng lên) không phải là một câu chuyện cực kỳ thuyết phục. Nhưng câu chuyện ấy chẳng cần phải thuyết phục hơn để lừa được chúng tôi" - Card nói.

Để kiểm chứng khả năng nhái giọng khó tin của ElevenLabs, người viết đã thử mua gói thuê bao 5 USD/tháng và tự nhân bản giọng mình. Với đầu vào là bản ghi âm dài vỏn vẹn 5 câu văn, AI này đã tạo ra mẫu giọng nói mang "chất" riêng của người viết với tổng thời gian từ lúc thu âm tới khi có thành phẩm chưa đến 10 phút.

Sử dụng mô hình giọng nói của chính mình trong tay, người viết nhập một đoạn văn bản ngẫu nhiên để "bản nhái" nói thử với kết quả đáng kinh ngạc: ngoài việc tái tạo được âm sắc và độ trầm bổng, AI còn bắt được những đặc điểm nhỏ trong cách phát âm của tác giả để tạo ra bản sao khá thuyết phục.

Để khách quan hơn, người viết gửi đoạn audio cho một số bạn bè nghe để thử phản ứng, tất nhiên không báo trước đó là giọng máy. Phản hồi nhận lại hầu hết không đặt nghi vấn đó không phải giọng thật, mà chỉ thắc mắc sao hôm nay nói tiếng Anh… hay hơn mọi khi.

Dù vậy sau khi biết được sự tình, các tình nguyện viên bất đắc dĩ cho rằng với cách nói "đều như đọc diễn văn" của công cụ AI thì khó mà đánh lừa họ qua điện thoại nếu cố tình đóng vai một người thật đang nói chuyện. Nhưng đó là thế hệ đã lớn lên cùng công nghệ, còn với những người lớn tuổi như bậc cha mẹ, ông bà thì chưa chắc.

Cần nói thêm là AI của ElevenLabs hoạt động tốt nhất với người nói tiếng Anh, muốn huấn luyện bằng tiếng Việt cũng được nhưng khi gõ tiếng Việt cho nó đọc, AI sẽ phát âm lơ lớ như người nước ngoài, khó mà đem lừa ai.