Truy vết tội phạm bằng một dấu câu

TTCT - Chào mừng tới địa hạt của điều tra dựa vào ngôn ngữ học (forensic linguistics).

Ngữ pháp, cú pháp và từ vựng có thể là manh mối để phá giải những vụ án bế tắc; một dấu phẩy, thói quen cách dòng có thể tố cáo tác giả của những nội dung nặc danh; phong cách văn chương giúp đòi công đạo cho tác giả bị nghi ngờ về khả năng sáng tác.

Rất nhiều vụ án hay vụ việc kéo dài hàng thập kỷ không tìm ra thủ phạm bởi không có chứng cứ nào để lại ngoài những lá thư (và sau này là email, bài viết trên mạng) nặc danh. Nhưng với các nhà điều tra ngôn ngữ học (forensic linguist), một dấu phẩy trong văn phong cũng có thể tố giác kẻ đứng sau. Đặc biệt với sự trợ giúp của công nghệ trí tuệ nhân tạo (AI).

Phá án hình sự

Đầu giờ chiều 16-10-1984, bé trai 4 tuổi Grégory Villemin, đang chơi ở khu vườn trước nhà ở Lépanges-sur-Vologne (miền đông nước Pháp), bỗng dưng biến mất. Không ai tìm thấy cậu dù đã lùng sục khắp làng.

Tối hôm đó, thi thể của Grégory được đưa ra khỏi sông Vologne với tay và chân bị trói bằng dây thừng. Thư đe dọa và thông báo gửi tới cha của cậu bé, Jean-Marie Villemin, bằng những nét chữ lộn xộn, chắp vá: "Tôi hy vọng ông sẽ chết vì đau buồn, ông chủ. Tiền của ông sẽ không mang con trai ông trở về. Đây là sự trả thù của tôi, đồ khốn nạn".

Vụ án đã phải mở đi mở lại nhiều lần, nhiều nghi phạm bị bắt, từ mẹ, cha đến bác họ của nạn nhân. Thẩm phán khi đó mới 32 tuổi, Jean-Michel Lambert, phạm phải những sai lầm nghiêm trọng ngay từ đầu cuộc điều tra, đã tự tử vào năm 2017. Trớ trêu thay, 2017 cũng là năm vụ án cuối cùng được phá, nhờ điều tra ngôn ngữ học.

Theo bài viết trên tạp chí The Dial tháng 11-2024, cảnh sát đưa một nhóm các nhà ngôn ngữ học Thụy Sĩ từ công ty OrphAnalytics đến kiểm tra các lá thư mà thủ phạm đã gửi đến gia đình của Grégory.

Qua phân tích cách sử dụng từ vựng, chính tả và cấu trúc câu, họ xác định người dì của nạn nhân, Jacqueline Jacob, chính là thủ phạm. Vợ chồng Jacqueline sau đó bị bắt nhưng cuối cùng được thả vì các vấn đề tố tụng.

Tại Pháp, truy vết bằng chứng từ phong cách văn chương hầu hết chỉ dùng trong giới học thuật. Vụ án của Grégory là lần đầu tiên nó được ứng dụng vào một cuộc điều tra hình sự lớn ám ảnh cả một thế hệ. Song kết quả cũng gây tranh cãi và hoài nghi.

Luật sư của nghi phạm bác bỏ phân tích và cho rằng nó hoàn toàn vô lý. Trong khi đó, tiến sĩ Claude-Alain Roten, CEO Orphanalytics, khẳng định với The Dial kết quả báo cáo là đáng tin cậy vì "có kết luận tương tự như phân tích bằng các phương pháp khác".

Theo các nhà điều tra ngôn ngữ học, cách chúng ta sử dụng ngôn ngữ cũng mang tính duy nhất như dấu vân tay vậy. "Các thuật toán xác định mẫu trong cú pháp câu giống như trong trình tự ADN. Có khác chăng là ADN thì thủ phạm không thể kiểm soát, còn văn phong thì họ sẽ cố tình tìm cách che đậy" - Roten nói.

Vết chữ nết người

Truyện ngắn Vụ tai tiếng xứ Bohemia (1891) có bóng dáng thấp thoáng của một nhà điều tra bằng ngôn ngữ học, khi tác giả Conan Doyle cho Sherlock Homes nhận xét về cấu trúc văn phong của bức ghi chú.

Tuy vậy, thuật ngữ "điều tra bằng ngôn ngữ học" có thể được Jan Svartvik, một nhà ngôn ngữ học người Thụy Điển, đặt ra vào những năm 1960. Ông cũng là người đã xem xét lại vụ án gây tranh cãi của Timothy John Evans ở Xứ Wales, người bị buộc tội oan vì giết vợ và con gái và bị kết án treo cổ vào năm 1950.

Svartvik phát hiện Evans, một người mù chữ, không thể viết lời thú tội "một cách chủ động" mà cảnh sát đã ghi chép lại. Hung thủ thực sự là hàng xóm ở tầng dưới của Evans, hóa ra là một kẻ giết người hàng loạt.

Ngày nay, các nhà điều tra ngôn ngữ được biết đến nhiều nhất vì góp phần giải quyết vụ án "Unabomber" ở Mỹ. Một nhân vật bí ẩn đã gửi bom thư đến các học giả, doanh nhân và thường dân ngẫu nhiên, làm 3 người chết và ít nhất 24 người bị thương. Kẻ đánh bom vô cùng cẩn thận không để lại dấu vân tay, ADN và ung dung thực hiện hành vi này suốt gần 20 năm, từ 1978.

Đến năm 1995, hắn gửi thông điệp tạm dừng tấn công nếu một tờ báo xuất bản tuyên ngôn chống công nghệ dài 35.000 từ của hắn. Khi tài liệu này đăng tải trên các báo The Washington Post, The New York Times và tạp chí Penthouse, nhiều người trong đó có anh trai của thủ phạm đã liên hệ nói rằng họ nhận ra phong cách viết này.

Trong khi đó, nhà ngôn ngữ học FBI James Fitzgerald và nhà xã hội học ngôn ngữ Roger Shuy đã nghiên cứu thư của kẻ đánh bom và thu hẹp danh sách nghi phạm nhờ những mô hình khác biệt trong ngôn ngữ của hắn. Khi các bằng chứng ngôn ngữ đầy đủ, các nhà điều tra đã khám xét nơi ở của nhà toán học ẩn dật tên Theodore Kaczynski, tìm thấy bản sao của tuyên ngôn và bom tự chế.

Xác định tác giả

Ngoài phá án, điều tra ngôn ngữ học, với sự trợ giúp của khoa học máy tính đã giải quyết các trường hợp "gán quyền tác giả", làm sáng tỏ nhiều bí ẩn văn học lâu đời.

Năm 2013, Richard Brooks, biên tập viên mảng nghệ thuật của tờ Sunday Times (Anh), gây chấn động giới xuất bản khi phát hiện tác giả Robert Galbraith của tiểu thuyết trinh thám Con chim khát tổ (The Cuckoo's Calling) thật ra là JK Rowling, tác giả của Harry Potter.

Brooks đã điều tra, thu thập nhiều chứng cứ trước khi nhờ Patrick Juola, một nhà khoa học máy tính tại Đại học Duquesne, hỗ trợ để có "bằng chứng" chắc chắn nhất, khiến Rowling thừa nhận bà chính là Galbraith.

Juola được cung cấp bản mềm của năm cuốn sách để phân tích, gồm Con chim khát tổ, Khoảng trống (chính hiệu của Rowling) và ba tiểu thuyết trinh thám Anh để nạp vào phần mềm JGAAP do ông và các sinh viên phát triển suốt hơn 10 năm phân tích. JGAAP quét qua hàng chục ngàn từ trong mỗi cuốn theo 4 cách khác nhau để đi đến kết luận cuối cùng.

Đối với nhà viết kịch Molière, điều tra bằng ngôn ngữ học chắc là ân nhân "giải oan" cho bao nhiêu đồn đoán về ông. Trong hơn thập kỷ, các học giả đều cho rằng Molière không thể sáng tác những tác phẩm để đời vì học hành không tới nơi tới chốn, hầu hết là do nhà thơ Pierre Corneille viết hộ.

Tuy vậy, các nhà ngôn ngữ học tính toán Florian Cafiero và Jean-Baptiste Camps ở Pháp đã xem xét ngôn ngữ, vần điệu, ngữ pháp và các dạng từ, nhận ra vở kịch nào do Molière chấp bút, tác phẩm nào do Corneille viết. May quá, các áng văn chương nhờ đó không bị "nhầm địa chỉ".

Với thành công của nghiên cứu về Molière, Cafiero và Camps cùng với tiến sĩ Roten và Lionel Pousaz của Orphanalytics được tờ The New York Times mời điều tra kẻ chủ mưu của thuyết âm mưu cực hữu QAnon ở Mỹ.

Nhóm của Roten phân tích theo phương pháp ngôn ngữ học truyền thống, còn nhóm của Cafiero thì sử dụng máy học, chia nhỏ các văn bản của QAnon - luôn được ký với vỏn vẹn chữ Q - thành các mẫu chuỗi 3 ký tự rồi theo dõi sự kết hợp và lặp lại của chúng. Tài liệu chung cho hai nhóm gồm hơn 100.000 từ bài đăng của Q và văn bản của 13 nhà văn, mỗi người ít nhất 12.000 từ.

Kết quả của cả hai nhóm đều dẫn về Paul Furber, một kỹ sư phần mềm người Nam Phi và Ron Watkins, một nhà lý thuyết âm mưu người Mỹ, là những người có khả năng đứng sau cái tên Q ẩn danh. Nhóm của Toten khẳng định tỉ lệ chính xác phân tích của họ là 93%, còn nhóm học giả Pháp thì phát hiện Watkins khớp 99%, Furber khớp 98% các bài kiểm tra của họ.

Trả lời phỏng vấn The New York Times, Furber nói mình chỉ bị những thông điệp của Q ảnh hưởng lên mọi mặt cuộc sống, nên bắt đầu nói chuyện giống Q mà thôi. Còn Watkins thì khẳng định "tôi không phải là Q".

Nhưng nghi ngờ đã dấy lên từ giữa năm 2018 rằng chính Furber, một trong những người đầu tiên lan truyền về QAnon, là người đã viết những nội dung đó. Tờ báo đặt câu hỏi nếu không có am hiểu trước, làm sao một người có thể lấy những bài đăng gần như vô nghĩa đó ra khỏi luồng tin trực tuyến có vô vàn nội dung ngoài kia.

Theo Cafiero, ban đầu hầu hết văn bản là do Furber viết, vào đầu năm 2018, vì một lý do nào đó mà có sự chuyển giao dần dần cho Watkins, vì phong cách viết thay đổi từ những câu hỏi của Socrates sang tuyên bố và giải thích, sử dụng nhiều dấu chấm than và một số từ in hoa kèm ảnh chế meme.

Những hành vi phạm tội trực tuyến ngày càng trở nên dễ dàng hơn nhờ tính ẩn danh và phạm vi tiếp cận rộng khắp trên các nền tảng truyền thông xã hội. Tội phạm cũng sử dụng AI để che giấu văn phong của mình.

Tuy vậy, các nhà ngôn ngữ học lại cho rằng phong cách viết gần như không thể che đậy vì nhiều chi tiết con người sử dụng trong vô thức, như một dấu phẩy hay dấu chấm câu.

Mổ xẻ ngôn ngữ ChatGPT truy sát nhân trong tiểu thuyết ăn khách

We Solve Murders là tiểu thuyết tội phạm mới nhất của Richard Osman, tác giả của loạt truyện ăn khách The Thursday Murder Club (Câu lạc bộ sát thủ thứ năm).

We Solve Murders kể về vệ sĩ Amy Wheeler của công ty an ninh Maximum Impact, và ba chồng cô, Steve Wheeler, cựu thám tử ở London hiện đang hành nghề tại các trấn nhỏ nông thôn nước Anh.

Nhiệm vụ mới nhất của Amy là bảo vệ tác giả nổi tiếng Rosie D'Antonio. Tuy nhiên, nguy hiểm bủa vây khi Amy trở thành mục tiêu truy sát của François Loubet, tội phạm khét tiếng đang nhắm vào Maximum Impact.

François điều khiển mọi thứ từ xa qua email với nội dung được tạo từ ChatGPT. Để tránh bị phát hiện văn phong quen thuộc, hắn thường bảo ChatGPT "làm ơn viết lại văn bản theo phong cách của một quý ông người Anh thân thiện".

Kết quả là, các thông điệp của tên sát thủ dù gửi cho CEO của Maximum Impact hay thuộc hạ đều xuất hiện các từ ngữ lỗi thời, những cách xưng hô không còn mấy ai dùng hay kiểu lời kết rất đặc trưng.

Các nhân vật chính nhanh chóng nhận ra những đặc điểm ngôn ngữ khác thường này có thể dẫn dắt họ tìm ra danh tính của François. Dù vô tình hay cố ý, họ đang bắt đầu mạo hiểm dấn thân vào thế giới của một nhà điều tra ngôn ngữ học nhằm xác định tác giả.