Điểm sách Calling Bullshit in the Age of Big Data:

Cẩm nang vạch mặt ba xạo

NGUYỄN VŨ 15/12/2020 10:00 GMT+7

TTCT - Một cuốn sách hữu ích, giúp bạn lọc cát đãi vàng trong một thế giới đầy những lời đao to búa lớn, văn phong quảng cáo lồng lộng, những nghiên cứu ngụy khoa học, những lập luận dắt dây và những câu văn phức tạp...

Có hẳn một môn học tại một trường đại học mang tên Calling bullshit in the age of big data. Bullshitlà một từ thông tục, gọi ai đó bằng từ này có nghĩa là bảo họ xạo, họ nói bậy, nói vớ vẩn tào lao. Vì thế, tên khóa học này đại khái là “Vạch mặt nói xạo trong thời đại dữ liệu lớn”.

Hai ông thầy dạy khóa này tại Đại học Washington (Seatle, Mỹ) là Jevin West, giáo sư tin học và Carl Bergstrom, một nhà sinh học. Một sự kết hợp kỳ lạ.

Nhưng thật ra, cơ sở ra đời môn học này là rất logic và hợp thời: loài người từ khi biết ngồi quây quần và kể chuyện đã pha lẫn trong câu chuyện mình kể nhiều chi tiết ba xạo cho thêm phần hấp dẫn. Ắt hẳn cũng từ đó, người ta cũng dần tự trang bị cho mình cái kỹ năng phát hiện ba xạo để khỏi bị “phỉnh” như một kẻ khờ khạo. Nhưng thuốc luôn có sau bệnh, khi ba xạo lan sang nghiên cứu khoa học, vào lãnh vực trí tuệ nhân tạo, dữ liệu lớn, rồi “học máy”... đa số ta chưa quen, vẫn “há hốc miệng” mà nghe một cách say mê, đầy tin tưởng.

Vì thế, một môn học giúp vạch mặt được các lời ba xạo cao cấp này sẽ vô cùng cần thiết cho người sẽ ra đời trong thời đại công nghệ hiện nay. Nên chẳng có gì ngạc nhiên khi trường vừa công bố nội dung môn học, chỉ 1 phút sau đã đủ 180 sinh viên ghi danh.

Khóa học ở tận bên Mỹ nhưng may thay, hai ông thầy đã soạn lại nội dung bài giảng thành một cuốn sách mới xuất bản vào tháng 8 vừa qua và hiện đang bán chạy như tôm tươi: cuốn Calling bullshit: The art of skepticism in a data-driven world (Vạch mặt nói xạo: Nghệ thuật hoài nghi trong thế giới vận hành bởi dữ liệu lớn).

Bìa sách

Sách kể về khá nhiều câu chuyện ba xạo cao cấp, nhưng để dễ hình dung vì sao người ta ba xạo, hãy bắt đầu bằng câu chuyện sau:

Một người bạn bảo: Này, anh biết không, ai nuôi mèo thì thường có mức lương cao hơn người nuôi chó! Nếu chỉ ngưng ở đó, người nghe rất dễ phán “ông nói xạo” và người nói cười xòa. Nhưng người nói tiếp tục khăng khăng rằng anh ta mới nghe một bài nói chuyện rất nghiêm túc trên TED Talk về đề tài này. Trong bài nói chuyện đó, diễn giả giải thích người nuôi mèo thường thích tính độc lập, người nuôi chó thích sự trung thành, và ai thích độc lập thường có tố chất NVT hay NVS gì đó tớ quên rồi, tố chất này giúp họ dễ thăng tiến nên lương cao hơn là chuyện đương nhiên. Đến đây, rất có thể ông bạn đã tin sái cổ, bởi ông kia ba xạo theo kiểu cao cấp.

Ba xạo cao cấp là dùng dữ liệu, biểu đồ, dẫn chứng, minh họa, lý thuyết... để củng cố câu chuyện mình kể, bất kể thông tin đúng hay sai, hợp lý hay phi lý. Câu chuyện chó mèo lúc trà dư tửu hậu nói trên mà vào tay một nhà nghiên cứu, bỏ công ghi nhận dữ liệu ở thành phố New York - nơi mức lương thường cao hơn hẳn nơi khác và rất khó nuôi chó so với các thành phố khác ở mạn trên tiểu bang New York, nơi lương thường thấp hơn và đất rộng nên dễ nuôi chó hơn - rất dễ cho ra một công trình công phu, dữ liệu chính xác nhưng kết quả cũng chỉ là ba xạo.

Có rất nhiều nghiên cứu loại này. Năm 2016, có hai nhà nghiên cứu công bố công trình dùng công nghệ học máy để phát hiện các đặc điểm trên gương mặt người gắn với tội phạm. Họ tuyên bố với thuật toán của họ, chỉ cần nhìn vào hình chụp chân dung, có thể phán đoán ai là tội phạm, ai là dân vô tội với độ chính xác cao. Báo chí rùm beng lên, cho đó là một thuật toán vô nhân đạo, vô đạo đức... Người ta không nhận ra và rồi quên rằng bản thân cái nghiên cứu này là đồ ba xạo vì tác giả dùng ảnh sưu tầm trên mạng để đưa vào nhóm người bình thường, xin ảnh của cảnh sát chụp những kẻ từng phạm tội để đưa vào nhóm tội phạm. Chừng đó cũng đủ để ném nghiên cứu đó vào sọt rác vì ảnh tội phạm lúc nào cũng chụp xấu, người bị chụp đang lo sợ, hoang mang hay gầm gừ phản ứng. Ảnh bình thường ai cũng muốn chụp cho đẹp hẳn lên. Chưa kể tác giả chỉ ra những đặc điểm của chân dung tội phạm, trong đó có những diễn đạt rất phức tạp để miêu tả với kích thước so sánh, tỉ lệ này nọ, hóa ra cũng để chỉ gương mặt không cười. Nhưng có đời nào hình cảnh sát chụp kẻ phạm tội mà đang cười tươi?

Đáng tiếc, thế giới nghiên cứu đầy rẫy các công trình như thế nấp dưới các câu văn phức tạp, các công thức tính toán dài dòng, các lập luận dắt dây rất khó lần ra manh mối. Với cuốn Calling bullshit, chỉ cần đọc các câu chuyện ba xạo cao cấp trong sách cũng đã hấp dẫn và bổ ích, nhưng quan trọng hơn, các tác giả bày cho người đọc cách phát hiện các loại ba xạo này.

Đầu tiên, tác giả cảnh báo một ảo tưởng: ta thường nghĩ trong một thời kỳ mà ai nấy đều có trong tay một máy tính mạnh dưới dạng chiếc điện thoại di động có kết nối Internet để có thể kiểm tra bất kỳ dữ kiện nào trong nháy mắt thì ba xạo sẽ không còn đất sống. Nhưng hóa ra ngược lại: công nghệ đã giúp ba xạo lan rộng hơn bất kỳ giai đoạn nào trước đây; một câu chuyện ba xạo nhưng kèm thêm yếu tố hấp dẫn là miếng mồi ngon cho mạng xã hội lưu truyền lan mạnh.

Nếu trước đây tít báo có nhiệm vụ nói một cách gọn nhất nội dung chủ yếu của tin bài thì nay, với công nghệ câu khách nhấp vào link đọc, không ai dại gì viết hết mọi sự ra tít, vì viết ra rõ ràng thì ai mà chịu bấm vào để đọc tiếp. Thế nên, theo các tác giả, tít báo nay uốn éo để làm sao KHÔNG kể cho bạn nghe tin bài nói về chuyện gì mới là thành công.

Một tít trên tờ The Washington Post viết: “Một phần năm ai làm nghề này đều có vấn đề nghiện rượu nặng”; tờ USA Today viết: “Iceland từng là điểm đến hấp dẫn du khách nhất. Chuyện gì đã xảy ra?”. Báo có chức năng cung cấp thông tin ngay lập tức và càng sớm càng tốt, nay lại nói lấp lửng “nghề này”, “chuyện gì”... Để dễ hình dung hơn, chúng ta hãy nhớ lại các tít trên báo trong nước: “Chồng mở cửa phòng ngủ và sững sờ khi nhìn lên giường”; “Bà mẹ chồng làm một điều khiến cô con dâu tái mặt”... Những loại tít úp úp mở mở này mở đường cho các câu chuyện ba xạo tầm bậy lan truyền.

Mỗi chương sách đều bày cho người đọc cách phát hiện ba xạo. Đáng chú ý là chương 8 về cách vạch mặt ba xạo khi nói về dữ liệu lớn.

Trí tuệ nhân tạo (AI) hay học máy đều cần dựa vào dữ liệu, thuật toán có hay ho đến đâu mà dữ liệu sai, dữ liệu tầm bậy thì chắc chắn sẽ ra kết quả ba xạo (tác giả dùng cụm từ “garbage in, garbage out” - đầu vào là rác thì đầu ra cũng là rác”. Với các startup khoe là có công nghệ dựa vào AI, chỉ cần hỏi kỹ về dữ liệu dùng để huấn luyện máy, lấy từ đâu ra, dữ liệu có sạch không thì sẽ biết ngay họ ba xạo hay startup thứ thiệt.

Năm 2009 tạp chí Nature đăng bài miêu tả một công trình nghiên cứu của Google, dựa vào các từ khóa người dùng gõ tìm kiếm như “sốt”, “đau đầu”, “triệu chứng cúm”, “tiệm thuốc tây gần tôi”, Google có thể tiên đoán sớm và chính xác dịch cúm sẽ diễn ra ở địa phương nào còn nhanh hơn giới y tế. Nghiên cứu này gây xôn xao dư luận, ai nấy đều hăm hở tin rằng giờ là thời của “dữ liệu lớn”, chỉ cần có “dữ liệu lớn”, mọi phương pháp khoa học khác đều lỗi thời. Bản đồ cúm của Google thành một thứ hàng “hot” khắp nơi. Đến năm 2014, thiên hạ mới ngã ngửa: càng ngày dự đoán cúm của Google càng sai thực tế. Cuối cùng Google phải hủy bỏ dự án và lấy trang “xu hướng cúm” xuống trong ê chề. Sai lầm của họ là chọn các cụm từ để dự báo cúm, trên thực tế không hề có mối quan hệ nhân quả nào như Google nhầm tưởng.

Calling bullshit là một cẩm nang hữu ích để lọc cát đãi vàng trong một thế giới đi đâu cũng thấy những lời đao to búa lớn, văn phong quảng cáo, kể cả trong thông cáo báo chí của các công trình nghiên cứu, nhất là qua mùa đại dịch Covid-19 vừa qua. Có lẽ ngoài việc nắm được nguyên tắc phân biệt giữa tương quan và nhân quả, hoài nghi dữ liệu lớn, cảnh giác việc nhào nặn số liệu để phù hợp với kết quả, cách dễ nhất là cứ tâm niệm chuyện gì “quá tốt để tin” thì ắt là nó không tốt thật. ■

Một trong những câu chuyện ba xạo được đề cập trong cuốn sách là công trình nghiên cứu cho rằng các nghệ sĩ dòng nhạc rap hay hip-hop thường chết trẻ hơn nghệ sĩ dòng nhạc blue hay jazz. Nghe qua tưởng đây là một công trình khoa học làm sáng tỏ một hiện tượng mà nhiều người cũng mang máng thấy. Nhưng nó sai một cách nghiêm trọng: quãng thời gian đưa vào để quan sát là quá ngắn, nhạc rap mới ra đời từ thập niên 1970 nên nghệ sĩ rap nào chết đều là chết trẻ hơn so với các dòng nhạc khác. Nếu kéo dài thời gian quan sát thêm 100 năm nữa, kết luận sau cùng sẽ không còn đúng nữa.

Bình luận
    Viết bình luận...