Theo dõi người dùng internet: Khỏi cần cơ quan tình báo

ĐỨC HOÀNG 13/06/2016 16:06 GMT+7

TTCT - Không cần phải là một cơ quan tình báo có ngân sách vài tỉ USD, bạn cũng có thể theo dõi toàn bộ Facebook - nơi tập trung khối lượng thông tin xã hội lớn nhất thế giới hiện nay.

ảnh Pinterest

Không cần NSA

Nếu đã xem phim tài liệu Công dân số 4 - nói về hành trình tố giác và trốn chạy khỏi các cơ quan an ninh Mỹ của cựu điệp viên Edward Snowden - bạn có thể sẽ choáng trước hệ thống công nghệ khổng lồ mà Cơ quan An ninh quốc gia Hoa Kỳ (NSA) xây dựng để theo dõi người dân.

Nhưng bạn sẽ còn choáng hơn nữa nếu biết rằng bạn có thể làm được một việc gần như thế với giá bèo. 700 USD/tháng, và bạn có thể theo dõi nhất cử nhất động của toàn bộ hơn 1 tỉ account Facebook - mạng chia sẻ thông tin lớn nhất hành tinh.

Trong một văn phòng nhỏ ở P.11, Q.Phú Nhuận (TP.HCM), vài chục chiếc máy tính xếp sát nhau thành một chuỗi dài. Phần lớn trong số đó hiển thị các biểu đồ như biểu giá chứng khoán. Ông chủ trẻ, 33 tuổi, xuất thân là “dân công nghệ” với khuôn mặt hiền đặc trưng, ít nói.

Một không khí khiêm tốn. Trông như một công ty bán hàng qua mạng. Nhưng đó là một trung tâm đang cung ứng dịch vụ kiểm soát khủng hoảng cho hàng chục nhãn hàng lớn nhất Việt Nam. 

Với hệ thống thuật toán viết riêng, và không thể mô tả kỹ càng cho người ngoại đạo (hoặc không muốn, vì đó là bí mật kinh doanh), cũng như các thỏa thuận hợp tác với chính Facebook, văn phòng này theo dõi toàn bộ mạng xã hội Việt Nam theo các từ khóa và báo cáo nó với các khách hàng.

Facebook, một trong những công ty kinh doanh big data lớn nhất thế giới, không thiết kế công cụ tìm kiếm trên cơ sở dữ liệu khổng lồ của họ. Người dùng chỉ có thể tìm thấy chủ đề mong muốn một cách hên xui, nếu như nó được gắn #hashtag.

Để “vọc” được vào cơ sở dữ liệu đó, người dùng cần đến những công ty phái sinh như văn phòng ở Q.Phú Nhuận này. Với cơ chế riêng, họ sẽ liên tục “quét” trên cơ sở dữ liệu của Facebook và tìm kiếm những từ khóa đã được quy định. Ở đâu đó trên hành tinh, một người đăng một dòng trạng thái có từ khóa trong tầm ngắm. Chỉ chưa đầy một phút sau, nó xuất hiện trên màn hình của trung tâm kiểm soát.

Một thống kê năm 2013 của Business Insider khẳng định rằng khối lượng dữ liệu mà Facebook đang nắm giữ có thể có giá thị trường khoảng 1.000 tỉ USD nếu được rao bán. Người ta đang chia sẻ lên mạng xã hội lớn nhất hành tinh mọi khía cạnh của cuộc sống.

Hành vi tiêu dùng, tập tính xã hội, tình trạng sức khỏe, quan điểm chính trị, các mối quan hệ... tất cả trong số đó đều có thể thành hàng hóa, sử dụng trong kinh doanh hoặc chính trị.

Vấn đề của việc “cào” một khối lượng data (data crawling) mà chắc chắn sẽ rất lớn từ Facebook là thống kê: sẽ không ai có thể đọc được hàng trăm hàng nghìn dòng trạng thái hoặc comment của người dùng mạng để có thể biết rằng thật sự khách hàng, hoặc dư luận đang nói gì về mình.

Đó chính là lợi thế của các công ty địa phương: họ sẽ hợp tác với các chuyên gia ngôn ngữ đến từ các trường đại học, viết các thuật toán riêng để nhận định xem một dòng viết là “tiêu cực” hay “tích cực” căn cứ vào một vài từ vựng hoặc cấu trúc câu. Việc này với tiếng Việt là vô cùng khó, bởi tiếng Việt sử dụng từ đơn âm và có thể đảo cấu trúc rất tùy nghi mà vẫn toát lên được nghĩa.

Ai đang nói gì?

Hãy thử bắt đầu với một con số thống kê được đưa ra từ hệ thống trên: trong ngày 6-6-2016, trên Facebook Việt Nam có 199 tài khoản vẫn đang bàn luận về vấn đề môi trường tại Vũng Áng. 72 ý kiến được máy tính nhận định là “tiêu cực”.

Đơn cử, như là trước thông tin hàm lượng sắt vượt quy chuẩn tại bãi tắm gần Vũng Áng, một ý kiến mát mẻ: “Có ai trong tình trạng thiếu sắt thì tích cực đi tắm biển đi nhé” được đánh dấu “đỏ” - “negative” (tiêu cực). 127 ý kiến khác được máy tính khẳng định là “trung hòa”. Tuy nhiên, phần lớn trong số này lại là các chia sẻ về hàm lượng sắt trong nước biển tại các bãi biển ở Hà Tĩnh - tức là dù không công kích trực diện nhưng cũng mang nét nghĩa tiêu cực.

Hoặc kiểm tra sâu hơn, những câu hàm ý mỉa mai như một người nói: “Dự đoán 50 năm nữa, nhà đất sẽ hạ giá sâu vì cầu ít hơn cung, dân số chủ yếu tập trung ở bệnh viện” - mặc dù rất cay nghiệt nhưng máy tính chịu không thể hiểu được câu đó nghĩa là “tiêu cực”. Chúng được đánh dấu màu xám - trung hòa. Không có ý kiến nào về môi trường trong ngày 6-6-2016 được đánh dấu xanh lá cây - tích cực.

Việc đọc ngữ nghĩa của khối lượng dữ liệu được “cào” về từ mạng xã hội này là hoàn toàn tương đối. Nhưng nhìn lại trường hợp trên thì có thể thấy rằng chỉ sau vài cú lướt chuột đơn giản, một con người có thể dễ dàng “đọc” được điều gì đang thật sự diễn ra với một chủ đề.

Chỉ cần thay vấn đề môi trường của Hà Tĩnh bằng một thương hiệu lớn, bài toán kinh doanh hiện ra rõ ràng: quản trị thương hiệu. Một khách hàng không hài lòng ở bất kỳ đâu trên đất nước sẽ được tiếp cận ngay sau khi anh ta vừa rủa xả công ty trên Facebook.

Hệ thống chỉ ra “tận mặt” tài khoản nào vừa đăng dòng trạng thái. Những biện pháp quan hệ khách hàng khác được tiến hành, trước khi nó trở thành một cuộc khủng hoảng thương hiệu. Một xu hướng quan điểm cũng có thể dễ dàng được nhìn thấy thông qua các biểu đồ “tiêu cực” và “tích cực” như giá chứng khoán. Doanh nghiệp từ đó lên các phương án hành động.

Công ty theo dõi có riêng một hệ thống phân cấp thông tin để báo cáo khách hàng. Nếu không có vấn đề gì đặc biệt thì khách sẽ nhận được một báo cáo hằng ngày hoặc hằng tuần với những thống kê chung dạng biểu đồ. Nhưng nếu xuất hiện một thông tin có khả năng tạo khủng hoảng thì thông tin đó sẽ được chuyển ngay tới điện thoại cầm tay của người chịu trách nhiệm.

Để theo dõi một chủ đề, cần một hệ thống từ khóa. Người quan sát cũng có thể căn cứ vào các từ khóa này để hiểu chuyện gì đang diễn ra.

Từ ngày 6-6-2016 đến ngày 7-6-2016, số lượt nhắc đến “cá chết” chỉ bằng gần 1/3 so với số lượt nhắc đến “Bộ Tài nguyên và môi trường - TN-MT”. Từ khóa “hàm lượng sắt” mặc dù cũng là một từ mang tính chủ đạo nhưng tổng số lượt nhắc đến chỉ hơn 1/10 nếu so với việc nhắc đích danh bộ. Có thể hiểu điều này là xu hướng dư luận đang thay vì tiếp tục phân tích mổ xẻ vấn đề cũ, đang chờ đợi câu trả lời cuối mà Bộ TN-MT đã hứa sẽ đưa ra trong tháng 6 này về nguyên nhân những gì đã diễn ra.

Việc khai thác hết những giá trị mà bộ cơ sở dữ liệu của Facebook mang lại là điều cực khó. Bản thân Facebook sử dụng hàng trăm kỹ sư và các nhà xã hội học để làm việc này. Nó có thể vượt xa trí tưởng tượng của người dùng: một ngày nào đó, bạn sẽ giật mình phát hiện ra rằng các poster quảng cáo của Facebook đang giới thiệu với bạn một nhãn hàng nữ trang mà... nhân tình của bạn đang sử dụng, cho dù bạn đã giấu mối quan hệ này một cách tối đa có thể.

Họ đọc các đoạn chat? Theo một nhà phân tích, mọi chuyện đơn giản hơn nhiều: chỉ cần bạn sử dụng Facebook từ cùng một địa điểm, mà địa điểm đó lại là... các khách sạn khác nhau vài lần trở lên thì các nhà bán hàng sẽ đoán được bạn đang cần gì, với một xác suất không thấp. Tất nhiên việc khai thác ở tầng sâu với các thuật toán xã hội học phức tạp như vậy là đặc quyền của Facebook.

Nhưng chỉ việc các công ty địa phương có thể “cào” được phần nội dung đưa về máy chủ và phân tích đã tạo ra một hướng đi mới cho marketing.

Một trong những ngân hàng bán lẻ lớn nhất Việt Nam mới đây đã sử dụng bộ công cụ này để xây dựng riêng cho mình một trung tâm thông tin - dạng đầu tiên tại Việt Nam. Khách hàng không cần khiếu nại với bộ phận chăm sóc khách hàng. Họ chỉ cần làm công việc quen thuộc của mình là đăng trạng thái lên Facebook, ngân hàng sẽ tự tìm đến họ.

Hầu hết các nhà bán lẻ lớn tại Việt Nam hiện đều đã ý thức được tầm quan trọng của việc sở hữu một công cụ như vậy. Đó là một nhãn đồ ăn nhanh, một công ty kinh doanh taxi, một nhà sản xuất hóa mỹ phẩm, một hãng hàng không - những người phục vụ cả trăm nghìn tới triệu khách mỗi ngày và không thể nào kiểm soát được thương hiệu theo phương thức thủ công.

Hiện tại, các gói bán dữ liệu thường đi kèm với các gói bán giải pháp truyền thông, vì vẫn luôn cần có một con người thật ngồi trước các biểu đồ để biết chuyện gì đang diễn ra và gợi ý các biện pháp ứng xử. 

Và những người hay chuyện hẳn nhiên đã nghĩ đến việc các cơ quan công quyền cũng có thể sử dụng ngân sách cho việc này - trong bối cảnh sự giao tiếp giữa người dân và chính quyền đang tồn tại nhiều khoảng cách. 

Đó tất nhiên là một khả năng đầy triển vọng. ■

Với 700 USD, mức giá tối thiểu trên thị trường (giá tùy theo khối lượng thông tin thu thập được), một cá nhân hoặc một tổ chức hoàn toàn làm chủ thương hiệu của họ trên môi trường nhiều biến động và rủi ro nhất hiện nay là Facebook.

Bình luận Xem thêm
Bình luận (0)
Xem thêm bình luận