Theo Arstechnica, các tài khoản ẩn danh từ lâu được xem là lớp bảo vệ tối thiểu cho quyền riêng tư khi thảo luận trực tuyến. Tuy nhiên, một nghiên cứu mới cho thấy các mô hình ngôn ngữ lớn (LLM) có thể liên kết những tài khoản tưởng như ẩn danh với danh tính ngoài đời thực bằng cách phân tích nội dung bài viết trên nhiều nền tảng. Kết quả thử nghiệm cho thấy tỷ lệ truy vết thành công bằng mô hình AI cao hơn đáng kể so với các phương pháp giải ẩn danh truyền thống vốn dựa vào dữ liệu cấu trúc hoặc điều tra thủ công.
Trong nghiên cứu nhóm tác giả xây dựng nhiều bộ dữ liệu từ các nền tảng công khai nhằm kiểm tra khả năng suy luận của LLM. Một tập dữ liệu kết hợp bài viết trên trang web Hacker News với hồ sơ LinkedIn được liên kết bằng các tham chiếu chéo xuất hiện trong hồ sơ người dùng. Sau khi loại bỏ mọi chi tiết nhận dạng trực tiếp, các nhà nghiên cứu yêu cầu mô hình phân tích văn bản còn lại để tìm dấu hiệu trùng khớp. Trong thử nghiệm này, chỉ số nhận diện đạt tới 68%.

Ẩn danh trực tuyến cho phép người dùng chia sẻ nội dung mà không tiết lộ danh tính, nhưng dấu vết dữ liệu và thói quen hoạt động vẫn có thể bị phân tích
ẢNH: TẠO BỞI AI
Nhóm nghiên cứu cũng thử nghiệm các kịch bản khác nhằm đánh giá mức độ suy luận từ thông tin rất hạn chế. Trong một trường hợp, mô hình LLM phân tích bản ghi phỏng vấn đã được ẩn danh và trích xuất các tín hiệu như lĩnh vực nghiên cứu, công cụ lập trình, phong cách tiếng Anh và bối cảnh học thuật. Từ những chi tiết này, hệ thống tự động tìm kiếm trên web để xác định một cá nhân phù hợp với toàn bộ đặc điểm. Thử nghiệm trên 125 người tham gia cho phép xác định chính xác khoảng 7% danh tính.
Các thí nghiệm khác tập trung vào dữ liệu Reddit nhằm xem mức độ nhận diện dựa trên sở thích giải trí. Khi người dùng thảo luận về phim trong nhiều cộng đồng khác nhau, mô hình có thể ghép các bình luận lại để suy đoán danh tính. Nếu một người chỉ nhắc tới một bộ phim, khoảng 3,1% tài khoản có thể bị nhận diện với độ chính xác 90%. Khi số phim được nhắc tới tăng lên hơn mười, tỷ lệ này có thể vượt 48%.
Kết quả nghiên cứu cho thấy các mô hình LLM có thể vượt qua nhiều phương pháp giải ẩn danh truyền thống. Nhờ khả năng phân tích văn bản tự do và tìm kiếm thông tin trên internet, các mô hình này có thể tổng hợp nhiều manh mối rời rạc để suy luận danh tính người dùng. Các nhà nghiên cứu cảnh báo khả năng này có thể bị khai thác cho nhiều mục đích, từ theo dõi hoạt động trực tuyến, xây dựng hồ sơ quảng cáo chi tiết đến triển khai các hình thức lừa đảo nhắm mục tiêu.





