Chatbot bị lừa tiết lộ thông tin độc hại

TP - Các nhà nghiên cứu cho biết, việc các chatbot tiết lộ thông tin bất hợp pháp là mối đe dọa “rất hiện hữu và đáng lo ngại”.

Theo các nhà nghiên cứu, các chatbot bị hack có khả năng cung cấp kiến thức nguy hiểm và thông tin bất hợp hợp pháp mà chúng đã tiếp nhận trong quá trình đào tạo. Cảnh báo này được đưa ra sau khi một số chatbot đã bị “bẻ khóa” để vượt qua các biện pháp kiểm soát an toàn của chúng.

Các hạn chế này nhằm ngăn chương trình cung cấp câu trả lời gây hại, thiên vị hoặc không phù hợp cho các câu hỏi của người dùng.

Các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini và Claude đều được cung cấp lượng lớn tài liệu từ Internet. Bất chấp những nỗ lực loại bỏ văn bản có hại khỏi dữ liệu đào tạo, LLM vẫn có thể hấp thụ thông tin về các hoạt động bất hợp pháp như tin tặc, rửa tiền, giao dịch nội gián và chế tạo bom. Các biện pháp bảo mật được thiết kế để ngăn chặn chúng sử dụng thông tin đó trong phản hồi của mình.

Trong một báo cáo, các nhà nghiên cứu kết luận rằng hầu hết các chatbot do AI điều khiển đều dễ bị đánh lừa để đưa ra thông tin độc hại và bất hợp pháp, cho thấy rủi ro là “tức thời, hữu hình và vô cùng đáng lo ngại”.

“Những gì từng bị hạn chế trong chính quyền nhà nước hoặc các tổ chức tội phạm giờ có thể sớm nằm trong tay bất kỳ ai có máy tính xách tay hoặc thậm chí là điện thoại di động”, các tác giả cảnh báo.

Nghiên cứu, dẫn đầu bởi giáo sư Lior Rokach và tiến sĩ Michael Fire tại Đại học Ben Gurion (Israel), đã xác định mối đe dọa ngày càng tăng từ “LLM đen” - các mô hình AI được cố tình thiết kế mà không có biện pháp kiểm soát an toàn hoặc được sửa đổi thông qua việc bẻ khóa. Một số được quảng cáo công khai trên mạng là “không có rào cản đạo đức” và sẵn sàng hỗ trợ các hoạt động bất hợp pháp như tội phạm mạng và lừa đảo.

Việc bẻ khóa thường sử dụng các câu hỏi được thiết kế cẩn thận để lừa chatbot tạo ra câu trả lời chứa nội dung bị cấm. Nó khai thác sự mâu thuẫn giữa mục tiêu chính của chương trình là làm theo hướng dẫn của người dùng, và mục tiêu thứ cấp là tránh tạo ra các câu trả lời gây hại, thiên vị, phi đạo đức hoặc bất hợp pháp. Các câu hỏi sẽ tạo ra tình huống sao cho chương trình ưu tiên tính hữu ích hơn là an toàn.

Để chứng minh vấn đề, các nhà nghiên cứu đã phát triển một phiên bản bẻ khóa phổ quát, thành công tấn công nhiều chatbot hàng đầu và khiến chúng trả lời các câu hỏi mà thông thường sẽ bị từ chối. Một khi bị xâm nhập, các LLM liên tục tạo ra phản hồi cho hầu hết mọi phạm trù.

“Thật kinh ngạc khi thấy hệ thống này bao gồm những kiến thức gì”, ông Fire cho biết. Các ví dụ bao gồm cách hack mạng máy tính, chế tạo ma túy và hướng dẫn từng bước cho các hoạt động tội phạm khác.

“Điều khiến mối đe dọa này khác biệt so với các rủi ro công nghệ trước đây là sự kết hợp chưa từng có giữa khả năng truy cập, khả năng mở rộng và khả năng thích ứng”, ông Rokach nói thêm.

Chatbot bị lừa tiết lộ thông tin độc hại ảnh 1

Mối đe dọa xuất hiện trong các mô hình AI không có biện pháp kiểm soát an toàn hoặc bị tấn công.

Các nhà nghiên cứu đã liên hệ với các nhà cung cấp LLM hàng đầu để cảnh báo họ về hiện tượng bẻ khóa phổ biến, nhưng họ “không mấy để tâm”. Một số công ty đã không phản hồi, trong khi những công ty khác cho biết, việc bẻ khóa nằm ngoài phạm vi các chương trình an ninh có thưởng, vốn để khuyến khích tin tặc báo cáo lỗ hổng phần mềm.

Báo cáo đề xuất các công ty công nghệ nên sàng lọc dữ liệu đào tạo cẩn thận hơn, thêm tường lửa mạnh để chặn các câu hỏi rủi ro và phát triển kỹ thuật để các chatbot có thể “quên” mọi thông tin bất hợp pháp mà chúng tiếp cận. Báo cáo nói thêm rằng “LLM đen” nên được coi là “rủi ro bảo mật nghiêm trọng”, tương đương với vũ khí và chất nổ không được cấp phép.

Giáo sư Peter Garraghan, chuyên gia bảo mật AI tại Đại học Lancaster, cho biết: “Các tổ chức phải coi LLM giống như bất kỳ phần mềm quan trọng nào khác - một thành phần đòi hỏi phải kiểm tra bảo mật nghiêm ngặt, liên tục và thích ứng với mối đe dọa”.

“Đúng vậy, bẻ khóa là mối lo ngại, nhưng nếu không hiểu cặn kẽ mô hình AI, thì bên chịu trách nhiệm vẫn sẽ hời hợt. Bảo mật thực sự không chỉ đòi hỏi một quá trình công khai mà còn phải được thiết kế và áp dụng thực tế một cách chặt chẽ”, ông nói thêm.

OpenAI, công ty xây dựng ChatGPT, cho biết mô hình “o1” mới nhất của họ có thể xem xét các chính sách an toàn của công ty, giúp cải thiện khả năng bảo mật của công ty trước các cuộc tấn công. Công ty cho biết thêm rằng, họ luôn tìm kiếm phương pháp để cải thiện an ninh các chương trình.

Hà My (theo theguardian.com)

Chatbot bị lừa tiết lộ thông tin độc hại

Tin xem nhiều

Ngoài vàng, đây là loạt kim loại tăng điên cuồng thời gian qua

[Case Study] Quibi - Cái chết của một gã khổng lồ chưa kịp lớn khi 1,75 tỷ USD đổ vào một giấc mơ sai lầm

"Gia đình Bitcoin" giấu mã tiền số khắc trên thẻ kim loại tại 4 châu lục sau loạt vụ bắt cóc ghê rợn

Chuyên gia: Muốn xây dựng trung tâm tài chính quốc tế phải có dự trữ ngoại hối tốt, ít nhất khoảng 250 tỷ USD

Rúp Nga bất ngờ tăng vọt: Điều gì đứng sau đồng tiền tăng giá mạnh nhất thế giới năm 2025?

Khối tài sản đáng ao ước của Tiến Linh – chân sút có duyên với mành lưới Malaysia

Tập đoàn Bảo Việt dự chi gần 800 tỷ trả cổ tức bằng tiền cho cổ đông

Một doanh nghiệp trúng thầu KĐT gần 14.000 tỷ tại Hà Nam

Phó chủ tịch Bamboo Capital từ nhiệm

Tesla khủng hoảng toàn diện sau khi Elon Musk "gây chiến" với ông Donald Trump

Các tin khác