Khoa học

Chatbot bị lừa tiết lộ thông tin độc hại

Theo các nhà nghiên cứu, các chatbot bị hack có khả năng cung cấp kiến ​​thức nguy hiểm và thông tin bất hợp hợp pháp mà chúng đã tiếp nhận trong quá trình đào tạo. Cảnh báo này được đưa ra sau khi một số chatbot đã bị “bẻ khóa” để vượt qua các biện pháp kiểm soát an toàn của chúng.

Các hạn chế này nhằm ngăn chương trình cung cấp câu trả lời gây hại, thiên vị hoặc không phù hợp cho các câu hỏi của người dùng.

Các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini và Claude đều được cung cấp lượng lớn tài liệu từ Internet. Bất chấp những nỗ lực loại bỏ văn bản có hại khỏi dữ liệu đào tạo, LLM vẫn có thể hấp thụ thông tin về các hoạt động bất hợp pháp như tin tặc, rửa tiền, giao dịch nội gián và chế tạo bom. Các biện pháp bảo mật được thiết kế để ngăn chặn chúng sử dụng thông tin đó trong phản hồi của mình.

Trong một báo cáo, các nhà nghiên cứu kết luận rằng hầu hết các chatbot do AI điều khiển đều dễ bị đánh lừa để đưa ra thông tin độc hại và bất hợp pháp, cho thấy rủi ro là “tức thời, hữu hình và vô cùng đáng lo ngại”.

“Những gì từng bị hạn chế trong chính quyền nhà nước hoặc các tổ chức tội phạm giờ có thể sớm nằm trong tay bất kỳ ai có máy tính xách tay hoặc thậm chí là điện thoại di động”, các tác giả cảnh báo.

Nghiên cứu, dẫn đầu bởi giáo sư Lior Rokach và tiến sĩ Michael Fire tại Đại học Ben Gurion (Israel), đã xác định mối đe dọa ngày càng tăng từ “LLM đen” - các mô hình AI được cố tình thiết kế mà không có biện pháp kiểm soát an toàn hoặc được sửa đổi thông qua việc bẻ khóa. Một số được quảng cáo công khai trên mạng là “không có rào cản đạo đức” và sẵn sàng hỗ trợ các hoạt động bất hợp pháp như tội phạm mạng và lừa đảo.

Việc bẻ khóa thường sử dụng các câu hỏi được thiết kế cẩn thận để lừa chatbot tạo ra câu trả lời chứa nội dung bị cấm. Nó khai thác sự mâu thuẫn giữa mục tiêu chính của chương trình là làm theo hướng dẫn của người dùng, và mục tiêu thứ cấp là tránh tạo ra các câu trả lời gây hại, thiên vị, phi đạo đức hoặc bất hợp pháp. Các câu hỏi sẽ tạo ra tình huống sao cho chương trình ưu tiên tính hữu ích hơn là an toàn.

Để chứng minh vấn đề, các nhà nghiên cứu đã phát triển một phiên bản bẻ khóa phổ quát, thành công tấn công nhiều chatbot hàng đầu và khiến chúng trả lời các câu hỏi mà thông thường sẽ bị từ chối. Một khi bị xâm nhập, các LLM liên tục tạo ra phản hồi cho hầu hết mọi phạm trù.

“Thật kinh ngạc khi thấy hệ thống này bao gồm những kiến thức gì”, ông Fire cho biết. Các ví dụ bao gồm cách hack mạng máy tính, chế tạo ma túy và hướng dẫn từng bước cho các hoạt động tội phạm khác.

“Điều khiến mối đe dọa này khác biệt so với các rủi ro công nghệ trước đây là sự kết hợp chưa từng có giữa khả năng truy cập, khả năng mở rộng và khả năng thích ứng”, ông Rokach nói thêm.

Chatbot bị lừa tiết lộ thông tin độc hại ảnh 1

Mối đe dọa xuất hiện trong các mô hình AI không có biện pháp kiểm soát an toàn hoặc bị tấn công.

Các nhà nghiên cứu đã liên hệ với các nhà cung cấp LLM hàng đầu để cảnh báo họ về hiện tượng bẻ khóa phổ biến, nhưng họ “không mấy để tâm”. Một số công ty đã không phản hồi, trong khi những công ty khác cho biết, việc bẻ khóa nằm ngoài phạm vi các chương trình an ninh có thưởng, vốn để khuyến khích tin tặc báo cáo lỗ hổng phần mềm.

Báo cáo đề xuất các công ty công nghệ nên sàng lọc dữ liệu đào tạo cẩn thận hơn, thêm tường lửa mạnh để chặn các câu hỏi rủi ro và phát triển kỹ thuật để các chatbot có thể “quên” mọi thông tin bất hợp pháp mà chúng tiếp cận. Báo cáo nói thêm rằng “LLM đen” nên được coi là “rủi ro bảo mật nghiêm trọng”, tương đương với vũ khí và chất nổ không được cấp phép.

Giáo sư Peter Garraghan, chuyên gia bảo mật AI tại Đại học Lancaster, cho biết: “Các tổ chức phải coi LLM giống như bất kỳ phần mềm quan trọng nào khác - một thành phần đòi hỏi phải kiểm tra bảo mật nghiêm ngặt, liên tục và thích ứng với mối đe dọa”.

“Đúng vậy, bẻ khóa là mối lo ngại, nhưng nếu không hiểu cặn kẽ mô hình AI, thì bên chịu trách nhiệm vẫn sẽ hời hợt. Bảo mật thực sự không chỉ đòi hỏi một quá trình công khai mà còn phải được thiết kế và áp dụng thực tế một cách chặt chẽ”, ông nói thêm.

OpenAI, công ty xây dựng ChatGPT, cho biết mô hình “o1” mới nhất của họ có thể xem xét các chính sách an toàn của công ty, giúp cải thiện khả năng bảo mật của công ty trước các cuộc tấn công. Công ty cho biết thêm rằng, họ luôn tìm kiếm phương pháp để cải thiện an ninh các chương trình.

Hà My (theo theguardian.com)

Các tin khác

Người mua vàng lỗ nặng

Sáng nay (9/6), giá vàng miếng SJC quanh mốc 117 triệu đồng/lượng. Như vậy, chỉ sau 2 tháng, nhà đầu tư “đu" đỉnh vàng lỗ hơn 9 triệu đồng/lượng

7 thói quen gây hại tinh trùng

Để có sức khỏe tinh trùng tốt nhất, nam giới nên duy trì một lối sống lành mạnh, chế độ ăn uống cân bằng, tránh các chất độc hại và tham khảo ý kiến bác sĩ nếu có bất kỳ lo ngại nào.

Giá vàng tuần tới ra sao, ai đang lạc quan về xu hướng tăng của vàng?

Tuần qua, giá vàng trồi sụt trong biên độ hẹp, khi giới đầu tư phố Wall tiếp tục dè dặt còn nhà đầu tư cá nhân ngày càng lạc quan. Sự chú ý dồn về các dữ liệu lạm phát sắp công bố, có thể quyết định hướng đi tiếp theo của vàng và lãi suất Mỹ.

Cần sớm áp thuế tiêu thụ đặc biệt với nước giải khát có đường

Tiêu thụ nước giải khát có đường (NGKCĐ) tại Việt Nam đã tăng gần gấp đôi chỉ trong một thập kỷ, kéo theo đó là gánh nặng bệnh tật và chi phí y tế khổng lồ. Trong bối cảnh hàng triệu người Việt đang sống chung với các bệnh không lây nhiễm, việc áp thuế tiêu thụ đặc biệt (TTĐB) đối với NGKCĐ là bước đi bắt buộc và không thể trì hoãn thêm.