Khoa học

Chatbot bị lừa tiết lộ thông tin độc hại

Theo các nhà nghiên cứu, các chatbot bị hack có khả năng cung cấp kiến ​​thức nguy hiểm và thông tin bất hợp hợp pháp mà chúng đã tiếp nhận trong quá trình đào tạo. Cảnh báo này được đưa ra sau khi một số chatbot đã bị “bẻ khóa” để vượt qua các biện pháp kiểm soát an toàn của chúng.

Các hạn chế này nhằm ngăn chương trình cung cấp câu trả lời gây hại, thiên vị hoặc không phù hợp cho các câu hỏi của người dùng.

Các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini và Claude đều được cung cấp lượng lớn tài liệu từ Internet. Bất chấp những nỗ lực loại bỏ văn bản có hại khỏi dữ liệu đào tạo, LLM vẫn có thể hấp thụ thông tin về các hoạt động bất hợp pháp như tin tặc, rửa tiền, giao dịch nội gián và chế tạo bom. Các biện pháp bảo mật được thiết kế để ngăn chặn chúng sử dụng thông tin đó trong phản hồi của mình.

Trong một báo cáo, các nhà nghiên cứu kết luận rằng hầu hết các chatbot do AI điều khiển đều dễ bị đánh lừa để đưa ra thông tin độc hại và bất hợp pháp, cho thấy rủi ro là “tức thời, hữu hình và vô cùng đáng lo ngại”.

“Những gì từng bị hạn chế trong chính quyền nhà nước hoặc các tổ chức tội phạm giờ có thể sớm nằm trong tay bất kỳ ai có máy tính xách tay hoặc thậm chí là điện thoại di động”, các tác giả cảnh báo.

Nghiên cứu, dẫn đầu bởi giáo sư Lior Rokach và tiến sĩ Michael Fire tại Đại học Ben Gurion (Israel), đã xác định mối đe dọa ngày càng tăng từ “LLM đen” - các mô hình AI được cố tình thiết kế mà không có biện pháp kiểm soát an toàn hoặc được sửa đổi thông qua việc bẻ khóa. Một số được quảng cáo công khai trên mạng là “không có rào cản đạo đức” và sẵn sàng hỗ trợ các hoạt động bất hợp pháp như tội phạm mạng và lừa đảo.

Việc bẻ khóa thường sử dụng các câu hỏi được thiết kế cẩn thận để lừa chatbot tạo ra câu trả lời chứa nội dung bị cấm. Nó khai thác sự mâu thuẫn giữa mục tiêu chính của chương trình là làm theo hướng dẫn của người dùng, và mục tiêu thứ cấp là tránh tạo ra các câu trả lời gây hại, thiên vị, phi đạo đức hoặc bất hợp pháp. Các câu hỏi sẽ tạo ra tình huống sao cho chương trình ưu tiên tính hữu ích hơn là an toàn.

Để chứng minh vấn đề, các nhà nghiên cứu đã phát triển một phiên bản bẻ khóa phổ quát, thành công tấn công nhiều chatbot hàng đầu và khiến chúng trả lời các câu hỏi mà thông thường sẽ bị từ chối. Một khi bị xâm nhập, các LLM liên tục tạo ra phản hồi cho hầu hết mọi phạm trù.

“Thật kinh ngạc khi thấy hệ thống này bao gồm những kiến thức gì”, ông Fire cho biết. Các ví dụ bao gồm cách hack mạng máy tính, chế tạo ma túy và hướng dẫn từng bước cho các hoạt động tội phạm khác.

“Điều khiến mối đe dọa này khác biệt so với các rủi ro công nghệ trước đây là sự kết hợp chưa từng có giữa khả năng truy cập, khả năng mở rộng và khả năng thích ứng”, ông Rokach nói thêm.

Chatbot bị lừa tiết lộ thông tin độc hại ảnh 1

Mối đe dọa xuất hiện trong các mô hình AI không có biện pháp kiểm soát an toàn hoặc bị tấn công.

Các nhà nghiên cứu đã liên hệ với các nhà cung cấp LLM hàng đầu để cảnh báo họ về hiện tượng bẻ khóa phổ biến, nhưng họ “không mấy để tâm”. Một số công ty đã không phản hồi, trong khi những công ty khác cho biết, việc bẻ khóa nằm ngoài phạm vi các chương trình an ninh có thưởng, vốn để khuyến khích tin tặc báo cáo lỗ hổng phần mềm.

Báo cáo đề xuất các công ty công nghệ nên sàng lọc dữ liệu đào tạo cẩn thận hơn, thêm tường lửa mạnh để chặn các câu hỏi rủi ro và phát triển kỹ thuật để các chatbot có thể “quên” mọi thông tin bất hợp pháp mà chúng tiếp cận. Báo cáo nói thêm rằng “LLM đen” nên được coi là “rủi ro bảo mật nghiêm trọng”, tương đương với vũ khí và chất nổ không được cấp phép.

Giáo sư Peter Garraghan, chuyên gia bảo mật AI tại Đại học Lancaster, cho biết: “Các tổ chức phải coi LLM giống như bất kỳ phần mềm quan trọng nào khác - một thành phần đòi hỏi phải kiểm tra bảo mật nghiêm ngặt, liên tục và thích ứng với mối đe dọa”.

“Đúng vậy, bẻ khóa là mối lo ngại, nhưng nếu không hiểu cặn kẽ mô hình AI, thì bên chịu trách nhiệm vẫn sẽ hời hợt. Bảo mật thực sự không chỉ đòi hỏi một quá trình công khai mà còn phải được thiết kế và áp dụng thực tế một cách chặt chẽ”, ông nói thêm.

OpenAI, công ty xây dựng ChatGPT, cho biết mô hình “o1” mới nhất của họ có thể xem xét các chính sách an toàn của công ty, giúp cải thiện khả năng bảo mật của công ty trước các cuộc tấn công. Công ty cho biết thêm rằng, họ luôn tìm kiếm phương pháp để cải thiện an ninh các chương trình.

Hà My (theo theguardian.com)

Các tin khác

Mùa "chạy lở" nơi con sông duy nhất Việt Nam chảy từ biển Đông sang Tây

Mùa "chạy lở" nơi con sông duy nhất Việt Nam chảy từ biển Đông sang Tây

Đến hẹn lại lên, cuối mùa khô và đầu mùa mưa, tình trạng sạt lở bờ sông, bờ biển tỉnh Cà Mau lại tiếp diễn, gây thiệt hại nhà cửa, tài sản, đe doạ tính mạng của người dân. Những năm gần đây, tình hình sạt lở càng trở nên nghiêm trọng do tác động của biến đổi khí hậu, nước biển dâng.
Những chi tiết đáng kinh ngạc về các vết đen mặt trời đang hoành hành

Những chi tiết đáng kinh ngạc về các vết đen mặt trời đang hoành hành

Hệ thống camera có độ phân giải cao mới do Viện Vật lý thiên văn Leibniz Potsdam (AIP) phát triển cho Kính thiên văn Tháp Chân không (VTT), đặt tại Đài quan sát Teide ở Tenerife, đã tái tạo hình ảnh mặt trời với độ phân giải hình ảnh 8K lần đầu tiên. Những hình ảnh mới đáng kinh ngạc về bề mặt mặt trời cung cấp góc nhìn chưa từng có về các vết đen mặt trời và hoạt động của mặt trời.
Khoa học giải mã trào lưu “đi bộ kiểu Nhật”

Khoa học giải mã trào lưu “đi bộ kiểu Nhật”

Một xu hướng vận động mới từ Nhật Bản đang thu hút sự quan tâm trên toàn cầu nhờ tính đơn giản, dễ thực hiện và lợi ích sức khỏe đã được kiểm chứng khoa học. Người ta gọi đó là "đi bộ kiểu Nhật".
Khai quật hộp sọ bất thường bị đập vỡ cách đây 6.200 năm

Khai quật hộp sọ bất thường bị đập vỡ cách đây 6.200 năm

Các nhà khảo cổ học ở Iran đã khai quật được hộp sọ bất thường của một phụ nữ trẻ đã chết trong một vụ tai nạn đau thương cách đây hơn 6.000 năm. Hộp sọ hình nón của người phụ nữ cho thấy cô đã bị giết bởi một vật thể có cạnh rộng, nhanh chóng kết thúc cuộc đời ngắn ngủi của cô.