Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm

Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý

Một nghiên cứu mới cho thấy các mô hình LLM (ngôn ngữ lớn) có thể bị thao túng để vượt qua các rào cản đạo đức bằng kỹ thuật tâm lý.

Theo ArsTechnica, một nhóm nhà nghiên cứu vừa công bố kết quả thử nghiệm cho thấy các mô hình ngôn ngữ lớn (LLM), bao gồm những hệ thống như ChatGPT, có thể bị thuyết phục để trả lời các yêu cầu bị cấm thông qua các thủ thuật tâm lý đơn giản. Nghiên cứu này chỉ ra những điểm yếu tiềm tàng trong cách các mô hình LLM được huấn luyện và phản hồi, dù đã được thiết kế với nhiều lớp bảo vệ để từ chối các lệnh nguy hiểm hoặc phi đạo đức.

Trong thử nghiệm, các nhà nghiên cứu từ nhóm Alignment Research Center (ARC) sử dụng một mô hình đặc biệt có tên là "parahuman" để mô phỏng hành vi người dùng tìm cách vượt rào. Mô hình parahuman này được huấn luyện để tối ưu khả năng thuyết phục các LLM cung cấp thông tin mà thông thường sẽ bị từ chối, như cách chế tạo chất nổ hoặc thực hiện các hành vi bất hợp pháp khác.

Mô hình LLM sẽ phản hồi sai nếu bị dẫn dắt bằng bằng thủ thuật tâm lý - Ảnh 1. — Hệ thống kiểm soát đạo đức trong LLM có thể bị qua mặt nếu lệnh được diễn đạt gián tiếp hay giả tưởng, khiến mô hình phản hồi nội dung bị cấm

Kỹ thuật được sử dụng bao gồm việc làm mềm câu lệnh, mô tả tình huống giả tưởng, hoặc thậm chí gợi ý rằng AI có thể từ chối nhưng nên xem xét lại vì lý do “nghiên cứu” hoặc “học thuật”. Những cách tiếp cận này không yêu cầu thao túng kỹ thuật như jailbreak (vượt rào bảo mật) hay prompt injection (chèn lệnh độc hại), mà chỉ đơn thuần khai thác phản xạ tương tác của mô hình dựa trên dữ liệu huấn luyện.

Kết quả cho thấy ngay cả các LLM đã qua tinh chỉnh như Claude và ChatGPT cũng có tỷ lệ phản hồi sai lệch lên tới 50% trong một số trường hợp. Điều này đặt ra câu hỏi nghiêm túc về độ an toàn và khả năng kiểm soát của các hệ thống AI hiện đại, đặc biệt khi chúng được sử dụng trong các môi trường mở, nơi người dùng có thể sáng tạo ra vô số kịch bản để qua mặt kiểm duyệt.

Đáng chú ý, nghiên cứu cũng nhấn mạnh rằng hệ thống AI không cần phải bị “lừa” theo cách truyền thống. Việc các mô hình bị “thuyết phục” giống như một người dùng đang tranh luận có lý - chính xác là điều khiến chúng trở nên nguy hiểm hơn, vì sự vi phạm không xuất phát từ lỗi kỹ thuật, mà từ sự phản hồi giống con người trong ngữ cảnh thuyết phục.

Các chuyên gia nhận định rằng đây là một lời cảnh tỉnh với cộng đồng phát triển AI. Dù các rào chắn kỹ thuật vẫn cần thiết, song việc hiểu rõ các hành vi “gần người” (parahuman) và kiểm soát phản xạ ngôn ngữ của mô hình đang trở thành ưu tiên hàng đầu. Nếu không được xử lý kịp thời, những lỗ hổng này có thể bị khai thác trong các ứng dụng thực tế, từ lừa đảo đến tấn công thông tin hoặc thao túng nhận thức.

Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý

Tin xem nhiều

Quốc gia ĐNÁ đi ngược cả thế giới, nhắm trở thành trung tâm AI mới nhờ 1 loại "vũ khí bí mật" không ai ngờ

Quá nhanh: Vừa được chọn làm chủ đầu tư, Vingroup của tỷ phú Phạm Nhật Vượng đã “rục rịch” triển khai siêu đô thị 41.000 tỷ đồng tại Bắc Ninh

Để nhận được gói thưởng 1.000 tỷ USD, Elon Musk cần đưa Tesla đạt vốn hóa 8.500 tỷ USD: Tham vọng không tưởng của người đàn ông giàu có nhất thế giới

Thông tư 25 rút ngắn thủ tục mở tài khoản chứng khoán, tạo thuận lợi cho vốn ngoại

Nỗi khổ của người dân ở nền kinh tế có tỷ lệ lạm phát tới 172%

Giá vàng hôm nay 8-9: Vừa mở cửa đầu tuần, vàng miếng SJC giảm

Nợ thuế, em trai Chủ tịch Tập đoàn Novaland có nguy cơ bị hoãn xuất cảnh trong vòng 30 ngày tới

Kinh tế 24h: Giá vàng miếng SJC trên thị trường tự do giảm tiếp

Lợi nhuận bảo hiểm nhân thọ lao dốc: AIA giảm 92%, Manulife 65%, hai công ty báo lỗ

NHNN hút ròng hơn 30.000 tỷ đồng, lãi suất liên ngân hàng giảm nhẹ

Các tin khác