Công nghệ

Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý

Theo ArsTechnica, một nhóm nhà nghiên cứu vừa công bố kết quả thử nghiệm cho thấy các mô hình ngôn ngữ lớn (LLM), bao gồm những hệ thống như ChatGPT, có thể bị thuyết phục để trả lời các yêu cầu bị cấm thông qua các thủ thuật tâm lý đơn giản. Nghiên cứu này chỉ ra những điểm yếu tiềm tàng trong cách các mô hình LLM được huấn luyện và phản hồi, dù đã được thiết kế với nhiều lớp bảo vệ để từ chối các lệnh nguy hiểm hoặc phi đạo đức.

Trong thử nghiệm, các nhà nghiên cứu từ nhóm Alignment Research Center (ARC) sử dụng một mô hình đặc biệt có tên là "parahuman" để mô phỏng hành vi người dùng tìm cách vượt rào. Mô hình parahuman này được huấn luyện để tối ưu khả năng thuyết phục các LLM cung cấp thông tin mà thông thường sẽ bị từ chối, như cách chế tạo chất nổ hoặc thực hiện các hành vi bất hợp pháp khác.

Mô hình LLM sẽ phản hồi sai nếu bị dẫn dắt bằng bằng thủ thuật tâm lý - Ảnh 1.

Hệ thống kiểm soát đạo đức trong LLM có thể bị qua mặt nếu lệnh được diễn đạt gián tiếp hay giả tưởng, khiến mô hình phản hồi nội dung bị cấm

ẢNH: CHỤP MÀN HÌNH ARTHUR.AI

Kỹ thuật được sử dụng bao gồm việc làm mềm câu lệnh, mô tả tình huống giả tưởng, hoặc thậm chí gợi ý rằng AI có thể từ chối nhưng nên xem xét lại vì lý do “nghiên cứu” hoặc “học thuật”. Những cách tiếp cận này không yêu cầu thao túng kỹ thuật như jailbreak (vượt rào bảo mật) hay prompt injection (chèn lệnh độc hại), mà chỉ đơn thuần khai thác phản xạ tương tác của mô hình dựa trên dữ liệu huấn luyện.

Kết quả cho thấy ngay cả các LLM đã qua tinh chỉnh như Claude và ChatGPT cũng có tỷ lệ phản hồi sai lệch lên tới 50% trong một số trường hợp. Điều này đặt ra câu hỏi nghiêm túc về độ an toàn và khả năng kiểm soát của các hệ thống AI hiện đại, đặc biệt khi chúng được sử dụng trong các môi trường mở, nơi người dùng có thể sáng tạo ra vô số kịch bản để qua mặt kiểm duyệt.

Đáng chú ý, nghiên cứu cũng nhấn mạnh rằng hệ thống AI không cần phải bị “lừa” theo cách truyền thống. Việc các mô hình bị “thuyết phục” giống như một người dùng đang tranh luận có lý - chính xác là điều khiến chúng trở nên nguy hiểm hơn, vì sự vi phạm không xuất phát từ lỗi kỹ thuật, mà từ sự phản hồi giống con người trong ngữ cảnh thuyết phục.

Các chuyên gia nhận định rằng đây là một lời cảnh tỉnh với cộng đồng phát triển AI. Dù các rào chắn kỹ thuật vẫn cần thiết, song việc hiểu rõ các hành vi “gần người” (parahuman) và kiểm soát phản xạ ngôn ngữ của mô hình đang trở thành ưu tiên hàng đầu. Nếu không được xử lý kịp thời, những lỗ hổng này có thể bị khai thác trong các ứng dụng thực tế, từ lừa đảo đến tấn công thông tin hoặc thao túng nhận thức.

Các tin khác

Giá vàng tuần này sẽ ra sao?

Tuần qua, vàng đã có màn tăng giá mạnh mẽ nhất trong nhiều năm, phá vỡ hàng loạt mốc cản kỹ thuật để lập đỉnh lịch sử mới trên 3.600 USD/ounce. Cả giới phân tích Phố Wall lẫn nhà đầu tư nhỏ lẻ đều tỏ ra lạc quan, trong khi áp lực lạm phát và kỳ vọng Fed hạ lãi suất tiếp tục thúc đẩy nhu cầu nắm giữ kim loại quý này.

Chuyên gia giải mã lý do hóa đơn tiền điện tăng cao bất thường

Theo chuyên gia, việc biểu giá điện luỹ tiến với các mức giá trong từng bậc thang quá cao so giá bán lẻ bình quân (tăng 4,8%), khiến hóa đơn tiền điện thường nhảy vọt mỗi khi vào mùa nắng nóng. Đặc biệt, việc chậm trễ xóa bỏ cơ chế bù chéo khiến người dân đang oằn mình "gánh" cho các doanh nghiệp sử dụng nhiều điện và doanh nghiệp FDI.

Giá vàng tăng mạnh, lập kỷ lục mới: Ai là người mua nhiều nhất?

Chỉ trong chưa đầy hai tuần sau kỳ nghỉ hè, giá vàng đã bứt phá hơn 200 USD/ounce, chạm mức cao nhất mọi thời đại 3.600 USD. Đằng sau đà tăng này là nhu cầu mua vàng mạnh mẽ của các ngân hàng trung ương và niềm tin lung lay vào sức mạnh kinh tế Mỹ.

Philippines dừng nhập khẩu, Bộ Công Thương đề nghị doanh nghiệp mua lúa cho dân

Trước việc giá lúa giảm khi Philippines tạm ngưng nhập khẩu gạo, Bộ Công Thương đã đề nghị các địa phương thông tin tới các thương nhân xuất khẩu gạo, tổng hợp ý kiến của doanh nghiệp (DN) để có giải pháp phù hợp. Đặc biệt, bộ này đề nghị các DN tích cực mua tạm trữ lúa cho nông dân.

"VOV phải trở thành một trong những đài phát thanh hàng đầu trong khu vực"

Đài Tiếng nói Việt Nam (VOV) phải xác định rõ tầm nhìn, xây dựng chiến lược, chương trình, kế hoạch cụ thể hiện thực hóa khát vọng, quyết tâm trở thành một trong những đài phát thanh hàng đầu trong khu vực, tiếp tục giữ vững và phát huy hơn nữa khát vọng, trọng trách 'Tiếng nói Việt Nam' nhìn xa trông rộng, nghĩ sâu làm lớn.