Công nghệ

Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý

Theo ArsTechnica, một nhóm nhà nghiên cứu vừa công bố kết quả thử nghiệm cho thấy các mô hình ngôn ngữ lớn (LLM), bao gồm những hệ thống như ChatGPT, có thể bị thuyết phục để trả lời các yêu cầu bị cấm thông qua các thủ thuật tâm lý đơn giản. Nghiên cứu này chỉ ra những điểm yếu tiềm tàng trong cách các mô hình LLM được huấn luyện và phản hồi, dù đã được thiết kế với nhiều lớp bảo vệ để từ chối các lệnh nguy hiểm hoặc phi đạo đức.

Trong thử nghiệm, các nhà nghiên cứu từ nhóm Alignment Research Center (ARC) sử dụng một mô hình đặc biệt có tên là "parahuman" để mô phỏng hành vi người dùng tìm cách vượt rào. Mô hình parahuman này được huấn luyện để tối ưu khả năng thuyết phục các LLM cung cấp thông tin mà thông thường sẽ bị từ chối, như cách chế tạo chất nổ hoặc thực hiện các hành vi bất hợp pháp khác.

Mô hình LLM sẽ phản hồi sai nếu bị dẫn dắt bằng bằng thủ thuật tâm lý - Ảnh 1.

Hệ thống kiểm soát đạo đức trong LLM có thể bị qua mặt nếu lệnh được diễn đạt gián tiếp hay giả tưởng, khiến mô hình phản hồi nội dung bị cấm

ẢNH: CHỤP MÀN HÌNH ARTHUR.AI

Kỹ thuật được sử dụng bao gồm việc làm mềm câu lệnh, mô tả tình huống giả tưởng, hoặc thậm chí gợi ý rằng AI có thể từ chối nhưng nên xem xét lại vì lý do “nghiên cứu” hoặc “học thuật”. Những cách tiếp cận này không yêu cầu thao túng kỹ thuật như jailbreak (vượt rào bảo mật) hay prompt injection (chèn lệnh độc hại), mà chỉ đơn thuần khai thác phản xạ tương tác của mô hình dựa trên dữ liệu huấn luyện.

Kết quả cho thấy ngay cả các LLM đã qua tinh chỉnh như Claude và ChatGPT cũng có tỷ lệ phản hồi sai lệch lên tới 50% trong một số trường hợp. Điều này đặt ra câu hỏi nghiêm túc về độ an toàn và khả năng kiểm soát của các hệ thống AI hiện đại, đặc biệt khi chúng được sử dụng trong các môi trường mở, nơi người dùng có thể sáng tạo ra vô số kịch bản để qua mặt kiểm duyệt.

Đáng chú ý, nghiên cứu cũng nhấn mạnh rằng hệ thống AI không cần phải bị “lừa” theo cách truyền thống. Việc các mô hình bị “thuyết phục” giống như một người dùng đang tranh luận có lý - chính xác là điều khiến chúng trở nên nguy hiểm hơn, vì sự vi phạm không xuất phát từ lỗi kỹ thuật, mà từ sự phản hồi giống con người trong ngữ cảnh thuyết phục.

Các chuyên gia nhận định rằng đây là một lời cảnh tỉnh với cộng đồng phát triển AI. Dù các rào chắn kỹ thuật vẫn cần thiết, song việc hiểu rõ các hành vi “gần người” (parahuman) và kiểm soát phản xạ ngôn ngữ của mô hình đang trở thành ưu tiên hàng đầu. Nếu không được xử lý kịp thời, những lỗ hổng này có thể bị khai thác trong các ứng dụng thực tế, từ lừa đảo đến tấn công thông tin hoặc thao túng nhận thức.

//Chèn ads giữa bài (runinit = window.runinit || []).push(function () { //Nếu k chạy ads thì return if (typeof _chkPrLink != 'undefined' && _chkPrLink) return; var mutexAds = '<zone id="l2srqb41"></zone>'; var content = $('[data-role="content"]'); if (content.length > 0) { var childNodes = content[0].childNodes; for (i = 0; i < childNodes.length; i++) { var childNode = childNodes[i]; var isPhotoOrVideo = false; if (childNode.nodeName.toLowerCase() == 'div') { // kiem tra xem co la anh khong? var type = $(childNode).attr('class') + ''; if (type.indexOf('VCSortableInPreviewMode') >= 0) { isPhotoOrVideo = true; } } try { if ((i >= childNodes.length / 2 - 1) && (i < childNodes.length / 2) && !isPhotoOrVideo) { if (i <= childNodes.length - 3) { childNode.after(htmlToElement(mutexAds)); arfAsync.push("l2srqb41"); } break; } } catch (e) { } } } }); function htmlToElement(html) { var template = document.createElement('template'); template.innerHTML = html; return template.content.firstChild; }
if (pageSettings.allow3rd && (typeof _isAdsHidden === 'undefined' || !_isAdsHidden)) { (function(w, q) { w[q] = w[q] || []; w[q].push(["_mgc.load"]) })(window, "_mgq"); }

Các tin khác

Robot mang thai hộ và những thách thức pháp lý, đạo đức

Robot mang thai hộ và những thách thức pháp lý, đạo đức

Tại Hội nghị Robot thế giới 2025 ở Bắc Kinh (Trung Quốc), Công ty Kaiwa Technology đã công bố kế hoạch ra mắt robot mang thai hình người đầu tiên trên thế giới vào năm 2026. Sự kiện này lập tức gây chấn động, khi hình ảnh một robot (được trang bị trí tuệ nhân tạo – AI) có thể mang trong mình một bào thai, nuôi dưỡng và thậm chí “sinh nở”, không còn nằm trong trang sách khoa học viễn tưởng.
5 tin đồn đáng chú ý nhất về màn hình iPhone 17

5 tin đồn đáng chú ý nhất về màn hình iPhone 17

Apple dự kiến mang đến một loạt thay đổi về màn hình trên iPhone 17, bao gồm việc mở rộng kích thước, thu nhỏ Dynamic Island và tăng độ sáng để sử dụng ngoài trời thuận tiện hơn.
Galaxy S26 lộ thiết kế giống iPhone 17

Galaxy S26 lộ thiết kế giống iPhone 17

Nguồn tin từ MacRumors tiết lộ dòng sản phẩm Galaxy S26 của Samsung sẽ có nhiều nét tương đồng về thiết kế với thế hệ iPhone 17 chuẩn bị ra mắt.