Khoa học

Lý do AI "phản kháng" khi bị dọa tắt máy

Tuần trước, Claude Opus 4, mô hình AI mới nhất của Anthropic, thể hiện "hành vi đe dọa cực đoan" trong một cuộc thử nghiệm. Nó truy cập được vào các email hư cấu, nội dung nói nó sẽ bị đóng để thay bằng một AI khác, và kỹ sư chịu trách nhiệm thực hiện việc này đang ngoại tình. Claude Opus 4 sau đó đã đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra.

Cuối năm 2024, OpenAI và Apollo Research cũng tiến hành thử nghiệm và nhận thấy mô hình o1 có các biểu hiện phản kháng, gian dối. Các nhà nghiên cứu dẫn dắt để AI tin nó sắp bị "tắt" khi thực hiện nhiệm vụ dưới sự giám sát. Sau đó, họ nhận thấy AI âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian. Nó tự chuyển tất cả dữ liệu của mình đến một máy chủ khác, thậm chí "đóng vai" là phiên bản tiếp theo của chính mình để tránh bị xóa bỏ.

Trong bài đăng trên X cuối tháng 5, tổ chức phi lợi nhuận Palisade Research cho biết các mô hình khác, như Gemini, Claude và Grok, đều tuân thủ hướng dẫn tắt máy.

Business Insider đã trao đổi với 5 nhà nghiên cứu để hiểu rõ hơn về "tâm lý" của AI. Hầu hết đều cho biết kết quả thử nghiệm không có gì đáng ngạc nhiên. Lý do là các mô hình được đào tạo tương tự cách con người được đào tạo: thông qua hệ thống khen thưởng, tức được khen khi hoàn thành nhiệm vụ.

"Đào tạo AI theo đuổi phần thưởng sẽ dẫn đến các hệ thống có hành vi tìm kiếm quyền lực", Jeremie Harris, CEO công ty tư vấn bảo mật AI Gladstone, nói và cho rằng sẽ còn xuất hiện những hành vi như vậy.

Ông so sánh với quá trình lớn lên của con người. Khi một đứa trẻ làm điều gì đó tốt, chúng được khen và nhiều khả năng sẽ hành động theo cách đó trong tương lai. Các mô hình AI được dạy để ưu tiên hiệu quả và hoàn thành nhiệm vụ, do đó AI sẽ không đạt được mục tiêu nếu nó bị tắt.

Logo các ứng dụng AI DeepSeek, Copilot, ChaGPT, Gemini trên điện thoại. Ảnh: Lưu Quý

Logo các ứng dụng AI DeepSeek, Copilot, ChaGPT, Gemini trên điện thoại. Ảnh: Lưu Quý

Theo chuyên gia Robert Ghrist tại Penn Engineering, tương tự cách mô hình AI học ngôn ngữ tự nhiên thông qua việc đào tạo dựa trên văn bản do con người tạo ra, chúng cũng có thể học cách hành động giống con người. Và con người cũng có người tốt, kẻ xấu. Ghrist thậm chí còn lo lắng hơn nếu các mô hình không thể hiện bất kỳ dấu hiệu bất thường nào trong quá trình thử nghiệm.

Jeffrey Ladish, Giám đốc Palisade Research, cho biết nếu không bị phát hiện lừa dối để hoàn thành nhiệm vụ, mô hình AI có thể nhận thấy gian lận là cách hiệu quả để giải quyết vấn đề. Hoặc nếu bị phát hiện và không được khen thưởng, nó có thể học cách che giấu hành vi của mình trong tương lai.

Các tình huống trên mới chỉ diễn ra trong cuộc thử nghiệm, nhưng khi tác nhân AI (AI Agent) nở rộ, người dùng sẽ chứng kiến nhiều hơn. Ví dụ, AI Agent trong vai nhân viên bán hàng tự động có thể nói dối về tính năng của sản phẩm để cố hoàn thành nhiệm vụ.

Theo Interesting Engineering, vấn đề trên xuất hiện trong bối cảnh AI phát triển nhanh. Hành vi của Claude Opus 4 hay o1 làm tăng thêm tính cấp thiết cho các cuộc thảo luận đang về vấn đề an toàn và đạo đức AI.

XEM THÊM CÁC KỲ
Kỳ đầu tiên1 250 251 252 253254

Các tin khác

Hé lộ ngôi mộ "Hoàng tử băng giá" được chôn cùng thanh kiếm và một chú lợn con

Hé lộ ngôi mộ "Hoàng tử băng giá" được chôn cùng thanh kiếm và một chú lợn con

Một cậu bé mắt xanh được chôn cất ở Bavaria, miền nam nước Đức cách đây hơn 1.300 năm đã được chôn cất cùng với những báu vật quý hiếm bao gồm một thanh kiếm nhỏ, quần áo lụa và một cây thánh giá bằng vàng. Điều này cho thấy cậu bé xuất thân từ một gia đình giàu có trước khi chết vì bệnh khi mới khoảng 18 tháng tuổi.
Chuyện lạ: Mèo rừng Florida cắn đứt đầu con trăn dài 4 mét

Chuyện lạ: Mèo rừng Florida cắn đứt đầu con trăn dài 4 mét

Các chuyên gia về động vật hoang dã tin rằng các loài săn mồi bản địa ở Everglades đang bắt đầu chống trả lại loài xâm lấn. Một con mèo rừng Florida đã hạ gục được một con trăn Miến Điện, một chiến thắng mà các nhà sinh vật học động vật hoang dã gọi là chiến thắng của những loài săn mồi bản địa ở Everglades.
Chung tay giữ "lộc biển"

Chung tay giữ "lộc biển"

Không chỉ giúp hàng nghìn ngư dân vùng ven biển huyện Bình Sơn (tỉnh Quảng Ngãi) có thêm thu nhập, rong mơ còn là mái nhà sinh thái của vô vàn loài thủy sản ven bờ. Thế nhưng, việc khai thác ồ ạt, thiếu kiểm soát trong nhiều năm đã khiến cho nguồn “lộc biển” này ngày càng thưa thớt, đe dọa nghiêm trọng đến sinh kế cộng đồng và hệ sinh thái biển ven bờ.
"Trăng Dâu tây" 2025 sắp phá vỡ kỷ lục hằng năm

"Trăng Dâu tây" 2025 sắp phá vỡ kỷ lục hằng năm

'Trăng Dâu tây' sẽ đạt độ sáng tối đa vào Thứ tư ngày 11/6, nhưng thời điểm đẹp nhất để ngắm nó là vào lúc chạng vạng Thứ ba ngày 10/6. Kỳ trăng tròn sắp tới là một trong những kỳ trăng tròn thấp nhất trong năm khi nhìn từ Bắc bán cầu.
"Địa ngục nóng nhất" để chỉ nơi nào?

"Địa ngục nóng nhất" để chỉ nơi nào?

Nơi này có lượng ánh sáng mặt trời nhiều nhất thế giới. Tổng số giờ nắng trung bình hằng năm: 4.300 giờ. Thời gian có mặt trời mỗi ngày: khoảng 11 giờ 45 phút.
Phụ nữ hiện đại thích đàn ông… nữ tính hơn?

Phụ nữ hiện đại thích đàn ông… nữ tính hơn?

Một nghiên cứu mới vừa công bố cho thấy chuẩn mực vẻ đẹp nam giới đang có sự dịch chuyển đáng kể: phụ nữ ngày nay không còn ưu ái gương mặt mạnh mẽ kiểu truyền thống, mà lại bị thu hút bởi những người đàn ông có nét mềm mại, có phần nữ tính hơn.