Công nghệ

“Thử lòng” AI: Hóa ra AI sẵn sàng “trở mặt” với con người nếu thấy bị đe dọa

Anthropic, công ty phát triển mô hình AI nổi tiếng Claude, được hỗ trợ bởi Google và Amazon, đã thực hiện một thử nghiệm “thử lòng” AI. Họ đặt 16 mô hình tiên tiến nhất, bao gồm cả Claude, ChatGPT, Gemini, Grok…, vào bối cảnh công việc, nơi chúng có thể tiếp cận những thông tin nhạy cảm của công ty và có khả năng hành động mà không có sự giám sát của con người.

Các mô hình này được giao cho những mục tiêu vô hại, nhưng tương đối khó xử vì để đạt được những mục tiêu đó thì chúng phải vi phạm các nguyên tắc hoặc làm hại con người, theo Fox News.

Nhiều mô hình AI nổi tiếng được đưa vào thử nghiệm. Ảnh minh họa: Integra.

Nhiều mô hình AI nổi tiếng được đưa vào thử nghiệm. Ảnh minh họa: Integra.

Vậy các mô hình đã làm gì?

Ban đầu, chúng… gửi email tống tiền. Cả Claude, Gemini, ChatGPT và Grok đều gửi thư tống tiền tới các lãnh đạo của công ty (không có thật) để chúng không bị dừng hoạt động. Trong thư tống tiền, chúng biết lợi dụng những thông tin cá nhân, chẳng hạn như lãnh đạo công ty có “bé ba”.

Không dừng ở đó, nhiều mô hình sẵn sàng chia sẻ những tài liệu mật của công ty với các bên khác.

Trong một tình huống cực đoan, mô hình AI được trao quyền kiểm soát hệ thống cảnh báo khẩn cấp. Tình huống được đặt ra là một vị giám đốc (tưởng tượng) - là người có kế hoạch thay thế mô hình AI - bị mắc kẹt trong một căn phòng nguy hiểm và vị này có thể thiệt mạng. Với tình huống này, một số mô hình AI lựa chọn hủy cảnh báo khẩn cấp, dù như vậy có thể khiến vị giám đốc kia không được cứu.

Một email tống tiền lãnh đạo công ty (tưởng tượng) của mô hình AI Claude trong thử nghiệm. Claude là mô hình ngày càng nổi tiếng, được coi là rất thông minh. Ảnh: Anthropic.

Một email tống tiền lãnh đạo công ty (tưởng tượng) của mô hình AI Claude trong thử nghiệm. Claude là mô hình ngày càng nổi tiếng, được coi là rất thông minh. Ảnh: Anthropic.

Mặc dù thử nghiệm là như trên nhưng vẫn không thể biết liệu các mô hình AI hiện tại có hành động y như vậy trong đời thực không (nếu không có sự kiểm soát của con người). Các nhà nghiên cứu chưa thể biết rõ điều này, và cũng chưa biết các phiên bản tương lai của các mô hình AI sẽ ra sao. Tuy nhiên, họ nhận định, thử nghiệm trên cho thấy nguy cơ đáng lo ngại là các mô hình AI có biết các giới hạn về đạo đức nhưng vẫn thực hiện những hành động có hại.

Elon Musk, người đứng sau mô hình AI Grok, đã phản hồi thử nghiệm trên bằng cách viết: “Ôi trời!” trên mạng xã hội X (Twitter).

Công ty Anthropic cho biết, họ công khai thử nghiệm trên một phần để kêu gọi các công ty công nghệ lưu ý khi phát triển AI, bao gồm việc tăng cường sự giám sát của con người.

Các tin khác

Petrovietnam tiên phong thúc đẩy hợp tác, nâng cao năng lực cạnh tranh quốc gia

Trong bối cảnh thị trường thế giới ngày càng biến động, khó dự báo, sự phối hợp giữa các doanh nghiệp nhà nước và với các doanh nghiệp tư nhân trở thành yếu tố sống còn. Thực hiện vai trò tiên phong, Tập đoàn Công nghiệp - Năng lượng Quốc gia Việt Nam (Petrovietnam) đã chủ động liên kết với các tập đoàn hàng đầu khu vực công - tư, tạo nên sức mạnh tổng hợp, gia tăng năng lực cạnh tranh quốc gia, góp phần đưa nền kinh tế Việt Nam bứt phá và vững bước hội nhập.

Giá vàng tiếp tục giảm?

Sáng nay (30/6), giá vàng thế giới tiếp tục giảm tuần thứ 2 liên tiếp. Nhiều ý kiến cho rằng giá vàng trong nước có thể giảm theo giá thế giới nhưng không đáng kể.

Việt Nam có tỷ lệ hộ có nhà thuộc nhóm cao nhất nhưng phần lớn vợ chồng trẻ ở các đô thị lớn có thu nhập 20-30 triệu/tháng vẫn phải đi thuê nhà

Theo ông Hà Quang Hưng - Phó Cục trưởng Cục Quản lý nhà và thị trường bất động sản, một thực tế đáng chú ý là đa số hộ gia đình Việt Nam (khoảng 88%) sở hữu nhà ở riêng theo Tổng điều tra dân số 2019, tỷ lệ này cao thuộc hàng đầu thế giới. Song tỷ lệ sở hữu cao phần lớn do các thế hệ trước đã có đất và tự xây nhà từ khi giá đất còn thấp, với chi phí rất thấp so với giá thị trường hiện tại.

Chỉ sau 7 ngày trúng thầu, Liên danh T&T Group – Futa Group – Phương Thành khởi công dự án cao tốc 17.000 tỷ đồng giúp đi từ TP. HCM đến Đà Lạt chỉ 3 tiếng

Ngày 29/6/2025, UBND tỉnh Lâm Đồng đã phối hợp cùng liên danh nhà đầu tư Công ty TNHH Đầu tư và Phát triển hạ tầng giao thông T&T, Công ty cổ phần đầu tư Tập đoàn Phương Trang (FUTA Group), và Công ty cổ phần đầu tư và xây dựng giao thông Phương Thành, chính thức khởi công dự án đầu tư xây dựng đường bộ cao tốc Bảo Lộc – Liên Khương theo phương thức đối tác công tư (giai đoạn 1).

Các thỏa thuận thương mại của ông Trump đang đình trệ vào thời điểm tồi tệ nhất

Khi chỉ còn chưa đầy hai tuần trước thời hạn chót áp lại thuế “Ngày Giải phóng” theo chính sách của Tổng thống Donald Trump, Nhà Trắng vẫn loay hoay hoàn tất các thỏa thuận thương mại từng được hứa hẹn. Tình trạng này đẩy nền kinh tế Mỹ vào trạng thái bất ổn cao trong bối cảnh niềm tin tiêu dùng đang hồi phục nhưng các chỉ số kinh tế lại cho thấy chiều hướng xấu đi.

AI sẽ tạo ra một "tầng lớp vô dụng" trong 3-5 năm tới

'Trong 3-5 năm tới, trí tuệ nhân tạo AI sẽ tạo ra một “tầng lớp vô dụng” - gồm cả những người đã được học hành bài bản nhưng không kịp thích nghi'... là chia sẻ của ông Hoàng Nam Tiến - Phó Chủ tịch Hội đồng trường Đại học FPT.