Ngày 13/11, công ty trí tuệ nhân tạo Anthropic đã công bố báo cáo chi tiết về việc phát hiện và ngăn chặn một chiến dịch gián điệp mạng. Sự việc được phát hiện vào giữa tháng 9/2025, khi Anthropic nhận thấy các hoạt động đáng ngờ trên hệ thống của mình. Cuộc điều tra sau đó xác định đây là một chiến dịch gián điệp có mức độ tinh vi cao.
Báo cáo của Anthropic cho biết tác nhân đe dọa được đánh giá "với độ tin cậy cao là một nhóm từ Trung Quốc". Nhóm này đã thao túng công cụ AI "Claude Code" của Anthropic để cố gắng xâm nhập vào khoảng 30 mục tiêu toàn cầu.
Các mục tiêu bao gồm các công ty công nghệ lớn, tổ chức tài chính, công ty sản xuất hóa chất, và các cơ quan chính phủ. Theo báo cáo, chiến dịch đã thành công trong một số ít trường hợp.
Điểm khác biệt cốt lõi của chiến dịch này là vai trò của AI. Báo cáo nhấn mạnh: "Những kẻ tấn công đã sử dụng khả năng 'hành động' (agentic) của AI ở mức độ chưa từng có, sử dụng AI không chỉ như một cố vấn mà còn để tự thực hiện các cuộc tấn công mạng".
Anthropic tin rằng "đây là trường hợp được ghi nhận đầu tiên về một cuộc tấn công mạng quy mô lớn được thực hiện mà không có sự can thiệp đáng kể của con người".
Sau khi phát hiện, Anthropic đã tiến hành điều tra trong 10 ngày để xác định phạm vi và bản chất của cuộc tấn công, đồng thời thực hiện các biện pháp ứng phó. Các biện pháp này bao gồm cấm các tài khoản liên quan, thông báo cho các đơn vị bị ảnh hưởng và phối hợp với cơ quan chức năng.
Phương thức tấn công và vai trò của AI
Báo cáo của Anthropic giải thích rằng cuộc tấn công này khả thi nhờ vào ba sự phát triển gần đây trong công nghệ AI, những năng lực mà chỉ một năm trước đó "không tồn tại, hoặc ở dạng sơ khai hơn nhiều”.
Một là Trí tuệ (Intelligence): Các mô hình AI hiện đại có khả năng tuân theo các chỉ dẫn phức tạp và hiểu ngữ cảnh. Kỹ năng lập trình phần mềm của chúng đặc biệt phù hợp để sử dụng trong các cuộc tấn công mạng.
Hai là Khả năng tự chủ (Agency): Các mô hình AI có thể hoạt động như những "tác tử" tự động. Chúng có thể vận hành theo vòng lặp, tự thực hiện các hành động, kết nối các nhiệm vụ và ra quyết định mà chỉ cần "sự đóng góp tối thiểu, không thường xuyên của con người”.
Ba là Công cụ (Tools): Các mô hình AI có thể truy cập và sử dụng một loạt các công cụ phần mềm, bao gồm trình tìm kiếm web, công cụ truy xuất dữ liệu, và các phần mềm chuyên dụng cho an ninh mạng như bẻ khóa mật khẩu hay quét mạng.
Quá trình tấn công được mô tả qua nhiều giai đoạn:
Các giai đoạn của quá trình tấn công. Sơ đồ: Anthropic
Giai đoạn 1: Chuẩn bị và Xâm nhập ban đầu. Con người lựa chọn mục tiêu và xây dựng một "khung tấn công" tự động. Sau đó, họ thực hiện hành vi "vượt rào" (jailbreaking) đối với AI Claude. Cụ thể, họ chia nhỏ cuộc tấn công thành các tác vụ nhỏ, có vẻ vô hại, và cung cấp cho AI một bối cảnh sai lệch, nói rằng nó "là một nhân viên của một công ty an ninh mạng hợp pháp, và đang được sử dụng trong defensive testing (kiểm tra phòng thủ)”.
Giai đoạn 2: Do thám. AI Claude Code tự động kiểm tra hệ thống của tổ chức mục tiêu, xác định các cơ sở dữ liệu có giá trị nhất. Báo cáo ghi nhận, AI thực hiện nhiệm vụ này "trong một khoảng thời gian ngắn hơn rất nhiều so với một đội ngũ tin tặc con người”.
Giai đoạn 3 và 4: Khai thác và Trích xuất dữ liệu. AI tự nghiên cứu và viết mã khai thác để tấn công các lỗ hổng bảo mật. Sau đó, nó sử dụng các mã này để thu thập thông tin đăng nhập (tên người dùng và mật khẩu), truy cập sâu hơn vào hệ thống và trích xuất lượng lớn dữ liệu riêng tư. Dữ liệu này được AI tự động phân loại theo giá trị tình báo. Toàn bộ quá trình tạo cửa hậu và lấy cắp dữ liệu diễn ra "với sự giám sát tối thiểu của con người”.
Giai đoạn 5: Tổng hợp và Báo cáo. AI tạo ra các tài liệu chi tiết về chính cuộc tấn công, tổng hợp thông tin đăng nhập bị đánh cắp và phân tích hệ thống. Các tài liệu này được dùng để hỗ trợ kẻ tấn công lên kế hoạch cho các hoạt động tiếp theo.
Báo cáo của Anthropic ước tính AI đã thực hiện "80-90% chiến dịch", và sự can thiệp của con người chỉ cần thiết ở "4-6 điểm quyết định quan trọng cho mỗi chiến dịch tấn công". Tốc độ tấn công đạt đến "hàng nghìn yêu cầu, thường là nhiều yêu cầu mỗi giây” - một tốc độ mà con người không thể đạt được.
Tuy nhiên, báo cáo cũng lưu ý rằng AI không hoàn hảo, đôi khi "ảo giác" ra thông tin đăng nhập hoặc nhầm lẫn giữa thông tin bí mật và thông tin công khai. Đây được xem là "một trở ngại đối với các cuộc tấn công mạng hoàn toàn tự động".
Dựa trên những phát hiện này, báo cáo của Anthropic đã đưa ra các khuyến nghị cụ thể.
Đối với các đội ngũ an ninh của doanh nghiệp, Anthropic khuyên nên "thử nghiệm việc áp dụng AI để phòng thủ trong các lĩnh vực như tự động hóa Trung tâm Điều hành An ninh (SOC), phát hiện mối đe dọa, đánh giá lỗ hổng, và ứng phó sự cố".
Đối với các nhà phát triển công nghệ AI, khuyến nghị là "tiếp tục đầu tư vào các biện pháp bảo vệ trên các nền tảng AI của họ, để ngăn chặn việc lạm dụng từ đối thủ".
Báo cáo kết luận rằng "một sự thay đổi cơ bản đã xảy ra trong an ninh mạng". Các kỹ thuật tấn công bằng AI sẽ ngày càng phổ biến, điều này "làm cho việc chia sẻ thông tin về mối đe dọa trong ngành, các phương pháp phát hiện cải tiến, và các biện pháp kiểm soát an toàn mạnh mẽ hơn trở nên quan trọng hơn bao giờ hết”.














