Công nghệ

Bảng xếp hạng độ "thật thà" của những chatbot AI đình đám hiện nay

Chúng ta thường mặc định AI là "bách khoa toàn thư" biết tuốt. Tuy nhiên, một báo cáo mới nhất từ chính Google đã dội một gáo nước lạnh vào niềm tin này. Theo kết quả Google công bố dựa trên bộ công cụ đánh giá mới mang tên FACTS Benchmark Suite, kết quả cho thấy một thực tế 'khó nuốt' rằng các mô hình AI vẫn sai khoảng 30%, tức 1 trong mỗi 3 câu trả lời, ngay cả khi chúng diễn đạt với giọng điệu vô cùng tự tin và trôi chảy.

AI có tỷ lệ nói dối, bịa chuyện khá lớn.

AI có tỷ lệ nói dối, bịa chuyện khá lớn.

Bảng xếp hạng "AI nào nói thật nhất?"

Trong bài kiểm tra khắc nghiệt nói trên, Google đã so găng 'gà nhà' với các đối thủ sừng sỏ nhất thị trường. Kết quả cụ thể như sau:

- Hạng 1: Gemini 3 Pro - Đạt 69% độ chính xác.

- Hạng 2: Gemini 2.5 Pro và ChatGPT-5 (OpenAI) - Đạt xấp xỉ 62%.

- Hạng 3: Grok 4 (xAI) - Đạt khoảng 54%.

- Hạng 4: Claude 4.5 Opus (Anthropic) - Đạt khoảng 51%.

Dù dẫn đầu, nhưng con số 69% của Gemini 3 Pro cho thấy vẫn còn một chặng đường rất dài để AI có thể trở thành một nguồn thông tin chuẩn xác tuyệt đối.

Bảng xếp hạng độ "thật thà" của các AI.

Bảng xếp hạng độ "thật thà" của các AI.

Bộ chuẩn FACTS không chỉ kiểm tra kiến thức thông thường mà còn đánh giá qua 4 tiêu chí gồm kiến thức tham số, kỹ năng tìm kiếm, khả năng bám sát tài liệu và hiểu biết đa phương thức.

Kết quả gây sốc nhất nằm ở phần đa phương thức (Multimodal). Khi được yêu cầu đọc các biểu đồ, sơ đồ hoặc phân tích hình ảnh, độ chính xác của hầu hết các mô hình đều tụt xuống dưới mức 50%. Điều này cực kỳ nguy hiểm trong môi trường doanh nghiệp, nơi một chatbot có thể tự tin đọc sai biểu đồ doanh thu hoặc trích xuất sai số liệu từ hợp đồng, dẫn đến những hậu quả tai hại.

Tại sao báo cáo này lại quan trọng? Bởi vì hầu hết các bài thử nghiệm AI trước đây chỉ quan tâm xem AI có làm được việc hay không, chứ không kiểm tra xem nó có nói đúng sự thật hay không.

Đối với các lĩnh vực đòi hỏi sự chính xác tuyệt đối như tài chính, y tế hay luật pháp, việc tin tưởng mù quáng vào AI là một rủi ro lớn. Kết luận của Google rất rõ ràng là AI đang tốt lên, nhưng chúng vẫn cần sự giám sát chặt chẽ của con người. Đừng bao giờ coi chatbot là nguồn chân lý duy nhất mà không có sự kiểm chứng.

Các tin khác

Người dùng iPhone sẽ phải xem nhiều quảng cáo hơn

Người dùng iPhone sẽ phải xem nhiều quảng cáo hơn

Trong một thông báo mới đây, Apple cho biết công ty sẽ đề xuất thêm nhiều quảng cáo “để tăng cơ hội hiển thị trong kết quả tìm kiếm” trên App Store. Thay đổi này sẽ bắt đầu từ năm sau.
TikTok có thay đổi mới

TikTok có thay đổi mới

Hôm nay, ứng dụng này giới thiệu một Không gian mới về quản lý thời gian và sức khỏe tinh thần.
Sức mạnh công nghệ toàn cầu và bài toán hạ tầng có chủ quyền

Sức mạnh công nghệ toàn cầu và bài toán hạ tầng có chủ quyền

Trong kỷ nguyên AI tăng tốc, dữ liệu đã vượt khỏi vai trò vận hành để trở thành tài sản chiến lược. Bài toán đặt ra không còn là chuyển đổi số hay không, mà là chuyển đổi trên nền hạ tầng nào đủ mạnh, đủ an toàn và đủ bền vững.