Công nghệ

Bảng xếp hạng độ "thật thà" của những chatbot AI đình đám hiện nay

Chúng ta thường mặc định AI là "bách khoa toàn thư" biết tuốt. Tuy nhiên, một báo cáo mới nhất từ chính Google đã dội một gáo nước lạnh vào niềm tin này. Theo kết quả Google công bố dựa trên bộ công cụ đánh giá mới mang tên FACTS Benchmark Suite, kết quả cho thấy một thực tế 'khó nuốt' rằng các mô hình AI vẫn sai khoảng 30%, tức 1 trong mỗi 3 câu trả lời, ngay cả khi chúng diễn đạt với giọng điệu vô cùng tự tin và trôi chảy.

AI có tỷ lệ nói dối, bịa chuyện khá lớn.

AI có tỷ lệ nói dối, bịa chuyện khá lớn.

Bảng xếp hạng "AI nào nói thật nhất?"

Trong bài kiểm tra khắc nghiệt nói trên, Google đã so găng 'gà nhà' với các đối thủ sừng sỏ nhất thị trường. Kết quả cụ thể như sau:

- Hạng 1: Gemini 3 Pro - Đạt 69% độ chính xác.

- Hạng 2: Gemini 2.5 Pro và ChatGPT-5 (OpenAI) - Đạt xấp xỉ 62%.

- Hạng 3: Grok 4 (xAI) - Đạt khoảng 54%.

- Hạng 4: Claude 4.5 Opus (Anthropic) - Đạt khoảng 51%.

Dù dẫn đầu, nhưng con số 69% của Gemini 3 Pro cho thấy vẫn còn một chặng đường rất dài để AI có thể trở thành một nguồn thông tin chuẩn xác tuyệt đối.

Bảng xếp hạng độ "thật thà" của các AI.

Bảng xếp hạng độ "thật thà" của các AI.

Bộ chuẩn FACTS không chỉ kiểm tra kiến thức thông thường mà còn đánh giá qua 4 tiêu chí gồm kiến thức tham số, kỹ năng tìm kiếm, khả năng bám sát tài liệu và hiểu biết đa phương thức.

Kết quả gây sốc nhất nằm ở phần đa phương thức (Multimodal). Khi được yêu cầu đọc các biểu đồ, sơ đồ hoặc phân tích hình ảnh, độ chính xác của hầu hết các mô hình đều tụt xuống dưới mức 50%. Điều này cực kỳ nguy hiểm trong môi trường doanh nghiệp, nơi một chatbot có thể tự tin đọc sai biểu đồ doanh thu hoặc trích xuất sai số liệu từ hợp đồng, dẫn đến những hậu quả tai hại.

Tại sao báo cáo này lại quan trọng? Bởi vì hầu hết các bài thử nghiệm AI trước đây chỉ quan tâm xem AI có làm được việc hay không, chứ không kiểm tra xem nó có nói đúng sự thật hay không.

Đối với các lĩnh vực đòi hỏi sự chính xác tuyệt đối như tài chính, y tế hay luật pháp, việc tin tưởng mù quáng vào AI là một rủi ro lớn. Kết luận của Google rất rõ ràng là AI đang tốt lên, nhưng chúng vẫn cần sự giám sát chặt chẽ của con người. Đừng bao giờ coi chatbot là nguồn chân lý duy nhất mà không có sự kiểm chứng.

Các tin khác

Giá vàng hôm nay 20-12: Tiếp tục đà tăng

Giá vàng hôm nay, 20-12, chưa dừng đà đi lên khi niềm tin người tiêu dùng tại Mỹ sụt giảm, tiến trình chấm dứt xung đột Nga - Ukraine thiếu khả thi.

Người dùng iPhone sẽ phải xem nhiều quảng cáo hơn

Trong một thông báo mới đây, Apple cho biết công ty sẽ đề xuất thêm nhiều quảng cáo “để tăng cơ hội hiển thị trong kết quả tìm kiếm” trên App Store. Thay đổi này sẽ bắt đầu từ năm sau.

EU quyết định không "đụng vào" 200 tỷ USD tài sản bị đóng băng của Nga

Trong một bước đi mang tính sống còn cho Ukraine giữa lúc chiến sự với Nga chưa có hồi kết, các nhà lãnh đạo châu Âu đã nhất trí cung cấp khoản vay trị giá 90 tỷ euro (khoảng 105 tỷ USD) cho Kyiv, nhằm duy trì hoạt động quân sự và ngân sách quốc gia. Tuy nhiên, EU không dùng tài sản bị đóng băng của Nga cho khoản vay này.