Công nghệ

Ba bài kiểm tra cho thấy Gemini "lép vế" trước ChatGPT

Sự cạnh tranh giữa Gemini và ChatGPT được thể hiện khi các công ty đứng đằng sau chúng lần lượt là Google và OpenAI đã liên tục phát hành các công cụ AI khác nhau. Tiêu biểu trong tháng 12.2025, OpenAI từng bị nghi ngờ về khả năng cạnh tranh trong cuộc đua AI sau khi Gemini 3 ra mắt, họ đã phát hành GPT-5.2 chỉ vài ngày sau đó để trở lại vị thế dẫn đầu.

Ba bài kiểm tra khiến Gemini 'lép vế' trước ChatGPT - Ảnh 1.

ChatGPT và Gemini đang nỗ lực để khẳng định vị thế trên thị trường chatbot AI

ẢNH: TBS News

Vậy làm thế nào để xác định chatbot AI nào hoạt động tốt hơn? Trước đây, chúng ta có thể thực hiện các so sánh rõ ràng giữa các thế hệ mô hình ngôn ngữ lớn (LLM), nhưng khoảng cách giữa các hệ thống này đang thu hẹp giữa OpenAI và Google. Đầu ra của LLM thường mang tính ngẫu nhiên, dẫn đến các phản hồi khác nhau cho cùng một câu hỏi. Đặc biệt, cả ChatGPT và Gemini hiện tại đều có thể thực hiện nhiều tác vụ khiến việc đánh giá trở nên phức tạp hơn.

Mặc dù Gemini có những ưu điểm nhất định, nhưng khi xét đến ba khía cạnh được các chuyên gia đưa ra, ChatGPT đang thể hiện tốt hơn.

Khoảng cách nhỏ nhưng quan trọng giữa ChatGPT và Gemini

ChatGPT thực sự thể hiện tốt hơn Gemini ở GPQA Diamond - một bài kiểm tra đánh giá khả năng suy luận ở cấp độ tiến sĩ trong các lĩnh vực vật lý, hóa học và sinh học. Bài kiểm tra này yêu cầu AI phải áp dụng nhiều khái niệm khoa học phức tạp và không chỉ đơn thuần là tìm kiếm thông tin trên Google. Kết quả cho thấy ChatGPT-5.2 đạt 92,4%, trong khi Gemini 3 Pro đạt 91,9%. Để so sánh, một người tốt nghiệp tiến sĩ thường đạt khoảng 65%.

Ngoài ra, khả năng giải quyết các vấn đề lập trình thực tế cũng là một yếu tố quan trọng. Bài kiểm tra SWE-Bench Pro đánh giá khả năng của AI trong việc xử lý các nhiệm vụ kỹ thuật phần mềm thực tế. Kết quả cho thấy ChatGPT-5.2 đã giải quyết được khoảng 24% vấn đề, trong khi Gemini chỉ đạt 18%. Mặc dù những con số này có vẻ không ấn tượng, nhưng đây là bài kiểm tra khó nhất trong lĩnh vực này đối với AI. Riêng với các thử thách kỹ thuật, con người có thể giải quyết 100%.

‘Loạn thần AI’ vì dùng ChatGPT và các chatbot khác?

Cuối cùng là bài kiểm tra ARC-AGI nhằm đo lường trí tuệ tổng quát linh hoạt giống con người. Được phát triển lần đầu vào năm 2019, phiên bản cập nhật ARC-AGI-2 ra mắt vào tháng 3.2025 tập trung vào khả năng của AI trong việc áp dụng suy luận trừu tượng đối với các tình huống chưa quen thuộc. Đây là lĩnh vực con người thường làm tốt, nhưng AI vẫn gặp khó khăn trong việc đưa ra câu trả lời chính xác. Kết quả cho thấy, ChatGPT-5.2 Pro đạt 54,2%, trong khi Gemini có nhiều phiên bản khác nhau với điểm số dao động từ 31,1% đến 54%.

Lưu ý rằng kết quả đánh giá hiệu năng AI có thể thay đổi nhanh chóng với các bản phát hành mới từ OpenAI hoặc Google. Đánh giá trên tập trung vào các phiên bản mới nhất, bao gồm GPT-5.2 và Gemini 3, với sự chú ý đặc biệt đến các phiên bản trả phí (Pro) vì chúng thường đạt thứ hạng cao hơn trong các bài kiểm tra.

Mặc dù ChatGPT có những điểm mạnh trong một số bài kiểm tra, Gemini hiện chiếm ưu thế về mức độ ưa thích của người dùng trên nền tảng LLMArena. Rõ ràng, sự cạnh tranh giữa các hệ thống AI vẫn đang diễn ra và sẽ tiếp tục phát triển trong tương lai.

Các tin khác

Loạt ưu đãi “nặng ký” cho khách hàng sở hữu sớm “phố cổ tương lai” Ocean City, đón đầu giai đoạn tăng trưởng vàng

Ocean City đang bước vào nhịp tăng trưởng bứt tốc, khi lợi thế về hạ tầng, quy hoạch và các chính sách trợ lực “khủng” cùng hội tụ. Đây được xem là “thời điểm kim cương” để nhà đầu tư đón đầu sóng tăng giá, tối ưu giá trị sở hữu trong trung và dài hạn.

VAS ra mắt ứng dụng bán hàng Sales Portal

Sales Portal là nền tảng bán hàng số mới của Tập đoàn VAS, giúp nhà phân phối đặt hàng, theo dõi giao dịch, quản lý doanh số và công nợ nhanh chóng trên một ứng dụng duy nhất.

Gu của nhà đầu tư bất động sản và sự dịch chuyển hành vi trong năm 2025 - 2026

Thị trường bất động sản Việt Nam đang chứng kiến sự phân hóa ngày càng rõ nét không chỉ theo phân khúc mà còn theo vùng miền. Trong khi khu vực phía Bắc duy trì sức nóng với tốc độ giao dịch nhanh và mặt bằng giá cao, thị trường phía Nam lại vận động thận trọng hơn, tập trung vào nhu cầu ở thực và tích sản dài hạn. Sự khác biệt này đang tái định hình chiến lược phát triển dự án cũng như cách tiếp cận khách hàng trong giai đoạn 2025 - 2026.

Hàng đặc sản Tết "tăng ca" để đủ đơn hàng

Nhiều đơn vị sản xuất, kinh doanh hàng đặc sản như cua Cà Mau, khô tôm đất Bạc Liêu, patê Trà Vinh, bưởi Tân Triều… cho biết đang "tăng ca" để đủ sản lượng đáp ứng nhu cầu tăng cao vào dịp Tết, giá nhiều mặt hàng đang có xu hướng tăng.

Khang Điền chuẩn bị mở bán dự án mới, thấp tầng 10 - 12 tỷ/căn, cao tầng khoảng 4 tỷ/căn

Sau năm 2025 ước lãi hơn 1.000 tỷ đồng, Khang Điền đặt mục tiêu nâng lợi nhuận ròng trên 2.000 tỷ đồng trong năm 2026. Kế hoạch tăng trưởng mạnh được kỳ vọng đến từ việc ghi nhận dự án Gladia, cùng loạt dự án gối đầu tại TP HCM và khu công nghiệp, song vẫn phụ thuộc đáng kể vào tiến độ pháp lý và hạ tầng.