Sự cạnh tranh giữa Gemini và ChatGPT được thể hiện khi các công ty đứng đằng sau chúng lần lượt là Google và OpenAI đã liên tục phát hành các công cụ AI khác nhau. Tiêu biểu trong tháng 12.2025, OpenAI từng bị nghi ngờ về khả năng cạnh tranh trong cuộc đua AI sau khi Gemini 3 ra mắt, họ đã phát hành GPT-5.2 chỉ vài ngày sau đó để trở lại vị thế dẫn đầu.

ChatGPT và Gemini đang nỗ lực để khẳng định vị thế trên thị trường chatbot AI
ẢNH: TBS News
Vậy làm thế nào để xác định chatbot AI nào hoạt động tốt hơn? Trước đây, chúng ta có thể thực hiện các so sánh rõ ràng giữa các thế hệ mô hình ngôn ngữ lớn (LLM), nhưng khoảng cách giữa các hệ thống này đang thu hẹp giữa OpenAI và Google. Đầu ra của LLM thường mang tính ngẫu nhiên, dẫn đến các phản hồi khác nhau cho cùng một câu hỏi. Đặc biệt, cả ChatGPT và Gemini hiện tại đều có thể thực hiện nhiều tác vụ khiến việc đánh giá trở nên phức tạp hơn.
Mặc dù Gemini có những ưu điểm nhất định, nhưng khi xét đến ba khía cạnh được các chuyên gia đưa ra, ChatGPT đang thể hiện tốt hơn.
Khoảng cách nhỏ nhưng quan trọng giữa ChatGPT và Gemini
ChatGPT thực sự thể hiện tốt hơn Gemini ở GPQA Diamond - một bài kiểm tra đánh giá khả năng suy luận ở cấp độ tiến sĩ trong các lĩnh vực vật lý, hóa học và sinh học. Bài kiểm tra này yêu cầu AI phải áp dụng nhiều khái niệm khoa học phức tạp và không chỉ đơn thuần là tìm kiếm thông tin trên Google. Kết quả cho thấy ChatGPT-5.2 đạt 92,4%, trong khi Gemini 3 Pro đạt 91,9%. Để so sánh, một người tốt nghiệp tiến sĩ thường đạt khoảng 65%.
Ngoài ra, khả năng giải quyết các vấn đề lập trình thực tế cũng là một yếu tố quan trọng. Bài kiểm tra SWE-Bench Pro đánh giá khả năng của AI trong việc xử lý các nhiệm vụ kỹ thuật phần mềm thực tế. Kết quả cho thấy ChatGPT-5.2 đã giải quyết được khoảng 24% vấn đề, trong khi Gemini chỉ đạt 18%. Mặc dù những con số này có vẻ không ấn tượng, nhưng đây là bài kiểm tra khó nhất trong lĩnh vực này đối với AI. Riêng với các thử thách kỹ thuật, con người có thể giải quyết 100%.
‘Loạn thần AI’ vì dùng ChatGPT và các chatbot khác?
Cuối cùng là bài kiểm tra ARC-AGI nhằm đo lường trí tuệ tổng quát linh hoạt giống con người. Được phát triển lần đầu vào năm 2019, phiên bản cập nhật ARC-AGI-2 ra mắt vào tháng 3.2025 tập trung vào khả năng của AI trong việc áp dụng suy luận trừu tượng đối với các tình huống chưa quen thuộc. Đây là lĩnh vực con người thường làm tốt, nhưng AI vẫn gặp khó khăn trong việc đưa ra câu trả lời chính xác. Kết quả cho thấy, ChatGPT-5.2 Pro đạt 54,2%, trong khi Gemini có nhiều phiên bản khác nhau với điểm số dao động từ 31,1% đến 54%.
Lưu ý rằng kết quả đánh giá hiệu năng AI có thể thay đổi nhanh chóng với các bản phát hành mới từ OpenAI hoặc Google. Đánh giá trên tập trung vào các phiên bản mới nhất, bao gồm GPT-5.2 và Gemini 3, với sự chú ý đặc biệt đến các phiên bản trả phí (Pro) vì chúng thường đạt thứ hạng cao hơn trong các bài kiểm tra.
Mặc dù ChatGPT có những điểm mạnh trong một số bài kiểm tra, Gemini hiện chiếm ưu thế về mức độ ưa thích của người dùng trên nền tảng LLMArena. Rõ ràng, sự cạnh tranh giữa các hệ thống AI vẫn đang diễn ra và sẽ tiếp tục phát triển trong tương lai.









