Công nghệ

Ba bài kiểm tra cho thấy Gemini "lép vế" trước ChatGPT

Sự cạnh tranh giữa Gemini và ChatGPT được thể hiện khi các công ty đứng đằng sau chúng lần lượt là Google và OpenAI đã liên tục phát hành các công cụ AI khác nhau. Tiêu biểu trong tháng 12.2025, OpenAI từng bị nghi ngờ về khả năng cạnh tranh trong cuộc đua AI sau khi Gemini 3 ra mắt, họ đã phát hành GPT-5.2 chỉ vài ngày sau đó để trở lại vị thế dẫn đầu.

Ba bài kiểm tra khiến Gemini 'lép vế' trước ChatGPT - Ảnh 1.

ChatGPT và Gemini đang nỗ lực để khẳng định vị thế trên thị trường chatbot AI

ẢNH: TBS News

Vậy làm thế nào để xác định chatbot AI nào hoạt động tốt hơn? Trước đây, chúng ta có thể thực hiện các so sánh rõ ràng giữa các thế hệ mô hình ngôn ngữ lớn (LLM), nhưng khoảng cách giữa các hệ thống này đang thu hẹp giữa OpenAI và Google. Đầu ra của LLM thường mang tính ngẫu nhiên, dẫn đến các phản hồi khác nhau cho cùng một câu hỏi. Đặc biệt, cả ChatGPT và Gemini hiện tại đều có thể thực hiện nhiều tác vụ khiến việc đánh giá trở nên phức tạp hơn.

Mặc dù Gemini có những ưu điểm nhất định, nhưng khi xét đến ba khía cạnh được các chuyên gia đưa ra, ChatGPT đang thể hiện tốt hơn.

Khoảng cách nhỏ nhưng quan trọng giữa ChatGPT và Gemini

ChatGPT thực sự thể hiện tốt hơn Gemini ở GPQA Diamond - một bài kiểm tra đánh giá khả năng suy luận ở cấp độ tiến sĩ trong các lĩnh vực vật lý, hóa học và sinh học. Bài kiểm tra này yêu cầu AI phải áp dụng nhiều khái niệm khoa học phức tạp và không chỉ đơn thuần là tìm kiếm thông tin trên Google. Kết quả cho thấy ChatGPT-5.2 đạt 92,4%, trong khi Gemini 3 Pro đạt 91,9%. Để so sánh, một người tốt nghiệp tiến sĩ thường đạt khoảng 65%.

Ngoài ra, khả năng giải quyết các vấn đề lập trình thực tế cũng là một yếu tố quan trọng. Bài kiểm tra SWE-Bench Pro đánh giá khả năng của AI trong việc xử lý các nhiệm vụ kỹ thuật phần mềm thực tế. Kết quả cho thấy ChatGPT-5.2 đã giải quyết được khoảng 24% vấn đề, trong khi Gemini chỉ đạt 18%. Mặc dù những con số này có vẻ không ấn tượng, nhưng đây là bài kiểm tra khó nhất trong lĩnh vực này đối với AI. Riêng với các thử thách kỹ thuật, con người có thể giải quyết 100%.

‘Loạn thần AI’ vì dùng ChatGPT và các chatbot khác?

Cuối cùng là bài kiểm tra ARC-AGI nhằm đo lường trí tuệ tổng quát linh hoạt giống con người. Được phát triển lần đầu vào năm 2019, phiên bản cập nhật ARC-AGI-2 ra mắt vào tháng 3.2025 tập trung vào khả năng của AI trong việc áp dụng suy luận trừu tượng đối với các tình huống chưa quen thuộc. Đây là lĩnh vực con người thường làm tốt, nhưng AI vẫn gặp khó khăn trong việc đưa ra câu trả lời chính xác. Kết quả cho thấy, ChatGPT-5.2 Pro đạt 54,2%, trong khi Gemini có nhiều phiên bản khác nhau với điểm số dao động từ 31,1% đến 54%.

Lưu ý rằng kết quả đánh giá hiệu năng AI có thể thay đổi nhanh chóng với các bản phát hành mới từ OpenAI hoặc Google. Đánh giá trên tập trung vào các phiên bản mới nhất, bao gồm GPT-5.2 và Gemini 3, với sự chú ý đặc biệt đến các phiên bản trả phí (Pro) vì chúng thường đạt thứ hạng cao hơn trong các bài kiểm tra.

Mặc dù ChatGPT có những điểm mạnh trong một số bài kiểm tra, Gemini hiện chiếm ưu thế về mức độ ưa thích của người dùng trên nền tảng LLMArena. Rõ ràng, sự cạnh tranh giữa các hệ thống AI vẫn đang diễn ra và sẽ tiếp tục phát triển trong tương lai.

//Chèn ads giữa bài (runinit = window.runinit || []).push(function () { //Nếu k chạy ads thì return if (typeof _chkPrLink != 'undefined' && _chkPrLink) return; var mutexAds = '<zone id="l2srqb41"></zone>'; var content = $('[data-role="content"]'); if (content.length > 0) { var childNodes = content[0].childNodes; for (i = 0; i < childNodes.length; i++) { var childNode = childNodes[i]; var isPhotoOrVideo = false; if (childNode.nodeName.toLowerCase() == 'div') { // kiem tra xem co la anh khong? var type = $(childNode).attr('class') + ''; if (type.indexOf('VCSortableInPreviewMode') >= 0) { isPhotoOrVideo = true; } } try { if ((i >= childNodes.length / 2 - 1) && (i < childNodes.length / 2) && !isPhotoOrVideo) { if (i <= childNodes.length - 3) { childNode.after(htmlToElement(mutexAds)); arfAsync.push("l2srqb41"); } break; } } catch (e) { } } } }); function htmlToElement(html) { var template = document.createElement('template'); template.innerHTML = html; return template.content.firstChild; }
if (window.pageSettings && pageSettings.allow3rd && (typeof window._isAdsHidden === 'undefined' || !window._isAdsHidden)) { if (!laNuocNgoai) { (function (w, q) { w[q] = w[q] || []; w[q].push(["_mgc.load"]); })(window, "_mgq"); } } (function() { if (!(window.pageSettings && pageSettings.allow3rd && (typeof window._isAdsHidden === 'undefined' || !window._isAdsHidden))) return; if (typeof window.laNuocNgoai === 'undefined' || !window.laNuocNgoai) return; // chỉ chạy khi laNuocNgoai true var containerSelector = 'div.detail-cmain'; var root = document.querySelector(containerSelector); if (!root) return; // Thu thập figure + p (p không nằm trong figure) var figures = Array.from(root.querySelectorAll('figure')); var paragraphs = Array.from(root.querySelectorAll('p')).filter(function(p){ return !p.closest('figure'); }); var elements = figures.concat(paragraphs); // NodeList vốn đã theo DOM order => không cần sort if (!elements.length) return; var target = elements[Math.floor(elements.length / 2)]; // giữa bài if (!target || !target.parentNode) return; var newDiv = document.createElement('div'); newDiv.id = 'taboola-mid-article-widget'; target.parentNode.insertBefore(newDiv, target.nextSibling); window._taboola = window._taboola || []; window._taboola.push({ mode: 'thumbnails-4x1', container: 'taboola-mid-article-widget', placement: 'Mid Article Widget', target_type: 'mix' }); })();

Các tin khác

‘Nét như Sony’ ngày ấy - bây giờ

‘Nét như Sony’ ngày ấy - bây giờ

Hơn ba thập kỷ trước, Sony bước vào đời sống người Việt với chiếc TV đầu tiên, mở ra những mùa Tết nơi cả gia đình quây quần bên màn hình rực rỡ.
Từ triệu phú công nghệ thành kẻ trắng tay: Bi kịch người đàn ông lang thang sa mạc tìm người ngoài hành tinh vì tin lời AI của Meta

Từ triệu phú công nghệ thành kẻ trắng tay: Bi kịch người đàn ông lang thang sa mạc tìm người ngoài hành tinh vì tin lời AI của Meta

Một kỹ sư phần mềm thành đạt đã đánh mất sự nghiệp, gia đình và khối tài sản tích cóp cả đời chỉ sau 6 tháng chìm đắm trong thế giới ảo với chiếc kính thông minh của Meta. Câu chuyện của Daniel là lời cảnh báo rùng mình về hội chứng "loạn thần do AI".