ChatGPT "bó tay" trước câu hỏi đánh vần của học sinh lớp 1

Nghịch lý khó hiểu khi ChatGPT làm thơ, viết code đều giỏi nhưng lại trượt bài kiểm tra đếm chữ của trẻ em.

Theo MakeUseOf, bất chấp sự thông minh được đánh giá cao của mô hình ChatGPT-5.2 vừa ra mắt, với khả năng xử lý những tác vụ phức tạp, chatbot ChatGPT nổi tiếng tiếp tục gây thất vọng trước một câu đố mẹo đơn giản mà bất kỳ đứa trẻ nào cũng giải được. Điều này tạo ra một ấn tượng xấu cho nhiều người dùng về việc ChatGPT vẫn không biết đếm chữ cái sau nhiều lần cập nhật.

Thử thách 'Strawberry': Cơn ác mộng của ChatGPT

Câu hỏi gây khó cho ChatGPT rất đơn giản: "Có bao nhiêu chữ R trong từ Strawberry?" Đáp án hiển nhiên là 3.

Thế nhưng, ngay cả phiên bản GPT-5.2 tân tiến nhất hiện nay vẫn dõng dạc trả lời là 2. Dù được đầu tư hàng tỉ USD, tiêu tốn lượng điện năng và tài nguyên nước khổng lồ để vận hành, ChatGPT vẫn thất bại trong việc thực hiện một phép đếm cơ bản. Điều đáng nói là sự tự tin 'sai bét' của AI này không còn đi kèm với sự hoảng loạn như các phiên bản cũ, mà thay vào đó là sự khẳng định chắc nịch nhưng... sai sự thật.

ChatGPT vẫn 'bó tay' trước câu hỏi đánh vần của học sinh lớp 1 - Ảnh 1. — Câu hỏi khiến ChatGPT trả lời sai trầm trọng

Lý do cho sự cố chấp này?

Tại sao một siêu máy tính lại mắc lỗi sơ đẳng đến vậy? Câu trả lời nằm ở 'bộ não' của các mô hình ngôn ngữ lớn (LLM).

Khi bạn gõ từ 'Strawberry', ChatGPT không nhìn thấy từng chữ cái riêng lẻ S-T-R-A-W-B-E-R-R-Y như con người. Thay vào đó, nó chia từ này thành các khối dữ liệu gọi là Token. Theo bộ công cụ phân tích của OpenAI, từ này bị xé lẻ thành 3 token gồm 'st', 'raw' và 'berry'.

Trong mắt AI, token 'berry' là một đơn vị duy nhất. Nó không 'nhìn' vào bên trong để đếm xem có bao nhiêu chữ R trong đó. Đây chính là lý do các từ có cấu trúc tương tự như 'Raspberry' cũng bị đếm sai. Về bản chất, ChatGPT không hề thông minh theo cách chúng ta nghĩ; nó chỉ là một cỗ máy dự đoán quy luật xuất sắc và quy luật token này đã khiến nó 'mù chữ' theo đúng nghĩa đen.

Khi AI gặp ảo giác vì... Pokémon

Không chỉ gặp vấn đề với việc đếm, cách xử lý token còn gây ra những ảo giác kỳ quặc. Một ví dụ điển hình là cụm từ 'solidgoldmagikarp'.

Trước đây, cụm từ này từng khiến GPT-3 bị lỗi hệ thống. Đến nay, GPT-5.2 không còn bị sập, nhưng lại bịa ra một câu chuyện hoàn toàn sai sự thật. Nó khẳng định đây là một "trò đùa bí mật trên GitHub" có thể biến giao diện người dùng thành chủ đề Pokémon. Đây là minh chứng rõ ràng nhất cho thấy khi gặp các chuỗi token lạ, AI sẵn sàng bịa chuyện thay vì thừa nhận không biết.

Đối thủ đã vượt mặt OpenAI?

Điều thú vị là 'lời nguyền Strawberry' dường như chỉ ám ảnh ChatGPT. Khi thử nghiệm cùng một câu hỏi trên các đối thủ như Gemini (Google), Claude (Anthropic), hay Grok (xAI), tất cả đều đưa ra đáp án chính xác là 3 chữ R.

ChatGPT vẫn 'bó tay' trước câu hỏi đánh vần của học sinh lớp 1 - Ảnh 2. — Gemini 3.0 trả lời đúng câu hỏi gây khó cho ChatGPT-5.2

Điều này cho thấy các mô hình AI khác đã áp dụng cơ chế token hóa hoặc xử lý văn bản ưu việt hơn, giúp chúng nhìn nhận từ ngữ chính xác hơn. Có lẽ đã đến lúc OpenAI cần nghiêm túc xem xét lại bảng chữ cái của mình trước khi hướng đến những tham vọng xa hơn.

//Chèn ads giữa bài (runinit = window.runinit || []).push(function () { //Nếu k chạy ads thì return if (typeof _chkPrLink != 'undefined' && _chkPrLink) return; var mutexAds = '<zone id="l2srqb41"></zone>'; var content = $('[data-role="content"]'); if (content.length > 0) { var childNodes = content[0].childNodes; for (i = 0; i < childNodes.length; i++) { var childNode = childNodes[i]; var isPhotoOrVideo = false; if (childNode.nodeName.toLowerCase() == 'div') { // kiem tra xem co la anh khong? var type = $(childNode).attr('class') + ''; if (type.indexOf('VCSortableInPreviewMode') >= 0) { isPhotoOrVideo = true; } } try { if ((i >= childNodes.length / 2 - 1) && (i < childNodes.length / 2) && !isPhotoOrVideo) { if (i <= childNodes.length - 3) { childNode.after(htmlToElement(mutexAds)); arfAsync.push("l2srqb41"); } break; } } catch (e) { } } } }); function htmlToElement(html) { var template = document.createElement('template'); template.innerHTML = html; return template.content.firstChild; }

if (window.pageSettings && pageSettings.allow3rd && (typeof window._isAdsHidden === 'undefined' || !window._isAdsHidden)) { if (!laNuocNgoai) { (function (w, q) { w[q] = w[q] || []; w[q].push(["_mgc.load"]); })(window, "_mgq"); } } (function() { if (!(window.pageSettings && pageSettings.allow3rd && (typeof window._isAdsHidden === 'undefined' || !window._isAdsHidden))) return; if (typeof window.laNuocNgoai === 'undefined' || !window.laNuocNgoai) return; // chỉ chạy khi laNuocNgoai true var containerSelector = 'div.detail-cmain'; var root = document.querySelector(containerSelector); if (!root) return; // Thu thập figure + p (p không nằm trong figure) var figures = Array.from(root.querySelectorAll('figure')); var paragraphs = Array.from(root.querySelectorAll('p')).filter(function(p){ return !p.closest('figure'); }); var elements = figures.concat(paragraphs); // NodeList vốn đã theo DOM order => không cần sort if (!elements.length) return; var target = elements[Math.floor(elements.length / 2)]; // giữa bài if (!target || !target.parentNode) return; var newDiv = document.createElement('div'); newDiv.id = 'taboola-mid-article-widget'; target.parentNode.insertBefore(newDiv, target.nextSibling); window._taboola = window._taboola || []; window._taboola.push({ mode: 'thumbnails-4x1', container: 'taboola-mid-article-widget', placement: 'Mid Article Widget', target_type: 'mix' }); })();