‘Vỡ mộng’ với Chat GPT-5: Phản hồi chậm, trả lời sai hàng

‘Vỡ mộng’ với Chat GPT-5: Phản hồi chậm, trả lời sai hàng loạt

Suốt nhiều năm qua, OpenAI đã hứa hẹn rằng mô hình GPT-5 sẽ là một cú nhảy vọt ngoạn mục trong lĩnh vực trí tuệ nhân tạo.

Dưới đây là bài đánh giá của Scott Shuey - một cây viết của Tech in Asia với hơn 20 năm kinh nghiệm làm báo. Anh phụ trách các công nghệ mới nổi như AI và Web3.

Trước thềm ra mắt, các giám đốc điều hành không ngớt lời quảng cáo về khả năng "suy nghĩ" vượt trội, tốc độ lập trình nhanh hơn và các "agent" tự hành mạnh mẽ hơn. Họ tự tin tuyên bố GPT-5 là "công nghệ tân tiến nhất".

Nhưng không! Chuyện đó đã không xảy ra. Làn khói từ màn ra mắt đáng thất vọng của OpenAI vẫn chưa tan hết.

Dù sao đi nữa, gạt qua những lùm xùm và tranh cãi, một mô hình AI mới đã thực sự ra đời. Khi sự ồn ào lắng xuống, chúng ta cần đặt ra câu hỏi cốt lõi nhất: Nó thực sự thông minh đến đâu?

Sau khi trò chuyện với các lập trình viên và nhà sáng lập ở Đông Nam Á và Mỹ, tôi nhận ra rằng GPT-5 đã không thể đáp ứng được những kỳ vọng lớn lao đó.

Một số người dùng nhận thấy có những cải tiến nhỏ giọt, trong khi những người khác thì chẳng thấy khác biệt gì. Và sau khi tự mình "thử lửa", tôi đã hiểu tại sao nhiều người lại cảm thấy hụt hẫng đến vậy.

Ấn tượng ban đầu không mấy tốt đẹp

Để có cái nhìn toàn cảnh, tôi đã tìm đến các lập trình viên và những người dùng chuyên sâu. Hầu hết đều không mấy ấn tượng, dù không ai nói rằng nó tệ.

Một nữ luật sư chia sẻ rằng cô phải cung cấp nhiều ngữ cảnh hơn hẳn trong câu lệnh để có được câu trả lời hữu ích. Cô nói: "Nếu không thì nó cũng chẳng khác mấy so với GPT-4".

Một nhà tư vấn khởi nghiệp ở Singapore mô tả GPT-5 là "nhanh và tập trung hơn", nhưng cũng nói thêm rằng nó "chẳng có gì xuất sắc hay đột phá cả".

Đối với những bài kiểm tra "khó nhằn" nhất về lập trình và suy luận, tôi đã tìm đến những chuyên gia thực thụ.

U-Zyn Chua, một giảng viên tại NUS-ISS và kỹ sư AI độc lập, kể rằng những ngày đầu trải nghiệm GPT-5 là "một mớ hỗn độn: phản hồi chậm, kết quả thiếu nhất quán, thậm chí những câu hỏi logic mà mô hình GPT-5 Thinking phải 'vật lộn' hơn hai phút mới trả lời sai – trong khi các model cũ hơn giải quyết trong nháy mắt".

"Tôi thực sự ngạc nhiên về sự thiếu chính xác trong logic của GPT-5 Thinking, nhất là với những câu hỏi chỉ có hai đáp án đúng hoặc sai," Chua nói.

Anh cho biết mô hình giờ đã ổn định hơn, câu trả lời mạch lạc hơn và tốc độ cải thiện rõ rệt. Dù vậy, anh vẫn chưa từ bỏ công cụ lập trình chính của mình là Claude.

"Để code, tôi vẫn trung thành với Claude. GPT-5 có thể dùng để rà soát lại code cũng ổn, như một bước kiểm tra bổ sung sau khi Claude đã làm xong việc," Chua nói thêm.

Đây chính là kiểu câu trả lời sẽ khiến Sam Altman (CEO OpenAI) phải cau mày. Đóng vai phụ cho đối thủ Claude của Anthropic chắc chắn không phải là vị trí mà GPT-5 được định sẵn.

Hai cộng hai bằng... mấy nhỉ?

Khả năng suy luận logic dường như chính là "gót chân Achilles" của GPT-5.

Amit Verma, trưởng bộ phận kỹ thuật và AI tại Neuron7.ai, còn có nhận xét khắt khe hơn. Ông đã thử thách GPT-5, Grok và Gemini với hai bài toán từ kỳ thi Olympic Toán năm 1999.

Với bài toán hình học, sau hai phút "suy nghĩ", GPT-5 tuyên bố bài toán này... không thể giải được. Trong khi đó, Grok và Gemini đều đưa ra đáp án sai.

"Bài toán này hoàn toàn có thể giải được," Verma nói. "Ngay cả khi tôi đã gần như 'mớm tận miệng' phương pháp, GPT-5 vẫn đi chệch hướng".

Với bài toán số nguyên tố, GPT-5 giải được trong 7 giây. Nhưng khi được yêu cầu tìm cách giải khác, nó quả quyết là không có – cho đến khi Verma đưa ra cách giải của mình, GPT-5 mới chịu thừa nhận rằng giải pháp đó thông minh hơn.

Đối với Verma, vấn đề nằm ở chỗ mọi người đang lầm tưởng rằng các mô hình ngôn ngữ lớn (LLM) thực sự "suy nghĩ".

"Thực chất, nó chỉ đang trả lời một câu hỏi thống kê: 'Dựa trên kho dữ liệu khổng lồ, từ tiếp theo có khả năng xuất hiện nhất là gì?'. Khi nó có vẻ suy luận tốt, chẳng qua nó chỉ đang bắt chước lại cấu trúc lập luận hoàn hảo mà nó đã học được," ông giải thích.

AI tự hành: Thất bại được báo trước?

Đối với tôi, bài kiểm tra quan trọng nhất là khả năng tự thực hiện các tác vụ của GPT-5. Đây là yếu tố sống còn cho sự phát triển của AI, và màn trình diễn mờ nhạt của nó thật đáng thất vọng.

Lời hứa về các agent tự hành mạnh mẽ hơn ư? Bằng chứng lại cho thấy điều ngược lại.

Tôi bắt đầu bằng một yêu cầu đơn giản: đặt giúp tôi một khách sạn ở Ipoh, Malaysia, với ngày đi, khoảng giá và vị trí cụ thể.

GPT-5 tìm được giá tốt nhất, nhưng rồi ngay lập tức thông báo rằng nó không thể đặt phòng. Thay vào đó, nó đưa ra một loạt hướng dẫn từng bước để... tôi tự làm. Thật là một sự "cải tiến" khó tin.

Tôi tiếp tục thử thách nó bằng việc tìm lời một bài hát cực hiếm từ năm 1991. GPT-5 tìm được một bản thu âm đang phát trên đài radio ở Mỹ, nhưng không tìm thấy lời. Đáng ngạc nhiên, nó đề nghị sẽ nghe và chép lại lời cho tôi.

Nhưng khi tôi đồng ý, nó lại nói không thể truy cập được. Nó yêu cầu tôi tự ghi âm lại, rồi tải lên. Sau khi tôi làm theo, nó vẫn không truy cập được và bảo tôi hãy tải lên một trang web khác rồi gửi link cho nó.

Đến đây thì tôi bỏ cuộc. Đây không phải là AI tự hành. Đây là một cuộc rượt đuổi vô ích.

Khả năng viết lách, sáng tạo

Chuyển sang các tác vụ sáng tạo, liệu người dùng có thấy sự khác biệt rõ rệt giữa GPT-5 và GPT-4o không?

Đầu tiên, tôi yêu cầu nó viết lại kiệt tác Thiên đường đã mất của John Milton bằng ngôn ngữ hiện đại. GPT-5 đã xử lý rất nhanh, loại bỏ cú pháp thế kỷ 17 rườm rà, tạo ra một phiên bản đơn giản và dễ hiểu hơn nhiều.

Tiếp theo, tôi thử thách khả năng tạo hình ảnh. Tôi yêu cầu GPT-5 và GPT-4o cùng vẽ một bức tranh dựa trên cùng một mô tả.

Kết quả là, hình ảnh của GPT-5 sống động, có chiều sâu và bớt "giả trân" hơn hẳn so với GPT-4o. Kỹ năng tạo hình ảnh tốt hơn: Ghi nhận.

Lời kết

GPT-5 thông minh hơn ở một vài khía cạnh: viết lách tốt hơn, tạo hình ảnh đẹp hơn, và nhanh hơn trong một số trường hợp. Nhưng các agent tự hành của nó không đáng tin cậy, khả năng "suy nghĩ" vẫn còn chập choạng, và với những công việc đòi hỏi sự chính xác cao như lập trình và suy luận, nhiều chuyên gia vẫn tin dùng các đối thủ khác.

OpenAI đã hứa hẹn một bước đại nhảy vọt. Nhưng thứ chúng ta nhận được chỉ như một bước tiến nhỏ - và đôi khi, là một cú vấp ngã.