Khoa học

AI hiểu tiếng Việt tới đâu, kiểm thử qua công cụ này là biết ngay

Zalo AI và Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) vừa giới thiệu phiên bản mới của VMLU (Vietnamese Multitask Language Understanding) - bộ tiêu chuẩn đánh giá năng lực tiếng Việt của các mô hình ngôn ngữ lớn (LLM). Động thái này nhằm thúc đẩy cộng đồng AI hoàn thiện các mô hình LLM bậc cao, hướng tới mục tiêu xây dựng AI có chủ quyền cho Việt Nam.

AI hiểu tiếng Việt tới đâu, kiểm thử qua công cụ này là biết ngay - 1

Được giới thiệu lần đầu tiên vào năm 2023, VMLU đã trở thành bộ tiêu chuẩn “Make in Vietnam” tiên phong cho nhiều nhóm nghiên cứu trong nước cải tiến chất lượng LLM tiếng Việt. Trong năm 2024, VMLU đã công bố 45 LLM trên bảng xếp hạng, tiếp nhận yêu cầu đánh giá của hơn 155 tổ chức và cá nhân, tổng kết 691 lượt tải bộ tiêu chuẩn đánh giá và 3.729 lượt đánh giá LLM từ nền tảng.

Cụ thể hơn, bộ tiêu chuẩn đã được nhiều tổ chức trong và ngoài nước sử dụng, như VinBigData, VNPT AI, Viettel Solutions, Trường ĐH Bách Khoa - ĐHQG TP.HCM, UONLP x Ontocord - Trường ĐH Oregon (Hoa Kỳ), DAMO Academy - Alibaba Group, SDSRV teams - Samsung,…

Trong bối cảnh các mô hình AI ngày càng trở nên thông minh, phiên bản VMLU được nâng cấp để đánh giá sâu hơn những năng lực phức tạp. Cụ thể, bộ tiêu chuẩn mở rộng đánh giá 3 kỹ năng cốt lõi của một LLM hiện đại, bao gồm:

- Đọc hiểu (ViSQuAD): 3.310 câu hỏi đánh giá khả năng hiểu sâu văn bản, xử lý các câu hỏi phức tạp dựa trên đặc thù ngôn ngữ và ngữ cảnh tiếng Việt.

- Suy luận (ViDrop): 3.090 câu hỏi thách thức khả năng suy luận logic của LLM qua các tác vụ như so sánh, đếm, và tính toán số học.

- Tương tác (ViDialog): 210 hội thoại đánh giá sự mạch lạc, khả năng hiểu ngữ cảnh và vận dụng kiến thức đa lĩnh vực (lịch sử, địa lý, logic) trong đối thoại.

Điểm nổi bật của bộ tiêu chuẩn mới là phương pháp đánh giá tiên tiến, kết hợp đa dạng hình thức từ trắc nghiệm, câu hỏi mở đến yêu cầu suy luận từng bước. Đặc biệt, VMLU áp dụng phương pháp “LLM as a judge” (dùng LLM để đánh giá LLM) - một xu hướng đang được cộng đồng AI toàn cầu áp dụng để có kết quả khách quan và quy mô hơn.

Với 10.880 câu hỏi trắc nghiệm thuộc 58 chủ đề được chia theo nhiều cấp độ, phiên bản 2023 đã tập trung vào đánh giá kiến thức nền tảng của LLM. Trong khi đó, bộ tiêu chuẩn mới tiến một bước xa hơn, đo lường khả năng suy luận và tương tác của LLM trong những ngữ cảnh thực tế. Sự nâng cấp này không chỉ giúp các nhà phát triển đánh giá mô hình toàn diện hơn mà còn thúc đẩy LLM tạo ra những giá trị hữu ích cho người dùng cuối.

Hiện bộ tiêu chuẩn mới đã được ra mắt trên website VMLU https://vmlu.ai/ để các cá nhân, và nhóm nghiên cứu thực hiện đánh giá mô hình của mình.

Các tin khác

DNA tồn tại được bao nhiêu triệu năm?

DNA tồn tại được bao nhiêu triệu năm?

DNA thường được coi là “chìa khóa” trong y học, khảo cổ học và pháp y, nhưng có phải bất kỳ mẫu vật nào cũng có thể cung cấp DNA được không?
Ai đã phát minh ra bóng đèn điện?

Ai đã phát minh ra bóng đèn điện?

Đèn điện là một trong những phát minh quan trọng nhất trong lịch sử. Nó an toàn hơn nhiều so với các nguồn sáng trước đó và giúp con người hoạt động được nhiều hơn sau khi Mặt Trời lặn.
AI là nguyên nhân mới gây ra mất điện

AI là nguyên nhân mới gây ra mất điện

Ngoài các nguyên nhân thông thường gây mất điện, gần đây một yếu tố mới được phát hiện cũng đang gây ra nhiều sự cố mất điện hơn. Đó chính là trí tuệ nhân tạo.
Cuộc đua khai thác trên Mặt Trăng

Cuộc đua khai thác trên Mặt Trăng

Trong bối cảnh thế giới đối mặt nhu cầu năng lượng sạch, công nghệ tiên tiến và áp lực giảm phát thải, helium-3 được xem như “mỏ vàng” ngoài không gian.
Đàn ông ít ăn rau vì sợ… bớt đàn ông?

Đàn ông ít ăn rau vì sợ… bớt đàn ông?

Một nghiên cứu xã hội học tại Anh đang gây tranh luận khi cho thấy nhiều nam giới vẫn gắn việc ăn thịt với 'bản lĩnh đàn ông', trong khi coi rau củ hay thực phẩm thuần chay là kém nam tính.