Bộ dữ liệu tiếng Việt huấn luyện AI tương đương ‘sinh viên

Bộ dữ liệu tiếng Việt huấn luyện AI tương đương ‘sinh viên tốt nghiệp loại giỏi’

Dự án ViGen vừa giới thiệu bộ dữ liệu mở tiền huấn luyện (pre-training) tiếng Việt, bao phủ kiến thức từ mầm non tới đại học, giúp huấn luyện các mô hình AI đạt năng lực tương đương 'một sinh viên tốt nghiệp đại học giỏi'.

Trong bối cảnh trí tuệ nhân tạo (AI) đang bùng nổ trên toàn cầu, Việt Nam vừa chính thức giới thiệu phiên bản thử nghiệm đầu tiên của nền tảng ViGen - một nỗ lực hợp tác giữa Trung tâm Đổi mới Sáng tạo Quốc gia (NIC), tập đoàn Meta và tổ chức AI for Vietnam.

Dự án này khởi động từ tháng 3/2025 và đã nhanh chóng thu hút sự đồng hành của nhiều đối tác lớn như NVIDIA, Viettel, Viện Công nghệ thông tin thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Đại học Bách khoa, Học viện Bưu chính Viễn thông.

ViGen là bước đi cụ thể nhằm thực hiện Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng AI đến năm 2030. Mục đích của dự án là tạo ra bộ dữ liệu tiếng Việt mã nguồn mở, chất lượng cao cho các mô hình ngôn ngữ lớn (LLM), giúp các mô hình AI hiểu rõ hơn về ngôn ngữ, văn hóa và xã hội Việt Nam.

W-210 Meta Vigen.jpg — Primer 1.0 là bộ dữ liệu tiền huấn luyện tiếng Việt mở lớn nhất từ trước đến nay. Ảnh: Du Lam

Ngay trong giai đoạn đầu, ViGen đã đạt 3 dấu mốc quan trọng, bao gồm Primer 1.0, bộ dữ liệu tiền huấn luyện tiếng Việt mở lớn nhất từ trước đến nay, gồm 50 tỷ token được chọn lọc kỹ lưỡng từ hơn 150 tỷ token thô.

Bộ dữ liệu bao phủ từ kiến thức mầm non đến đại học, giúp huấn luyện các mô hình AI đạt năng lực tương đương “một sinh viên tốt nghiệp đại học loại giỏi, vừa có kiến thức, vừa có năng lực tư duy”.

ViGen cũng giới thiệu 5 khung đánh giá (benchmark). Với hơn 10.000 mẫu kiểm tra, các khung này đo năng lực AI ở nhiều mặt như kiến thức, tư duy logic, lập trình, khả năng hiểu văn hóa và ngôn ngữ Việt.

Cuối cùng là nền tảng ViGen phiên bản beta. Đây là một không gian mở, cho phép người dân đăng nhập bằng VNeID để đóng góp dữ liệu (văn bản, giọng nói, video…), đồng thời tích hợp cơ chế “thi đua - khen thưởng” để khuyến khích cộng đồng tham gia.

Ông Trần Việt Hùng - nhà sáng lập AI for Vietnam - nhấn mạnh: “Nếu xây dựng những bộ dữ liệu này từ đầu, chúng ta sẽ rất chậm so với các nước đã đầu tư rất nhiều và đi trước”.

Do đó, dự án lựa chọn cách tiếp cận hoàn toàn mới: toàn dân cùng xây dựng bộ dữ liệu này. “Chúng ta có 100 triệu người nói tiếng Việt, khi cùng nhau đóng góp, tốc độ sẽ rất nhanh và đây là một sáng kiến đầu tiên trên thế giới”.

Về phía Meta, Giám đốc Chính sách Công và Sản phẩm, Khu vực Châu Á - Thái Bình Dương Philip Chua cho rằng: “Việc ra mắt nền tảng ViGen là một cột mốc quan trọng, thể hiện niềm tin rằng AI mã nguồn mở có thể giúp các nhà nghiên cứu, doanh nghiệp Việt xây dựng giải pháp thực sự am hiểu văn hóa và giá trị Việt Nam”.

Ông chia sẻ, dữ liệu mở không chỉ phục vụ nghiên cứu trong nước mà còn tạo điều kiện để Việt Nam góp tiếng nói trên bản đồ AI toàn cầu.

Phó Giám đốc NIC Võ Xuân Hoài, cũng khẳng định: “Nền tảng ViGen thể hiện rõ vai trò của hợp tác công – tư trong việc thực hiện mục tiêu khoa học, công nghệ và đổi mới sáng tạo quốc gia. Chúng ta đang xây dựng không chỉ công nghệ, mà còn nền tảng cho tăng trưởng bền vững dựa trên AI”.

Điểm đặc biệt của ViGen là tính mở và tính cộng đồng. Người dân có thể trực tiếp tham gia bằng cách tải dữ liệu lên hệ thống. Dữ liệu sau đó được xử lý và lọc để đưa vào bộ huấn luyện.

Người đóng góp được ghi nhận công sức, thậm chí có thể đổi thưởng. Đây là cách tiếp cận mới, biến việc “xây dữ liệu” khô khan thành một hoạt động có tính tương tác và vui vẻ.

Theo lộ trình ba năm, ViGen sẽ tiếp tục mở rộng: năm 2026 bổ sung bộ dữ liệu tinh chỉnh, công cụ hỗ trợ lập trình viên và tổ chức các cuộc thi AI cấp quốc gia; đến năm 2027 sẽ cập nhật dữ liệu và phát triển các công cụ nâng cao để ứng dụng AI sâu rộng trong doanh nghiệp.

Với sự tham gia của cả doanh nghiệp, viện nghiên cứu, trường đại học và người dân, ViGen được kỳ vọng sẽ biến AI thành công cụ thiết thực cho từng người Việt.

Như lời ông Philip Chua, “Chúng tôi hy vọng đây sẽ là nền tảng quan trọng cho hệ sinh thái AI Việt Nam. Dự án ViGen sẽ thúc đẩy hợp tác, hỗ trợ phát triển các giải pháp dành cho Việt Nam, do Việt Nam dẫn dắt và thúc đẩy tăng trưởng kinh tế cho khu vực”.

Bộ dữ liệu tiếng Việt huấn luyện AI tương đương ‘sinh viên tốt nghiệp loại giỏi’

Tin xem nhiều

Đẳng cấp CEO Xiaomi: quảng cáo bán xe như bán nhà, mua ô tô cứ ngỡ sở hữu bất động sản

Chi phí giá vốn tăng gần 60%, Vietnam Airlines báo lỗ sau thuế hơn 600 tỷ đồng trong quý 2/2026

Động lực tăng trưởng dài hạn của doanh nghiệp Việt trên TMĐT

Lãi kỷ lục, "kỳ lân" VNG tiếp tục tăng lương cho nhân viên dù chi phí lao động bình quân đã hơn 75 triệu đồng/tháng

TRỰC TIẾP Cập nhật KQKD quý II ngành bất động sản: Novaland đảo chiều, Kinh Bắc lao dốc, nhiều doanh nghiệp báo lãi lớn

Nóng: Hàng nghìn người kêu gọi tước giải thưởng danh giá của Lionel Messi sau vài tuần được vinh danh?

Đổ xô săn vé máy bay đến tỉnh lớn nhất Việt Nam, chuyện gì đang xảy ra?

AI của Anthropic bất ngờ "hack" 3 công ty thật: Sự cố khiến cả ngành AI phải nhìn lại cuộc đua tạo ra các tác nhân thông minh

Giá vàng liên tục tăng mạnh

Mỗi ngày tại nước Anh có 2 quán pub đóng cửa: Gen Z không bỏ bia, họ chỉ chuyển tiền sang đường chạy, sân padel và "rave cà phê"

Các tin khác