Công nghệ

Bộ dữ liệu tiếng Việt huấn luyện AI tương đương ‘sinh viên tốt nghiệp loại giỏi’

Trong bối cảnh trí tuệ nhân tạo (AI) đang bùng nổ trên toàn cầu, Việt Nam vừa chính thức giới thiệu phiên bản thử nghiệm đầu tiên của nền tảng ViGen - một nỗ lực hợp tác giữa Trung tâm Đổi mới Sáng tạo Quốc gia (NIC), tập đoàn Meta và tổ chức AI for Vietnam.

Dự án này khởi động từ tháng 3/2025 và đã nhanh chóng thu hút sự đồng hành của nhiều đối tác lớn như NVIDIA, Viettel, Viện Công nghệ thông tin thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Đại học Bách khoa, Học viện Bưu chính Viễn thông.

ViGen là bước đi cụ thể nhằm thực hiện Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng AI đến năm 2030. Mục đích của dự án là tạo ra bộ dữ liệu tiếng Việt mã nguồn mở, chất lượng cao cho các mô hình ngôn ngữ lớn (LLM), giúp các mô hình AI hiểu rõ hơn về ngôn ngữ, văn hóa và xã hội Việt Nam.

W-210 Meta Vigen.jpg
Primer 1.0 là bộ dữ liệu tiền huấn luyện tiếng Việt mở lớn nhất từ trước đến nay. Ảnh: Du Lam

Ngay trong giai đoạn đầu, ViGen đã đạt 3 dấu mốc quan trọng, bao gồm Primer 1.0, bộ dữ liệu tiền huấn luyện tiếng Việt mở lớn nhất từ trước đến nay, gồm 50 tỷ token được chọn lọc kỹ lưỡng từ hơn 150 tỷ token thô.

Bộ dữ liệu bao phủ từ kiến thức mầm non đến đại học, giúp huấn luyện các mô hình AI đạt năng lực tương đương “một sinh viên tốt nghiệp đại học loại giỏi, vừa có kiến thức, vừa có năng lực tư duy”.

ViGen cũng giới thiệu 5 khung đánh giá (benchmark). Với hơn 10.000 mẫu kiểm tra, các khung này đo năng lực AI ở nhiều mặt như kiến thức, tư duy logic, lập trình, khả năng hiểu văn hóa và ngôn ngữ Việt.

Cuối cùng là nền tảng ViGen phiên bản beta. Đây là một không gian mở, cho phép người dân đăng nhập bằng VNeID để đóng góp dữ liệu (văn bản, giọng nói, video…), đồng thời tích hợp cơ chế “thi đua - khen thưởng” để khuyến khích cộng đồng tham gia.

Ông Trần Việt Hùng - nhà sáng lập AI for Vietnam - nhấn mạnh: “Nếu xây dựng những bộ dữ liệu này từ đầu, chúng ta sẽ rất chậm so với các nước đã đầu tư rất nhiều và đi trước”.

Do đó, dự án lựa chọn cách tiếp cận hoàn toàn mới: toàn dân cùng xây dựng bộ dữ liệu này. “Chúng ta có 100 triệu người nói tiếng Việt, khi cùng nhau đóng góp, tốc độ sẽ rất nhanh và đây là một sáng kiến đầu tiên trên thế giới”.

Về phía Meta, Giám đốc Chính sách Công và Sản phẩm, Khu vực Châu Á - Thái Bình Dương Philip Chua cho rằng: “Việc ra mắt nền tảng ViGen là một cột mốc quan trọng, thể hiện niềm tin rằng AI mã nguồn mở có thể giúp các nhà nghiên cứu, doanh nghiệp Việt xây dựng giải pháp thực sự am hiểu văn hóa và giá trị Việt Nam”.

Ông chia sẻ, dữ liệu mở không chỉ phục vụ nghiên cứu trong nước mà còn tạo điều kiện để Việt Nam góp tiếng nói trên bản đồ AI toàn cầu.

Phó Giám đốc NIC Võ Xuân Hoài, cũng khẳng định: “Nền tảng ViGen thể hiện rõ vai trò của hợp tác công – tư trong việc thực hiện mục tiêu khoa học, công nghệ và đổi mới sáng tạo quốc gia. Chúng ta đang xây dựng không chỉ công nghệ, mà còn nền tảng cho tăng trưởng bền vững dựa trên AI”.

Điểm đặc biệt của ViGen là tính mở và tính cộng đồng. Người dân có thể trực tiếp tham gia bằng cách tải dữ liệu lên hệ thống. Dữ liệu sau đó được xử lý và lọc để đưa vào bộ huấn luyện.

Người đóng góp được ghi nhận công sức, thậm chí có thể đổi thưởng. Đây là cách tiếp cận mới, biến việc “xây dữ liệu” khô khan thành một hoạt động có tính tương tác và vui vẻ.

Theo lộ trình ba năm, ViGen sẽ tiếp tục mở rộng: năm 2026 bổ sung bộ dữ liệu tinh chỉnh, công cụ hỗ trợ lập trình viên và tổ chức các cuộc thi AI cấp quốc gia; đến năm 2027 sẽ cập nhật dữ liệu và phát triển các công cụ nâng cao để ứng dụng AI sâu rộng trong doanh nghiệp.

Với sự tham gia của cả doanh nghiệp, viện nghiên cứu, trường đại học và người dân, ViGen được kỳ vọng sẽ biến AI thành công cụ thiết thực cho từng người Việt.

Như lời ông Philip Chua, “Chúng tôi hy vọng đây sẽ là nền tảng quan trọng cho hệ sinh thái AI Việt Nam. Dự án ViGen sẽ thúc đẩy hợp tác, hỗ trợ phát triển các giải pháp dành cho Việt Nam, do Việt Nam dẫn dắt và thúc đẩy tăng trưởng kinh tế cho khu vực”.

Các tin khác

Thói quen giúp huyền thoại ngành thực phẩm toàn cầu trụ vững trên thương trường: 60 năm làm việc luôn đến sớm 15 phút!

Trong suốt gần sáu thập kỷ điều hành Gellert Global Group - một trong những tập đoàn thực phẩm hàng đầu nước Mỹ, George Gellert, nay 87 tuổi, vẫn kiên định với nguyên tắc tưởng chừng đơn giản nhưng lại quyết định sự bền vững: "Đúng giờ là sống còn".

HOSE công bố 63 mã không được cấp margin trong quý IV/2025

Ngày 2/10, Sở Giao dịch Chứng khoán TP HCM (HOSE) công bố danh sách chứng khoán không đủ điều kiện giao dịch ký quỹ (margin) trong quý IV/2025, gồm 63 cổ phiếu. Con số này giảm so với 74 mã tại thông báo đầu tháng 9.

Làm 2-3 công ty cùng lúc, đóng BHXH ra sao để không bị thiệt?

Người lao động khi ký hợp đồng lao động có thời hạn từ đủ 01 tháng sẽ phải trích một phần tiền lương để đóng bảo hiểm xã hội (BHXH) thông qua công ty nơi mình làm việc. Vậy nếu làm việc cùng lúc nhiều công ty, người lao động phải đóng BHXH thế nào?

Miền Bắc oi nóng trước khi đón mưa bão

Dự báo trong hai ngày 3 - 4/10, khu vực miền Bắc trời oi nóng, ít mưa, nhiệt độ cao nhất 32 - 34 độ. Từ đêm 5/10, miền Bắc có thể đón đợt mưa lớn diện rộng do ảnh hưởng của bão Matmo. Nền nhiệt cao ngay trước bão có thể gây ra dông lốc mạnh trước khi bão đổ bộ.