Tập dữ liệu AI tiếng Việt lọt top thịnh hành toàn cầu

Thứ hạng này được xác định dựa trên số lượt tải về và tương tác, phản ánh sự quan tâm lớn của cộng đồng công nghệ quốc tế đối với các nguồn dữ liệu số bản địa.

Tài nguyên tiếng Việt nói trên không phải là một mô hình ngôn ngữ lớn, mà đóng vai trò là một tập dữ liệu nền (nguồn dữ liệu gốc) phục vụ quá trình huấn luyện và tinh chỉnh AI. Khác với các kho thông tin truyền thống, tập dữ liệu được xây dựng dưới dạng các "hồ sơ nhân vật" (persona) tiếng Việt để mô phỏng sự đa dạng của người dân trong đời sống, học tập và công việc. Toàn bộ hệ thống là dữ liệu tổng hợp do AI tạo ra dựa trên các phân bố thống kê xã hội và phương pháp kiểm chứng thực tế, hoàn toàn không phải dữ liệu của người thật, giúp đảm bảo tính bảo mật thông tin.

Tập dữ liệu AI tiếng Việt lọt top thịnh hành toàn cầu - Ảnh 1. — Sự hiện diện của Nemotron-Personas-Vietnam trong nhóm thịnh hành trên Hugging Face cho thấy dữ liệu bản địa đang ngày càng có vai trò quan trọng trong phát triển AI

Phiên bản phát hành công khai của tập dữ liệu bao gồm 100.000 bản ghi, tương ứng với 900.000 hồ sơ nhân vật tiếng Việt, đạt tổng dung lượng 118 triệu token. Mỗi hồ sơ được mô tả chi tiết qua nhiều trường thông tin như nghề nghiệp, kỹ năng, sở thích, độ tuổi, học vấn, tình trạng hôn nhân và khu vực cư trú. Dữ liệu địa lý bao phủ 6 tỉnh, thành phố lớn gồm Hà Nội, TP.HCM, Hải Phòng, Đà Nẵng, Cần Thơ và Đồng Nai (theo địa giới hành chính mới nhất). Quy mô này cho phép các nhà phát triển dễ dàng lọc, phân nhóm để xây dựng các kịch bản thử nghiệm AI phù hợp với từng ngành nghề và bối cảnh ứng dụng tại Việt Nam.

Hiện nay, phần lớn các mô hình AI phổ biến đều được huấn luyện chủ yếu trên dữ liệu tiếng Anh và bối cảnh phương Tây, dẫn đến việc thiếu hiểu biết sâu sắc về văn hóa, vùng miền và thói quen giao tiếp của người Việt. Do đó, việc phát hành mã nguồn mở của tập dữ liệu dưới dạng cho phép sử dụng thương mại lẫn phi thương mại được kỳ vọng sẽ giải quyết bài toán "khát" dữ liệu bản địa. Đây là cơ sở để các kỹ sư, startup và doanh nghiệp trong nước xây dựng các hệ thống AI có chủ quyền, giảm thiểu tình trạng thiên lệch thông tin, giúp công nghệ không chỉ hiểu ngôn ngữ mà còn hiểu sâu sắc bối cảnh thực tế của xã hội Việt Nam.

PGS-TS Ngô Xuân Bách, Giám đốc Khối sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security (tập đoàn FPT) cho biết: "AI có chủ quyền phải được xây dựng từ nền tảng để phản ánh ngôn ngữ, văn hóa và thực tế kinh tế địa phương. Tập dữ liệu Nemotron-Personas-Vietnam giúp các nhà phát triển AI địa phương dễ dàng tiếp cận nguồn lực cần thiết để xây dựng giải pháp AI dành riêng cho người Việt và có thể mở rộng ra khu vực".

Trong hợp tác này, NVIDIA đóng góp khung mô hình mở, thư viện dữ liệu tổng hợp NeMo Data Designer và phương pháp Nemotron-Personas. Đây là cách tiếp cận có cấu trúc để tạo ra các tập dữ liệu tổng hợp quy mô lớn, có khả năng phản ánh các đặc điểm nhân khẩu học, địa lý và bối cảnh sử dụng của từng quốc gia. FPT đóng góp chuyên môn, hiểu biết về bản địa, năng lực xác thực dữ liệu, hạ tầng dữ liệu và năng lực nghiên cứu AI.

//Chèn ads giữa bài (runinit = window.runinit || []).push(function () { //Nếu k chạy ads thì return if (typeof _chkPrLink != 'undefined' && _chkPrLink) return; var mutexAds = '<zone id="l2srqb41"></zone>'; var content = $('[data-role="content"]'); if (content.length > 0) { var childNodes = content[0].childNodes; for (i = 0; i < childNodes.length; i++) { var childNode = childNodes[i]; var isPhotoOrVideo = false; if (childNode.nodeName.toLowerCase() == 'div') { // kiem tra xem co la anh khong? var type = $(childNode).attr('class') + ''; if (type.indexOf('VCSortableInPreviewMode') >= 0) { isPhotoOrVideo = true; } } try { if ((i >= childNodes.length / 2 - 1) && (i < childNodes.length / 2) && !isPhotoOrVideo) { if (i <= childNodes.length - 3) { childNode.after(htmlToElement(mutexAds)); arfAsync.push("l2srqb41"); } break; } } catch (e) { } } } }); function htmlToElement(html) { var template = document.createElement('template'); template.innerHTML = html; return template.content.firstChild; }

if (window.pageSettings && pageSettings.allow3rd && (typeof window._isAdsHidden === 'undefined' || !window._isAdsHidden)) { if (!laNuocNgoai) { (function (w, q) { w[q] = w[q] || []; w[q].push(["_mgc.load"]); })(window, "_mgq"); } } (function() { if (!(window.pageSettings && pageSettings.allow3rd && (typeof window._isAdsHidden === 'undefined' || !window._isAdsHidden))) return; if (typeof window.laNuocNgoai === 'undefined' || !window.laNuocNgoai) return; // chỉ chạy khi laNuocNgoai true var containerSelector = 'div.detail-cmain'; var root = document.querySelector(containerSelector); if (!root) return; // Thu thập figure + p (p không nằm trong figure) var figures = Array.from(root.querySelectorAll('figure')); var paragraphs = Array.from(root.querySelectorAll('p')).filter(function(p){ return !p.closest('figure'); }); var elements = figures.concat(paragraphs); // NodeList vốn đã theo DOM order => không cần sort if (!elements.length) return; var target = elements[Math.floor(elements.length / 2)]; // giữa bài if (!target || !target.parentNode) return; var newDiv = document.createElement('div'); newDiv.id = 'taboola-mid-article-widget'; target.parentNode.insertBefore(newDiv, target.nextSibling); window._taboola = window._taboola || []; window._taboola.push({ mode: 'thumbnails-4x1', container: 'taboola-mid-article-widget', placement: 'Mid Article Widget', target_type: 'mix' }); })();