Công nghệ

Vì sao "ông lớn" công nghệ thế giới không mặn mà với tiếng Việt?

Để có được cơ sở dữ liệu toàn diện, phục vụ cho sự phát triển chung của nền kinh tế, cần có sự tham gia của khu vực nhà nước và tư nhân. Meta đang tham gia vào quá trình này với dự án bộ dữ liệu tiếng Việt ViGen.

Theo bà Nguyễn Thu Thảo, Giám đốc chính sách công phụ trách thị trường Việt Nam, Lào và Campuchia của Meta, cuối năm ngoái, Giáo sư Yann LeCun – Phó Chủ tịch kiêm nhà khoa học trưởng về AI của Meta - tới Việt Nam và được gặp Bộ trưởng Bộ KH&CN Nguyễn Mạnh Hùng. Bộ trưởng đã đề nghị Meta hỗ trợ công nghệ, tài chính và nhân lực để phát triển hệ sinh thái, tạo điều kiện cho doanh nghiệp Việt Nam, đặc biệt là doanh nghiệp công nghệ, có thể sử dụng nền tảng dữ liệu tiếng Việt.

IMG_3045.jpg
Bà Nguyễn Thu Thảo, Giám đốc chính sách công phụ trách thị trường Việt Nam, Lào và Campuchia của Meta, chia sẻ về dự án ViGen. Ảnh: Văn Tuyến

Dự án ViGen ra đời từ ý tưởng này và được công bố vào tháng 3. ViGen được tổ chức bởi Trung tâm Đổi mới sáng tạo Quốc gia (NIC) phối hợp với Meta, cùng sự tham gia của các đối tác như NVIDIA, Viettel và Quỹ AI for Vietnam.

Mục tiêu chính của dự án là giải quyết vấn đề thiếu hụt dữ liệu tiếng Việt chất lượng cao cho việc đào tạo AI, từ đó giúp các mô hình AI xử lý tiếng Việt một cách tự nhiên hơn.

“Tiếng Việt là một ngôn ngữ khó, được đánh giá là ít tài nguyên, do vậy chưa thuộc nhóm ngôn ngữ được các tập đoàn công nghệ lớn ưu tiên đầu tư”, bà Thảo thừa nhận. “Chưa nền tảng nào có được bộ dữ liệu tiếng Việt đầy đủ, toàn diện, chất lượng cao, phản ánh được lịch sử, văn hóa, vẻ đẹp ngôn ngữ, đặc điểm xã hội và cả hệ giá trị đạo đức của Việt Nam”.

Vì lý do này, các ứng dụng AI của những hãng công nghệ như Meta, Google xử lý tiếng Việt thiếu mượt mà và tự nhiên. Theo các chuyên gia, nhiều chatbot AI hỗ trợ tiếng Việt nhưng trong các mô hình ngôn ngữ lớn phía sau, tài nguyên ngôn ngữ tiếng Việt chỉ chiếm dưới 1%.

Dự án ViGen muốn hướng đến giải quyết vấn đề này trong thời gian tới. Lộ trình 3 năm (2025 – 2027) tập trung vào phát triển bộ dữ liệu, công cụ cho nhà phát triển và doanh nghiệp, xây dựng cộng đồng, tiêu chuẩn đánh giá và tổ chức các cuộc thi Hackathons.

Vẫn theo bà Thảo, dự kiến tháng 10, sẽ công bố bản beta của bộ cơ sở dữ liệu này. Bà hy vọng đây sẽ là nền tảng quan trọng để Việt Nam phát triển ứng dụng AI tiếng Việt, phục vụ hơn 100 triệu người dân trong những năm tới.

Trước đó, tại lễ công bố Thách thức Đổi mới sáng tạo 2025, ông Trần Việt Hùng, nhà đồng sáng lập tổ chức AI for Vietnam, cho biết sứ mệnh của ViGen là “làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi, từ đó 'mở khóa tiềm năng các ứng dụng trí tuệ nhân tạo tại Việt Nam'”.

Các tin khác

Apple đưa Việt Nam vào nhóm mở bán sớm iPhone 17

Apple đưa Việt Nam vào nhóm mở bán sớm iPhone 17

Lần đầu tiên Việt Nam nằm trong nhóm thị trường trọng điểm mở bán iPhone mới cùng Mỹ, Singapore, Nhật Bản. Tuy nhiên, mức giá của iPhone 17 lại tăng mạnh, khiến nhiều người dùng e ngại.
Chỉ một sơ suất với private key, toàn bộ gia tài tiền số có thể bay màu: Đoạn mã này có quyền năng như thế nào?

Chỉ một sơ suất với private key, toàn bộ gia tài tiền số có thể bay màu: Đoạn mã này có quyền năng như thế nào?

Trong thế giới tiền mã hóa như Bitcoin, Ethereum, người dùng thường nghe nhắc đến cụm từ “Private Key”, hay khóa riêng tư. Nghe thì có vẻ kỹ thuật và khó hiểu, nhưng thực chất, bạn có thể hình dung private key giống như chiếc chìa khóa két sắt: Chỉ có bạn giữ nó, và nếu để rơi vào tay kẻ khác, toàn bộ tài sản bên trong sẽ mất trắng.
Giải mã sự khác nhau giữa tài sản số và tài sản mã hóa

Giải mã sự khác nhau giữa tài sản số và tài sản mã hóa

Trong kỷ nguyên số, khái niệm tài sản số và tài sản mã hóa thường bị nhầm lẫn. Một bên là dữ liệu kỹ thuật số quen thuộc, bên kia là tài sản gắn với blockchain và tính duy nhất. Hiểu rõ sự khác biệt sẽ giúp chúng ta nắm bắt đúng bản chất của nền kinh tế số.