Công nghệ

Vì sao "ông lớn" công nghệ thế giới không mặn mà với tiếng Việt?

Để có được cơ sở dữ liệu toàn diện, phục vụ cho sự phát triển chung của nền kinh tế, cần có sự tham gia của khu vực nhà nước và tư nhân. Meta đang tham gia vào quá trình này với dự án bộ dữ liệu tiếng Việt ViGen.

Theo bà Nguyễn Thu Thảo, Giám đốc chính sách công phụ trách thị trường Việt Nam, Lào và Campuchia của Meta, cuối năm ngoái, Giáo sư Yann LeCun – Phó Chủ tịch kiêm nhà khoa học trưởng về AI của Meta - tới Việt Nam và được gặp Bộ trưởng Bộ KH&CN Nguyễn Mạnh Hùng. Bộ trưởng đã đề nghị Meta hỗ trợ công nghệ, tài chính và nhân lực để phát triển hệ sinh thái, tạo điều kiện cho doanh nghiệp Việt Nam, đặc biệt là doanh nghiệp công nghệ, có thể sử dụng nền tảng dữ liệu tiếng Việt.

IMG_3045.jpg
Bà Nguyễn Thu Thảo, Giám đốc chính sách công phụ trách thị trường Việt Nam, Lào và Campuchia của Meta, chia sẻ về dự án ViGen. Ảnh: Văn Tuyến

Dự án ViGen ra đời từ ý tưởng này và được công bố vào tháng 3. ViGen được tổ chức bởi Trung tâm Đổi mới sáng tạo Quốc gia (NIC) phối hợp với Meta, cùng sự tham gia của các đối tác như NVIDIA, Viettel và Quỹ AI for Vietnam.

Mục tiêu chính của dự án là giải quyết vấn đề thiếu hụt dữ liệu tiếng Việt chất lượng cao cho việc đào tạo AI, từ đó giúp các mô hình AI xử lý tiếng Việt một cách tự nhiên hơn.

“Tiếng Việt là một ngôn ngữ khó, được đánh giá là ít tài nguyên, do vậy chưa thuộc nhóm ngôn ngữ được các tập đoàn công nghệ lớn ưu tiên đầu tư”, bà Thảo thừa nhận. “Chưa nền tảng nào có được bộ dữ liệu tiếng Việt đầy đủ, toàn diện, chất lượng cao, phản ánh được lịch sử, văn hóa, vẻ đẹp ngôn ngữ, đặc điểm xã hội và cả hệ giá trị đạo đức của Việt Nam”.

Vì lý do này, các ứng dụng AI của những hãng công nghệ như Meta, Google xử lý tiếng Việt thiếu mượt mà và tự nhiên. Theo các chuyên gia, nhiều chatbot AI hỗ trợ tiếng Việt nhưng trong các mô hình ngôn ngữ lớn phía sau, tài nguyên ngôn ngữ tiếng Việt chỉ chiếm dưới 1%.

Dự án ViGen muốn hướng đến giải quyết vấn đề này trong thời gian tới. Lộ trình 3 năm (2025 – 2027) tập trung vào phát triển bộ dữ liệu, công cụ cho nhà phát triển và doanh nghiệp, xây dựng cộng đồng, tiêu chuẩn đánh giá và tổ chức các cuộc thi Hackathons.

Vẫn theo bà Thảo, dự kiến tháng 10, sẽ công bố bản beta của bộ cơ sở dữ liệu này. Bà hy vọng đây sẽ là nền tảng quan trọng để Việt Nam phát triển ứng dụng AI tiếng Việt, phục vụ hơn 100 triệu người dân trong những năm tới.

Trước đó, tại lễ công bố Thách thức Đổi mới sáng tạo 2025, ông Trần Việt Hùng, nhà đồng sáng lập tổ chức AI for Vietnam, cho biết sứ mệnh của ViGen là “làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi, từ đó 'mở khóa tiềm năng các ứng dụng trí tuệ nhân tạo tại Việt Nam'”.

Các tin khác

Kiến nghị hồi tố tiền chuyển mục đích sử dụng đất với người dân nộp đủ từ 1/8/2024

Các mức thu tiền sử dụng đất khi người dân chuyển mục đích sử dụng đất sang đất ở theo dự thảo Nghị quyết mới nhất do Bộ Tài chính đề xuất là giải pháp hợp pháp, đúng thẩm quyền của Chính phủ và cấp thiết. Tuy nhiên, vấn đề lớn nhất sẽ nằm ở điều khoản chuyển tiếp của Nghị quyết này.

Ai đứng sau vụ hack Trung tâm tín dụng Quốc gia?

Trung tâm Ứng cứu khẩn cấp không gian mạng Việt Nam (VNCERT) chiều qua đã thông báo về sự cố lộ dữ liệu cá nhân của Trung tâm Thông tin tín dụng quốc gia (CIC). Các đơn vị chức năng của Ngân hàng Nhà nước đang xác minh thông tin về sự cố, triển khai các biện pháp nghiệp vụ, kĩ thuật ứng phó sự cố, tăng cường các giải pháp bảo đảm an ninh mạng, thu thập dữ liệu, chứng cứ để xử lý theo quy định của pháp luật.

Dự báo mới về đỉnh của Bitcoin trong năm nay

Nhà phân tích kỳ cựu Tom Lee tin rằng Bitcoin có thể “dễ dàng” cán mốc 200.000 USD/đồng trước khi năm 2025 khép lại. Ông cho rằng quyết định cắt giảm lãi suất của Cục Dự trữ Liên bang Mỹ (Fed) trong tháng 9 tới sẽ là chất xúc tác quan trọng cho đà tăng giá của tiền số.