Sắp đánh giá, xếp hạng mô hình ngôn ngữ lớn tiếng Việt của

Sắp đánh giá, xếp hạng mô hình ngôn ngữ lớn tiếng Việt của các doanh nghiệp

Dự kiến, quá trình đánh giá và xếp hạng mô hình ngôn ngữ lớn tiếng Việt của 6 doanh nghiệp sẽ diễn ra trong tháng 3, với kết quả được Bộ KH&CN công bố vào tháng 4.

Mô hình ngôn ngữ lớn (LLM) là một loại trí tuệ nhân tạo hiện đại, được tạo ra để xử lý, hiểu và viết văn bản giống như cách con người làm. Nó được xây dựng dựa trên một khối lượng dữ liệu khổng lồ và là nền tảng để tạo ra các trợ lý ảo hữu ích trong cuộc sống hằng ngày.

Phát triển LLM tiếng Việt để xây dựng các trợ lý ảo phục vụ người Việt được Bộ TT&TT (nay là Bộ KH&CN) đánh giá là một việc rất quan trọng.

Vì vậy, thời gian qua, nhiều hoạt động đã được thực hiện để thúc đẩy việc phát triển LLM tiếng Việt và các trợ lý ảo dành riêng cho người Việt; trong đó có việc đánh giá, xếp hạng mô hình LLM tiếng Việt của các doanh nghiệp công nghệ số trong nước như Viettel, VNPT, FPT, MISA, VNG...

tro ly ao 2 703.jpg — Được xây dựng dựa trên một khối lượng dữ liệu khổng lồ, mô hình ngôn ngữ lớn là nền tảng để tạo ra các trợ lý ảo hữu ích trong cuộc sống hàng ngày. Ảnh minh họa: Internet

Thông tin với phóng viên VietNamNet ngày 17/3, Cục Chuyển đổi số quốc gia (Bộ KH&CN) cho hay, đến thời điểm hiện tại, công tác chuẩn bị cho việc đánh giá và xếp hạng các mô hình ngôn ngữ lớn tiếng Việt như chuẩn bị ngân hàng câu hỏi và đề thi, chuẩn bị công cụ tích hợp dịch vụ của doanh nghiệp và kết nối thử nghiệm trước khi đánh giá... đã được cơ bản hoàn thành.

Cũng theo Cục Chuyển đổi số quốc gia, dự kiến quá trình đánh giá sẽ được tiến hành trong tháng 3, và kết quả chính thức sẽ được Bộ KH&CN công bố vào tháng 4 tới. Hội đồng đánh giá sẽ gồm các thành viên là những chuyên gia đến từ các cơ sở đào tạo, Viện nghiên cứu của Việt Nam.

Thông tin thêm về ý nghĩa của việc đánh giá các mô hình ngôn ngữ lớn tiếng Việt, Cục Chuyển đổi số quốc gia cho biết, một mục tiêu hướng tới là cải thiện trải nghiệm người dùng bản địa.

Bởi lẽ, để mô hình ngôn ngữ lớn tiếng Việt phục vụ tốt cho người dùng Việt, việc đánh giá và so sánh với các mô hình khác, là cần thiết. Kết quả đánh giá sẽ giúp nhà phát triển điều chỉnh mô hình để tạo ra phản hồi tự nhiên hơn, câu trả lời đúng ngữ cảnh, phù hợp văn hóa, và dễ hiểu với đa số người dùng. Điều này đặc biệt quan trọng trong những ứng dụng chatbot, trợ lý ảo, hỗ trợ khách hàng bằng tiếng Việt.

Bên cạnh đó, việc đánh giá cũng sẽ thúc đẩy nghiên cứu và phát triển AI nội địa, vì khi có quy trình đánh giá riêng cho tiếng Việt, các nhóm nghiên cứu trong nước sẽ có động lực xây dựng, phát triển bộ dữ liệu chuẩn, bộ tiêu chuẩn đánh giá cũng như kỹ thuật cải tiến mô hình của đơn vị mình. Hoạt động này sẽ tạo ra hệ sinh thái phát triển AI Việt Nam, mở ra nhiều cơ hội hợp tác giữa các tổ chức, doanh nghiệp, trường đại học.

Bên cạnh việc tăng cường năng lực cạnh tranh quốc tế, việc đánh giá các mô hình ngôn ngữ lớn tiếng Việt cũng sẽ mở đường cho ứng dụng thực tiễn phong phú, cụ thể: Mô hình ngôn ngữ lớn khi đã được đánh giá cẩn thận sẽ được tin cậy và dễ dàng triển khai trong nhiều lĩnh vực như giáo dục, y tế, tài chính ngân hàng, chính phủ điện tử...

Ngoài ra, việc đánh giá các mô hình còn đảm bảo khả năng ứng dụng ổn định, bền vững, đáp ứng tốt nhu cầu xã hội.

Trước đó, từ đầu tháng 7/2024, Bộ TT&TT đã ban hành yêu cầu cơ bản và phương pháp đánh giá mô hình ngôn ngữ lớn tiếng Việt và Trợ lý ảo Việt Nam (phiên bản 1.0).

Hướng dẫn này phục vụ việc đánh giá, lựa chọn nền tảng thuộc Chương trình thúc đẩy phát triển và sử dụng các nền tảng số quốc gia phục vụ chuyển đổi số, phát triển Chính phủ số, kinh tế số và xã hội số; đồng thời, triển khai các nhiệm vụ về đánh giá, thúc đẩy phát triển trợ lý ảo thuộc “Chiến lược quốc gia phát triển kinh tế số và xã hội số đến năm 2025, định hướng đến năm 2030” và “Chiến lược phát triển Chính phủ điện tử hướng tới Chính phủ số giai đoạn 2021 - 2025, định hướng đến năm 2030”.

Theo tài liệu nêu trên, về phương pháp đánh giá, các bộ, ngành, địa phương đã được hướng dẫn rõ là cần có: Ngân hàng câu hỏi - đáp phục vụ đánh giá trên 50 lĩnh vực như khoa học tự nhiên, khoa học xã hội, nhân văn, kinh tế, chính trị…; công cụ đánh giá tự động; và Hội đồng đánh giá. Hội đồng có thể tham khảo kết quả đánh giá từ các công cụ tự động, tuy nhiên kết quả đánh giá cuối cùng là của hội đồng.