"Với khả năng phiên dịch theo thời gian thực, am hiểu cảm xúc và có thể ngắt lời, chế độ giọng nói nâng cao (AVM) sẽ trở nên hữu ích hơn trong quá trình học ngôn ngữ mới cùng bạn bè. AVM sẽ bắt đầu được thử nghiệm với nhóm nhỏ người dùng ChatGPT Plus từ cuối tháng 7 để thu thập phản hồi", OpenAI cho biết hôm 28/6.
Trong video trình diễn, một người Tây Ban Nha có nền tảng cơ bản về tiếng Bồ Đào Nha đang dùng ChatGPT để giúp người bạn học ngôn ngữ này. Họ có thể yêu cầu ứng dụng nói chậm lại hoặc giải thích cụm từ chưa hiểu, ChatGPT đều thực hiện hoàn hảo các mệnh lệnh này.
Yếu tố khiến AVM của GPT-4o có sức hấp dẫn chính là khả năng chuyển giọng nói sang giọng nói (speech to speech) một cách tự nhiên và theo thời gian thực. Các mô hình trước đó phải chuyển giọng nói thành văn bản (speech to text) và ngược lại để tương tác với người dùng, trong khi GPT-4o hiểu trực tiếp những gì người dùng nói.
Khả năng này mang đến nhiều tính năng thú vị như hoạt động được trên nhiều nền tảng ngôn ngữ, với giọng điệu và khẩu âm khác nhau, khiến nó giống như một giáo viên ngoại ngữ.
Phân tích giọng nói tự nhiên cũng giúp GPT-4o nghe được những gì người dùng đang truyền tải, như cách họ phát âm và sử dụng giọng điệu, từ đó đưa ra phản hồi trực tiếp từ những gì AI nghe thấy, thay vì chỉ đánh giá dựa trên văn bản ghi lại.
Trong buổi công bố GPT-4o ngày 14/5, CTO OpenAI Mira Murati cho biết giọng nói và khả năng đàm thoại của GPT-4o đã đạt bước tiến vượt bậc với khi có thể thể hiện cảm xúc và thay đổi giọng điệu, thậm chí cười khúc khích, thêm tính hài hước và tự điều chỉnh cách nói tùy theo nội dung câu lệnh.
(Theo Tomsguide)