Công nghệ

AI của Microsoft giúp ảnh chuyển động và nói chuyện

Theo Microsoft, không chỉ tạo cử động môi "đồng bộ một cách tinh tế" kèm âm thanh, VASA-1 còn thể hiện thần thái nhân vật thông qua chuyển động khuôn mặt và đầu tự nhiên, từ đó tăng tính chân thực.

Hãng phần mềm Mỹ cho biết đây là "hệ thống động học cho khuôn mặt" được huấn luyện thông qua mô hình tạo chuyển động "tốt hơn một cách toàn diện so với các phương pháp trước đó". AI này hỗ trợ xử lý ảnh chân dung với phần đầu và phần trên của thân, với các biểu cảm vui vẻ, tức giận, ngạc nhiên hoặc nghiêm nghị.

Khả năng của AI Microsoft VASA-1. Video: Microsoft

Trong video được Microsoft giới thiệu trên YouTube, AI của hãng có thể khiến các bức ảnh, tạo bởi Dall-E 3 và StyleGAN2, nói chuyện tự nhiên. Người dùng cũng có thể điều chỉnh thông số khuôn mặt, biểu cảm, giọng nói và nhiều chi tiết khác. Trang chuyên về hình ảnh PetaPixel đánh giá VASA-1 cho khả năng thể hiện tốt hơn so với các AI tương tự, khiến khó nhận biết nếu xem lần đầu.

Microsoft từ chối đề cập mô hình đứng sau, cũng như không có kế hoạch phát hành sản phẩm riêng, hay cung cấp API cho nhà phát triển. Họ giới thiệu VASA-1 "nhằm phô diễn một trong những khả năng của AI".

"Nghiên cứu của chúng tôi tập trung vào phát triển cảm xúc trực quan cho ảnh đại diện AI, hướng tới ứng dụng tích cực", Microsoft viết trên website công ty. "Nó không nhằm tạo nội dung gây hiểu lầm hoặc lừa dối. Tuy nhiên, giống như các mô hình AI khác, nó vẫn có thể bị lạm dụng để mạo danh con người. Chúng tôi phản đối bất kỳ hành vi nào như vậy".

Bên cạnh làn sóng chatbot như ChatGPT hay Google Gemini, lĩnh vực AI cũng chứng kiến cuộc đua giữa các mô hình có khả năng tạo video như thật từ ảnh tĩnh. Tháng trước, Alibaba giới thiệu công cụ tương tự là EMO (Emotive Portrait Alive). Nếu AI trước đó chỉ làm biến đổi miệng và một phần mặt, EMO có thể tạo nét mặt, tư thế, di chuyển phần lông mày, nhíu mắt hay thậm chí lắc lư theo điệu nhạc. Riêng phần miệng được AI thể hiện tự nhiên, đồng bộ môi chính xác.

Một số video được EMO tạo từ ảnh do Alibaba công bố. Video: YouTube/Rinki

Các tin khác

Mở hộp MacBook Air 15 inch dùng chip M3

Mở hộp MacBook Air 15 inch dùng chip M3

MacBook Air 15 inch có bản nâng cấp sau chưa đầy một năm, không thay đổi về kiểu dáng nhưng cải tiến chip xử lý và giá tốt hơn.
Bitcoin halving lần thứ tư đã diễn ra

Bitcoin halving lần thứ tư đã diễn ra

Mạng Bitcoin hoàn thành kỳ halving thứ tư sau khi khối thứ 840.000 được khai thác, khiến phần thưởng của thợ đào giảm một nửa từ 6,25 xuống 3,125 Bitcoin.
Ông lớn công nghệ tích cực gom chip AI

Ông lớn công nghệ tích cực gom chip AI

Microsoft được cho đang đặt mục tiêu tích lũy 1,8 triệu chip AI, trong khi Tesla, Meta, Google cũng gom hàng trăm nghìn GPU cho hệ thống của mình.
Tiềm năng tỷ USD của "bạn gái AI"

Tiềm năng tỷ USD của "bạn gái AI"

Các ứng dụng bạn gái, bạn trai ảo bằng AI được dự đoán mang về hàng tỷ USD nhờ "đem đến sự thoải mái cho người dùng vào cuối ngày".
Meta đưa trợ lý AI lên Facebook, Messenger

Meta đưa trợ lý AI lên Facebook, Messenger

Meta AI, trợ lý AI được trang bị "mô hình nguồn mở mạnh nhất" LLaMA 3, được đưa lên nền tảng WhatsApp, Instagram, Facebook và Messenger.
Meta ra mắt mô hình ngôn ngữ AI Llama 3

Meta ra mắt mô hình ngôn ngữ AI Llama 3

Mô hình AI mới Llama 3 sẽ được tích hợp vào trợ lý ảo Meta AI, được công ty Meta quảng cáo là tiên tiến nhất trong số các sản phẩm miễn phí cùng loại.