Công nghệ

Google ra AI tạo video, cạnh tranh OpenAI Sora

Veo ra mắt tại sự kiện Google I/O rạng sáng 15/5 (giờ Hà Nội). Sản phẩm được Demis Hassabis, CEO Google DeepMind, giới thiệu là có thể tạo video "chất lượng cao" độ phân giải 1080p với nhiều phong cách hình ảnh và điện ảnh khác nhau.

Veo được công bố sau ba tháng Sora xuất hiện và gây sốt trên cộng đồng.

Theo đại diện Google, AI này có khả năng hiểu ngôn ngữ tự nhiên và có thể "nắm bắt chính xác âm điệu của lời nhắc", từ đó tạo các video thể hiện chặt chẽ tầm nhìn sáng tạo của người dùng. Mô hình này cũng hiểu các thuật ngữ điện ảnh như video "timelapse" hoặc "ảnh phong cảnh từ trên không", đồng thời có thể tạo ra cảnh quay nhất quán và mạch lạc, với các chủ thể con người, động vật và đồ vật chuyển động chân thực trong suốt cảnh quay.

Các video minh họa về khả năng của Veo có thời lượng khoảng 8 giây. Tuy nhiên theo Google, người dùng có thể đưa ra yêu cầu về việc kéo dài thời lượng lên 1 phút 10 giây, cũng như tinh chỉnh bằng lời nhắc bổ sung để thay đổi kết quả. Con số này cao hơn thời lượng tối đa một phút mà OpenAI Sora công bố trước đó.

Một số video ngắn được tạo từ Veo. Video: Google

Theo Google, Veo được xây dựng dựa trên năm mô hình tạo video gồm Generative Query Network (GQN), DVD-GAN , Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, kết hợp với nhiều kỹ thuật khác để cải thiện chất lượng và độ phân giải đầu ra.

Họ đã cải tiến kỹ thuật về cách mô hình học cách hiểu nội dung trong video, hiển thị hình ảnh có độ phân giải cao, mô phỏng tính chất vật lý của thế giới chúng ta và hơn thế nữa.

"Những kiến thức này sẽ thúc đẩy những tiến bộ trong nghiên cứu AI của chúng tôi và cho phép chúng tôi xây dựng nhiều sản phẩm hữu ích hơn nữa để giúp mọi người tương tác và giao tiếp theo những cách mới", Google cho biết.

Tại sự kiện, gã khổng lồ công nghệ Mỹ cũng giới thiệu một AI tạo hình ảnh là Imagen 3. Sản phẩm được quảng cáo là tạo ra những bức hình với "mức độ chi tiết đáng kinh ngạc", hình ảnh chân thực, sống động như thật và ít chi tiết gây mất tập trung trong ảnh hơn so với các mô hình trước đây.

Ảnh được tạo ra từ câu lệnh: Ba người phụ nữ đứng cạnh nhau cười, với một người nằm ngoài khoảng nét một chút. Mặt trời đang lặn ở phía sau những người này, tạo ra ánh sáng loá của ống kính và làm nổi bật mái tóc, tạo hiệu ứng mờ ở hậu cảnh. Phong cách chụp chân thực, ghi lại khoảng khắc kết nối và hạnh phúc giữa những người bạn.... Ảnh: Google

Ảnh được tạo ra từ câu lệnh: "Ba người phụ nữ đứng cạnh nhau cười, với một người nằm ngoài khoảng nét một chút. Mặt trời đang lặn ở phía sau, tạo ra ánh sáng lóa của ống kính và làm nổi bật mái tóc, tạo hiệu ứng mờ ở hậu cảnh. Phong cách chụp chân thực, ghi lại khoảng khắc kết nối và hạnh phúc giữa những người bạn...". Ảnh: Google

Imagen 3 cũng hiểu rõ hơn ngôn ngữ tự nhiên và dự đoán được mục đích của người dùng đằng sau lời nhắc, đồng thời có thể tạo ra ảnh với nhiều phong cách khác nhau.

Tương tự nhiều AI tạo video và ảnh khác, cả Veo và Imagen 3 đều chưa được phát hành rộng rãi. Google cho biết sản phẩm mới có sẵn cho một số nhà sáng tạo nội dung dùng thử. Người dùng quan tâm cần đăng ký vào danh sách chờ. Hãng cũng dự kiến đưa một số tính năng của Veo vào YouTube Shorts và các sản phẩm khác.

Cùng chuyên mục

Đọc thêm