Google ra mắt Omni - mô hình có thể "sáng tạo mọi thứ"

Google gọi Gemini Omni là mô hình "có thể sáng tạo mọi thứ từ bất kỳ đầu vào nào", và phiên bản đầu tiên sẽ dùng để tạo video.

Gemini Omni là một trong những sản phẩm mới xuất hiện lần đầu, được Google giới thiệu tại sự kiện Google I/O ngày 19/5. Theo đó, mô hình này là sự kết hợp khả năng suy luận cùng năng lực sáng tạo của Gemini, và hướng đi đầu tiên là tạo các nội dung video. Đây cũng được đánh giá là bước tiến mới của Google sau mô hình tạo ảnh Nano Banana năm ngoái.

"Với Omni, bạn có thể kết hợp hình ảnh, âm thanh, video và văn bản làm đầu vào để tạo ra các video chất lượng cao dựa trên nền tảng kiến thức về thế giới thực của Gemini. Bạn cũng có thể dễ dàng trò chuyện để chỉnh sửa video của mình", Google cho biết.

Trong phần trình diễn tại sự kiện, Google cho biết điểm đặc biệt của Gemini Omni là tạo video từ mọi nguồn dữ liệu đầu vào như tư liệu hình ảnh, văn bản, video hay âm thanh, và cho ra một tác phẩm đầu ra đồng bộ. Người dùng có thể chỉnh sửa video qua các "cuộc trò chuyện" với mô hình, bằng cách mô tả theo ngôn ngữ tự nhiên, sau đó Omni sẽ lồng ghép mọi yếu tố để tạo ra một thành phẩm đồng bộ.

Hãng khẳng định các nhân vật sẽ giữ nguyên tính nhất quán, các quy luật vật lý được đảm bảo, và hệ thống sẽ ghi nhớ bối cảnh diễn ra trước đó. Ngoài ra, không chỉ xây dựng những bối cảnh dựa trên đầu vào, Omni còn có thể suy luận về diễn biến tiếp theo.

Google cho biết mô hình kết hợp khả năng thấu hiểu trực quan các quy luật vật lý với kho kiến thức của Gemini về lịch sử, khoa học lẫn bối cảnh văn hóa đã giúp thu hẹp khoảng cách từ một thước phim tả thực đến một câu chuyện có chiều sâu. Omni cũng được nâng cao khả năng am hiểu trực quan về tác động của các lực như trọng lực, động năng và động lực học chất lưu, giúp người dùng tạo nên những bối cảnh chân thực hơn.

Trước nguy cơ Omni có thể bị lợi dụng để tạo nội dung độc hại, Google cho biết có các chính sách rõ ràng để bảo vệ người dùng cũng như quy định cách sử dụng các công cụ AI. Chẳng hạn như việc chỉnh sửa video để thay đổi âm thanh và lời nói, hãng cho biết đang thử nghiệm và nghiên cứu sâu hơn nhằm đưa năng lực này đến tay người dùng một cách có trách nhiệm, và hiện chỉ hỗ trợ với giọng nói và âm thanh gốc của người dùng. Ngoài ra, tất cả video được tạo bằng Omni đều tích hợp dấu mờ kỹ thuật số vô hình SynthID và chứng chỉ nội dung C2PA, có thể được xác minh bằng Gemini hoặc Google Search.

CEO Google DeepMind Demis Hassabis giới thiệu Gemini Omni tại Google I/O 2026. Ảnh: Lưu Quý — CEO Google DeepMind Demis Hassabis giới thiệu Gemini Omni tại Google I/O 2026. Ảnh: *Lưu Quý*

Tại sự kiện, Google cho biết mô hình đầu tiên là Gemini Omni Flash sẽ bắt đầu được triển khai từ hôm nay cho người dùng đăng ký Google AI Pro và Ultra trên toàn cầu, thông qua ứng dụng Gemini và Google Flow. Mô hình này cũng được cung cấp miễn phí cho người dùng trên YouTube Shorts và ứng dụng YouTube Create từ tuần này, trước khi đưa tới các nhà phát triển và khách hàng doanh nghiệp.