Khoa học

Google ra mắt Omni - mô hình có thể "sáng tạo mọi thứ"

Gemini Omni là một trong những sản phẩm mới xuất hiện lần đầu, được Google giới thiệu tại sự kiện Google I/O ngày 19/5. Theo đó, mô hình này là sự kết hợp khả năng suy luận cùng năng lực sáng tạo của Gemini, và hướng đi đầu tiên là tạo các nội dung video. Đây cũng được đánh giá là bước tiến mới của Google sau mô hình tạo ảnh Nano Banana năm ngoái.

"Với Omni, bạn có thể kết hợp hình ảnh, âm thanh, video và văn bản làm đầu vào để tạo ra các video chất lượng cao dựa trên nền tảng kiến thức về thế giới thực của Gemini. Bạn cũng có thể dễ dàng trò chuyện để chỉnh sửa video của mình", Google cho biết.

Trong phần trình diễn tại sự kiện, Google cho biết điểm đặc biệt của Gemini Omni là tạo video từ mọi nguồn dữ liệu đầu vào như tư liệu hình ảnh, văn bản, video hay âm thanh, và cho ra một tác phẩm đầu ra đồng bộ. Người dùng có thể chỉnh sửa video qua các "cuộc trò chuyện" với mô hình, bằng cách mô tả theo ngôn ngữ tự nhiên, sau đó Omni sẽ lồng ghép mọi yếu tố để tạo ra một thành phẩm đồng bộ.

Hãng khẳng định các nhân vật sẽ giữ nguyên tính nhất quán, các quy luật vật lý được đảm bảo, và hệ thống sẽ ghi nhớ bối cảnh diễn ra trước đó. Ngoài ra, không chỉ xây dựng những bối cảnh dựa trên đầu vào, Omni còn có thể suy luận về diễn biến tiếp theo.

Google cho biết mô hình kết hợp khả năng thấu hiểu trực quan các quy luật vật lý với kho kiến thức của Gemini về lịch sử, khoa học lẫn bối cảnh văn hóa đã giúp thu hẹp khoảng cách từ một thước phim tả thực đến một câu chuyện có chiều sâu. Omni cũng được nâng cao khả năng am hiểu trực quan về tác động của các lực như trọng lực, động năng và động lực học chất lưu, giúp người dùng tạo nên những bối cảnh chân thực hơn.

Trước nguy cơ Omni có thể bị lợi dụng để tạo nội dung độc hại, Google cho biết có các chính sách rõ ràng để bảo vệ người dùng cũng như quy định cách sử dụng các công cụ AI. Chẳng hạn như việc chỉnh sửa video để thay đổi âm thanh và lời nói, hãng cho biết đang thử nghiệm và nghiên cứu sâu hơn nhằm đưa năng lực này đến tay người dùng một cách có trách nhiệm, và hiện chỉ hỗ trợ với giọng nói và âm thanh gốc của người dùng. Ngoài ra, tất cả video được tạo bằng Omni đều tích hợp dấu mờ kỹ thuật số vô hình SynthID và chứng chỉ nội dung C2PA, có thể được xác minh bằng Gemini hoặc Google Search.

CEO Google DeepMind Demis Hassabis giới thiệu Gemini Omni tại Google I/O 2026. Ảnh: Lưu Quý

CEO Google DeepMind Demis Hassabis giới thiệu Gemini Omni tại Google I/O 2026. Ảnh: Lưu Quý

Tại sự kiện, Google cho biết mô hình đầu tiên là Gemini Omni Flash sẽ bắt đầu được triển khai từ hôm nay cho người dùng đăng ký Google AI Pro và Ultra trên toàn cầu, thông qua ứng dụng Gemini và Google Flow. Mô hình này cũng được cung cấp miễn phí cho người dùng trên YouTube Shorts và ứng dụng YouTube Create từ tuần này, trước khi đưa tới các nhà phát triển và khách hàng doanh nghiệp.

Các tin khác

10 mẹo hữu ích trên iPhone

10 mẹo hữu ích trên iPhone

Hệ điều hành iOS ngày càng trở nên phức tạp với hàng loạt tính năng mới qua mỗi bản cập nhật, khiến người dùng iPhone có thể bỏ sót.
Phòng thí nghiệm nổ lớn nhất thế giới

Phòng thí nghiệm nổ lớn nhất thế giới

Cơ sở Thử nghiệm Nghiên cứu Nổ có đường ống nổ dài hơn 152 m, dùng để hỗ trợ thí nghiệm về sóng xung kích nhanh như công nghệ đẩy siêu thanh, hiện tượng vật lý thiên văn năng lượng cao.
Phát hiện tuyến đường chi phí thấp tới Mặt Trăng

Phát hiện tuyến đường chi phí thấp tới Mặt Trăng

Các nhà khoa học phát triển phương pháp tính toán, xác định tuyến đường mới cho tàu vũ trụ từ Trái Đất tới Mặt Trăng, giúp giảm ít nhất 58,80 mét mỗi giây (m/s) so với những tuyến đường trước đây.