Google Gemini Omni: nova IA edita vídeos com comandos de texto

O Google apresentou nesta terça-feira (19) o Gemini Omni, um novo modelo de inteligência artificial focado na criação e edição de vídeos com aspecto ultrarrealista. O anúncio ocorreu durante o Google I/O 2026, evento para desenvolvedores realizado em Mountain View, na Califórnia (EUA).

Como funciona o Gemini Omni

De acordo com a empresa, a ferramenta permite combinar imagens, áudio, vídeo e texto para gerar vídeos de alta qualidade. O usuário pode enviar um vídeo já gravado e solicitar alterações por meio de comandos em texto, sem necessidade de usar programas profissionais de edição, como o Adobe Premiere. O Google afirma que é possível modificar detalhes específicos ou transformar completamente uma cena apenas conversando com a IA.

Entre os exemplos citados pela empresa estão mudar ações em um vídeo, adicionar personagens e objetos, ou alterar ambientes, ângulos e estilos visuais, mantendo a consistência da gravação original.

—

Banner largo do Pickt — app de listas de compras colaborativas para Telegram

Tecnologia multimodal

Segundo o Google, o Omni utiliza o conhecimento do Gemini para conectar linguagem, imagens e contexto. A empresa afirma que a ferramenta não apenas cria cenas realistas, mas também entende o que deveria acontecer em seguida para dar continuidade aos vídeos.

A tecnologia estará disponível a partir desta terça-feira em todo o mundo para assinantes dos planos Google AI Plus, Pro e Ultra. A IA poderá ser usada no app do Gemini, no Google Flow e no YouTube Shorts. O Google também informou que o Omni será liberado gratuitamente no YouTube Shorts e no aplicativo YouTube Create ainda nesta semana.

Criação de avatares digitais

A big tech também anunciou que os usuários poderão criar um avatar digital com sua própria voz e aparência, em uma função que essencialmente é um deepfake. "Estamos comprometidos em desenvolver IA de forma responsável e temos políticas claras para proteger os usuários de danos e governar o uso de nossas ferramentas de IA", destacou a empresa ao anunciar o recurso.

Todo conteúdo criado ou editado pelo Omni terá automaticamente o SynthID, uma marca-d'água digital imperceptível do Google usada para identificar mídias geradas por inteligência artificial.

Versão Pro e comparação com Veo 3

O Google também afirmou que trabalha em uma versão mais potente da ferramenta, chamada Omni Pro, mas não revelou detalhes nem previsão de lançamento. Disse apenas que está "prevista para breve".

O Google já possui o Veo 3, modelo de IA capaz de gerar vídeos realistas. No entanto, segundo Koray Kavukcuoglu, diretor de tecnologia do Google DeepMind e arquiteto-chefe de IA do Google, os dois sistemas têm propostas diferentes. "O Veo funciona no modelo tradicional de 'texto para vídeo', gerando imagens em movimento a partir de um comando escrito. Já o Gemini Omni é um modelo multimodal nativo, construído desde o início sobre a estrutura do Gemini", explicou ao g1. "Isso significa que ele consegue receber e combinar diferentes tipos de arquivos, como fotos, áudios e textos, em um único comando para gerar o resultado final", completou.