no primeiro dia do google i/o 2026, o google apresentou seu inovador novo modelo grande multimodal — o gemini omni — marcando uma nova era nas capacidades de ia, caracterizada por colaboração em todos os cenários e entre modalidades. demis hassabis, cofundador e ceo da deepmind e figura de destaque no campo da inteligência artificial, anunciou no palco que esta é a arquitetura multimodal nativa mais poderosa, unificada e intuitivamente semelhante ao humano.
o nome “omni” não apenas simboliza cobertura abrangente, como também representa um avanço fundamental: o verdadeiro alinhamento semântico entre modalidades e a geração bidirecional. seja reimaginando personagens de vídeo por meio de comandos baseados em texto, transferindo instantaneamente estilos visuais via entrada de áudio ou utilizando imagens estáticas para impulsionar uma lógica narrativa dinâmica, o gemini omni consegue executar essas tarefas de ponta a ponta, com alta fidelidade e controle preciso. a versão inicial leve, o gemini omni flash, já foi lançada integralmente nos aplicativos gemini, google flow e youtube shorts, pronta para uso imediato; uma interface completa de api para desenvolvedores será disponibilizada gradualmente nos próximos meses.
a indústria acredita amplamente que este modelo está levando a ia do nível de percepção e compreensão para o domínio da produção criativa concreta, condensando a edição de vídeo de nível profissional em interações baseadas em linguagem natural, reduzindo drasticamente as barreiras técnicas à expressão criativa e remodelando o paradigma da criação de conteúdo.