
a google lançou oficialmente o novo modelo de ia de código aberto diffusiongemma, introduzindo pela primeira vez o mecanismo de difusão de texto na arquitetura de grandes modelos de linguagem. diferentemente do paradigma tradicional dos modelos autoregressivos (como gpt e gemini), que geram palavras sequencialmente, um a um, o diffusiongemma reconstroi todo o texto em paralelo por meio de um processo de desnoising em múltiplas etapas, elevando significativamente a eficiência de inferência em dispositivos de borda e em cenários com recursos limitados — testes mostram que a velocidade de inferência local chega a ser quatro vezes superior à de modelos autoregressivos comparáveis.
este modelo é totalmente open source sob a licença apache 2.0, e seus pesos já estão disponíveis na plataforma hugging face para download gratuito e uso comercial. no que diz respeito à compatibilidade de hardware, graças à otimização profunda baseada no tensor core da nvidia, uma única gpu h100 consegue produzir de forma estável 1.000 tokens por segundo; em ambientes clusterizados como o dgx station, é possível ultrapassar 2.000 tokens por segundo. testes de desempenho indicam que sua taxa de amostragem atinge até 1.479 tokens por segundo; quanto à capacidade de codificação, alcançou 89,6% de precisão no benchmark humaneval, equiparável ao gemini 2.0 flash-lite; seu desempenho em raciocínio matemático é especialmente destacado, obtendo 23,3% no aime 2025, 3,3 pontos percentuais à frente dos modelos de comparação; porém, ainda apresenta certa defasagem no gpqa diamond, uma tarefa avançada de raciocínio científico, com 40,4%, 16,1 pontos percentuais abaixo do modelo de referência.
vale ressaltar que o diffusiongemma permite correções iterativas dinâmicas durante o processo de geração, identificando e otimizando proativamente erros intermediários, o que melhora significativamente a consistência das saídas e a robustez lógica.