
a google apresentou oficialmente seu novo modelo de ia de código aberto, o diffusiongemma, marcando a primeira vez que uma arquitetura de difusão de texto é introduzida no universo dos grandes modelos de linguagem. ao contrário dos modelos autoregressivos tradicionais, que geram texto um token de cada vez, em sequência, este modelo se baseia nos consagrados mecanismos de desnoising utilizados na geração de imagens para reconstruir todos os tokens simultaneamente e em paralelo, proporcionando um salto qualitativo na eficiência da inferência, mesmo em dispositivos de borda e em ambientes com recursos limitados — medições reais mostram que a inferência local chega a ser até quatro vezes mais rápida do que a de modelos autoregressivos comparáveis.
o diffusiongemma é totalmente open-source sob a licença apache 2.0, com os pesos do modelo agora disponíveis no hugging face para acesso e implantação gratuitos. testes de benchmark revelam uma taxa de amostragem de até 1.479 tokens por segundo; suas capacidades de codificação alcançam 89,6% no benchmark humaneval, equiparando-se ao gemini 2.0 flash-lite. notavelmente, seu desempenho em raciocínio matemático destaca-se, atingindo 23,3% de precisão no teste aime 2025 — 3,3 pontos percentuais à frente de modelos concorrentes —, embora ainda fique ligeiramente atrás no benchmark gpqa diamond, voltado a tarefas avançadas de raciocínio científico, com 40,4%, deixando margem para novas otimizações.
a equipe de engenharia da nvidia verificou que o modelo está profundamente otimizado para arquiteturas de tensor cores de gpu, oferecendo uma saída estável de 1.000 tokens por segundo em uma única gpu h100 e escalando ainda mais, até 2.000 tokens por segundo em configurações multi-gpu de estações dgx. além disso, o diffusiongemma suporta correção dinâmica de erros e refinamento iterativo em múltiplas rodadas durante o processo de geração, aumentando significativamente a consistência da saída e sua robustez lógica.