
em 27 de maio, a xiaomi auto apresentou oficialmente seu novo framework de modelo do mundo, desenvolvido internamente — o xiaomi auto world model —, marcando um novo salto em nível cognitivo nas capacidades subjacentes de percepção e raciocínio da condução inteligente. pela primeira vez, esse framework realiza uma integração profunda entre a reconstrução de cenas em 3d e a geração de vídeos, rompendo com o tradicional paradigma técnico fragmentado de “reconstrução + geração”. guiado pelos princípios fundamentais de “ancoragem geométrica e extensão imaginativa”, ele impulsiona a indústria rumo a um avanço: da percepção passiva para a compreensão proativa e a evolução dinâmica.
diferentemente da abordagem predominante no setor, que mantém dois caminhos separados — worldrec (reconstrução) e worldgen (geração) —, o xiaomi auto world model estabelece uma arquitetura integrada, com acoplamento estrutural e restrições bidirecionais: o módulo de reconstrução produz representações geométricas 4d de alta precisão, servindo como uma espinha dorsal rígida para o processo de geração; ao mesmo tempo, o módulo de geração parte dessa base para ampliar as capacidades de previsão espaço‑temporal, preenchendo pontos de vista não observados e estados futuros. esses dois componentes formam um sistema de feedback em loop fechado, alcançando um aprimoramento sinérgico em três dimensões-chave: estabilidade, consistência e realismo:
- alta estabilidade: aproveitando as restrições estruturais 3d determinísticas fornecidas pela reconstrução, reduz significativamente a acumulação de erros e a deriva visual durante inferências autoregressivas de longo prazo;
- alta consistência: utilizando representações unificadas de cena 4d como memória compartilhada entre quadros, garante o alinhamento global de semântica e geometria em múltiplos pontos de vista e instantes temporais;
- alto realismo: o processo de geração utiliza imagens rgb renderizadas a partir da reconstrução como referência física, assegurando que o conteúdo sintetizado não apenas corresponda às características reais de captura dos sensores, mas também preserve uma lógica espacial coerente, reduzindo consideravelmente a disparidade entre simulações e veículos do mundo real.
esse modelo já estabeleceu novos recordes de estado‑da‑arte (sota) em diversos benchmarks internacionalmente reconhecidos e foi plenamente implementado no ecossistema empresarial real da xiaomi auto:
✅ motor de dados sintéticos: até o momento, já gerou mais de 100 mil clipes sintéticos de alta qualidade, cobrindo com precisão cenários extremos e de cauda longa na condução, acelerando a robustez dos modelos de percepção;
✅ plataforma de simulação em loop fechado: constrói ambientes virtuais de teste altamente realistas, apoiando a reconstrução de acidentes, a inversão de estratégias e a otimização direcionada, melhorando significativamente a eficiência das iterações de algoritmos e a completude das validações;
✅ sistema de treinamento de assistência à condução: pioneiro na criação de vídeos instrucionais generativos em primeira pessoa, que respondem em tempo real a condições complexas de trânsito e demonstram dinamicamente manobras de condução ideais, agora totalmente integrado ao módulo de simulação em ambiente real da “academia de assistência à condução” dos veículos de produção em massa da xiaomi.