
ontem, a xiaomi mimo firmou oficialmente uma parceria com a tilert para lançar o modo de inferência ultraspeed no xiaomi mimo‑v2.5‑pro, alcançando, pela primeira vez em uma plataforma de gpu de uso geral, uma taxa de processamento gerativo superior a 1.000 tokens por segundo para modelos grandes com trilhões de parâmetros. esse avanço resulta de uma otimização colaborativa de pilha completa, abrangendo a arquitetura do modelo, o planejamento do sistema e os operadores subjacentes, ampliando ainda mais os limites da implantação leve e da inferência de alto desempenho.
os resultados medidos mostram que o ultraspeed consegue gerar um jogo da cobra de ponta a ponta em menos de 10 segundos e reproduzir fielmente uma interface do usuário de nível macos em até 60 segundos — quase dez vezes mais rápido do que a versão padrão. para facilitar a integração rápida pelos desenvolvedores, a xiaomi lançou simultaneamente um serviço de api dedicado ao mimo‑v2.5‑pro‑ultraspeed, oferecido a um preço promocional por tempo limitado, três vezes inferior ao da edição padrão, ao mesmo tempo em que proporciona uma capacidade de saída até dez vezes maior por unidade de tempo.
observação especial: o ultraspeed está disponível exclusivamente por meio de chamadas de api e não suporta o modelo de cobrança por plano de tokens. para referência, a edição padrão cobra 0,025 yuan por cada milhão de tokens em casos de acerto no cache e 3 yuan por cada milhão de tokens em casos de falha, com uma taxa uniforme de 6 yuan por cada milhão de tokens. em contraste, o ultraspeed posiciona-se em torno da proposta de valor central de “investimento triplo para desempenho de resposta dez vezes superior”. dada a escassez de recursos de inferência de alto desempenho, o acesso é concedido mediante processo de candidatura direcionado, com período de inscrições entre 00h00 de 9 de junho de 2026 e 23h59 de 23 de junho de 2026.
a avaliação prioriza casos de uso empresarial reais, concentrando-se em clientes corporativos e equipes de desenvolvedores profissionais com necessidades claras de integração de ia. os prazos de aprovação e as taxas de sucesso não são garantidos. os usuários aprovados receberão uma experiência gratuita de interação por chat por tempo limitado, sendo cada conta elegível para entrar na fila com sucesso até 10 vezes por dia; cada sessão tem duração máxima de 30 minutos, e os recursos são automaticamente liberados após cinco minutos de inatividade. observadores do setor acreditam amplamente que esse salto de velocidade irá acelerar significativamente a implantação em larga escala de modelos com trilhões de parâmetros em aplicações de baixa latência e alta interatividade.