
a xiaomi lançou hoje oficialmente a série mimo‑v2.5‑tts e o mimo‑v2.5‑asr, um modelo de fala de pilha completa projetado para a era dos agentes, que abrange tanto o reconhecimento quanto a síntese de fala — as duas capacidades essenciais —, permitindo um controle totalmente flexível baseado em linguagem tanto na entrada quanto na saída de fala.
entre eles, a série mimo‑v2.5‑tts compreende três modelos, agora disponíveis na plataforma aberta mimo da xiaomi e utilizáveis gratuitamente por tempo limitado. esses três modelos compartilham instruções unificadas orientadas por estilo, controle de tags de áudio e capacidades de compreensão de texto: a edição padrão vem pré‑carregada com várias vozes premium de alta qualidade e permite controle granular da velocidade, da emoção e do tom da fala; a versão voicedesign permite que os usuários gerem rapidamente um novo timbre vocal com apenas uma única frase; já a versão voiceclone consegue replicar fielmente um timbre de voz alvo utilizando apenas um pequeno número de amostras. os usuários podem descrever a nuance emocional desejada como se estivessem dirigindo um ator, e o modelo entregará uma performance estável — suportando até mesmo entradas hierárquicas, no nível de roteiro —, garantindo que a voz do personagem permaneça consistente ao longo de toda a interação, com cada fala individualmente controlável.
enquanto isso, o mimo‑v2.5‑asr foi oficialmente disponibilizado como código aberto. esse modelo alcança desempenho líder no setor em uma ampla variedade de cenários reais complexos, incluindo contextos bilíngues chinês‑inglês, dialetos chineses (como wu, cantonês, minnan e sichuanês), alternância de idiomas, ambientes com alto nível de ruído e situações com múltiplos falantes. ele suporta a transcrição precisa de conteúdos intensivos em conhecimento, como letras de músicas, poesia clássica e terminologia técnica, e pode emitir pontuação nativamente. os resultados das avaliações mostram que ele oferece desempenho de última geração ou altamente competitivo em múltiplas dimensões. os usuários podem explorar a série tts na plataforma aberta xiaomi mimo api e no mimo studio, enquanto desenvolvedores podem utilizar diretamente ou personalizar ainda mais o modelo asr por meio de seu código-fonte aberto. com essa solução abrangente de fala de ponta a ponta, a xiaomi está proporcionando uma base vocal mais natural e mais controlável para interações baseadas em agentes.