
após o lançamento e a abertura do código-fonte do modelo vla grande xiaomi-robotics-0, em fevereiro deste ano, a xiaomi anunciou hoje o lançamento oficial do fluxo de trabalho completo de pós-treinamento, de ponta a ponta, para implantação no mundo real, aproximando‑se ainda mais de tornar-se uma ferramenta de produtividade “plug-and‑play”.
segundo a xiaomi, ao aproveitar um modelo‑base pré‑treinado e realizar apenas 20 horas de ajuste fino específico para a tarefa em hardware real, a equipe conseguiu que o robô dominasse a tarefa extremamente desafiadora de “guardar fones de ouvido em seu estojo de carregamento”, executando sem problemas várias operações de armazenamento em sequência. o que pode parecer uma tarefa simples, na verdade, apresenta inúmeros desafios: o espaço entre os fones e o compartimento é extremamente reduzido, exigindo uma precisão de percepção espacial inferior a um milímetro para um alinhamento preciso; ao mesmo tempo, a rugosidade superficial tanto dos fones quanto do estojo pode chegar a ra 0,03 µm, tornando‑os suscetíveis a deslocamentos ao entrar em contato, o que requer correções rápidas de desvios de movimento para evitar falhas na montagem.
ao disponibilizar o fluxo de trabalho completo de pós‑treinamento, a xiaomi demonstrou a capacidade de aprendizado rápido do modelo vla em tarefas de manipulação de alta precisão. a empresa afirma que isso significa que desenvolvedores e usuários do setor poderão realizar ajustes finos eficientes e específicos para cada cenário, com base no modelo‑base de código aberto, utilizando muito menos dados e recursos computacionais. como resultado, o xiaomi-robotics-0 poderá acelerar sua evolução, passando de um modelo pré‑treinado de uso geral a um agente especializado de inteligência robótica capaz de resolver problemas do mundo real.