
em 28 de abril, horário local, a nvidia apresentou oficialmente o nemotron 3 nano omni, um modelo de inferência multimodal de código aberto projetado para fornecer um modelo‑base integrado para agentes de ia de nível empresarial. construído sobre uma arquitetura de mistura de especialistas (moe) a3b com 30 bilhões de parâmetros, o modelo pode ser ativado dinamicamente conforme as tarefas e modalidades, oferecendo alta taxa de transferência e desempenho multimodal escalável.
ao contrário das soluções tradicionais, que dependem de cadeias fragmentadas de modelos de visão‑fala‑linguagem, o nemotron 3 nano omni integra a inferência multimodal unificada — abrangendo vídeo, áudio, imagens e texto — em um único modelo aberto e eficiente, reduzindo assim os saltos de inferência e a complexidade da orquestração, diminuindo significativamente os custos de inferência e aprimorando a consistência contextual entre modalidades. dentro de um limite fixo de latência de interação, a capacidade efetiva do sistema do modelo em tarefas de inferência de vídeo é até cerca de 9,2 vezes superior à de outros modelos multimodais de código aberto, e até aproximadamente 7,4 vezes maior em tarefas de inferência de múltiplos documentos.
esse modelo pode servir como um sub‑agente de percepção e contexto multimodal dentro de sistemas de agentes, permitindo que os agentes processem entradas visuais, auditivas e textuais em um único e compartilhado ciclo de “percepção‑ação”. nos benchmarks de inteligência documental mmlongbench‑doc e ocrbenchv2, ele alcança precisão de ponta em sua categoria, além de apresentar desempenho excepcional nos benchmarks de compreensão de vídeo e áudio, como worldsense, dailyomni e voicebench. quanto ao design arquitetural, o nemotron 3 nano omni combina camadas mamba — projetadas para melhorar a eficiência de sequências e memória — com camadas transformer — otimizadas para uma inferência precisa — resultando em até quatro vezes mais eficiência em memória e computação. o processamento visual utiliza convoluções 3d para capturar o movimento entre quadros, o componente de áudio baseia-se no codificador parakeet da nvidia, e o componente de texto emprega um poderoso modelo de linguagem como decodificador central.
os pesos do modelo estão atualmente disponíveis no hugging face e serão em breve implantados como um microserviço nvidia nim, permitindo que desenvolvedores personalizem, implementem e integrem livremente sub‑agentes multimodais.