em 8 de maio, foi noticiado que a tencent hunyuan, em colaboração com a universidade da califórnia, los angeles (ucla), a universidade chinesa de hong kong e outras instituições, lançou conjuntamente o framework de treinamento multimodal de código aberto opensearch-vl, aproveitando técnicas de aprendizado por reforço (rl) para construir agentes de busca profunda de última geração.
agentes de busca multimodal são sistemas inteligentes capazes de processar múltiplas modalidades de entrada, como imagens e texto, e de invocar proativamente ferramentas externas — como mecanismos de busca e utilitários de processamento de imagem — para realizar raciocínios em múltiplas etapas, verificação de evidências e recuperação de conhecimento, com o objetivo de resolver tarefas complexas de resposta a perguntas visuais que exigem grande volume de conhecimento. o relatório, publicado ontem (6 de maio) na plataforma arxiv, apresenta o framework opensearch-vl para o treinamento de agentes de busca profunda multimodal de ponta. a equipe de pesquisa desenvolveu um pipeline de dados de alta qualidade que utiliza amostragem de caminhos da wikipédia e reescrita fuzzy de entidades para reduzir atalhos na recuperação, resultando em conjuntos de dados como o searchvl-sft-36k.
a equipe de pesquisa observa que o principal gargalo atualmente impedindo o avanço dos agentes de busca multimodal de última geração é a disponibilidade de dados de treinamento de alta qualidade. a maioria dos sistemas líderes hoje é desenvolvida por empresas comerciais, cujas fontes de dados, critérios de filtragem e registros de uso de ferramentas são proprietários, dificultando a replicação de capacidades avançadas e a realização de pesquisas sistemáticas. para enfrentar esse desafio, o estudo propõe o opensearch-vl, uma solução de código aberto de ponta a ponta que abrange dados, ferramentas e algoritmos de treinamento.
na construção do pipeline de dados, o opensearch-vl aproveita o grafo de hiperlinks da wikipédia para realizar amostragem de caminhos de entidades em múltiplos saltos, reescreve entidades intermediárias em descrições fuzzy e vincula entidades âncora às imagens de origem, desestimulando atalhos de recuperação de um único passo e incentivando o agente a aprender comportamentos de busca e raciocínio em múltiplos saltos.
o pipeline gera o conjunto de dados searchvl-sft-36k para ajuste fino supervisionado, com cada trajetória registrando em média 6,3 chamadas a ferramentas. ao mesmo tempo, 10% dos dados são submetidos aleatoriamente a tratamentos degradantes, como desfoque e downsampling, combinados com ferramentas de augmentação para induzir o comportamento de “pensar enquanto processa imagens”.
o ambiente de ferramentas vai além de simples agentes de recuperação, integrando funções como busca textual, busca por imagem, ocr, recorte, nitidez, super-resolução e correção de perspectiva. isso permite que o agente processe primeiro entradas visuais borradas, de baixa resolução ou distorcidas antes de consultar conhecimentos externos, combinando assim de forma fluida percepção proativa com a aquisição de conhecimento.
experimentos mostram que o modelo opensearch-vl-30b-a3b eleva a pontuação média de referência de 47,8 para 61,6, alcançando melhorias significativas em benchmarks como vdr e mmsearch. estudos de ablação confirmam a contribuição de cada componente: a remoção da ancoragem entre fonte e âncora, da reescrita fuzzy ou do filtro em etapas resulta em uma queda média de 8,2 a 11,5 pontos na pontuação.