A Tencent torna open source o OpenSearch-VL, superando os gargalos no treinamento de agentes de IA para busca multimodal

IA 06.11.26

em 8 de maio, foi noticiado que a tencent hunyuan, em colaboração com a universidade da califórnia, los angeles (ucla), a universidade chinesa de hong kong e outras instituições, lançou conjuntamente o framework de treinamento multimodal de código aberto opensearch-vl, aproveitando técnicas de aprendizado por reforço (rl) para construir agentes de busca profunda de última geração.

agentes de busca multimodal são sistemas inteligentes capazes de processar múltiplas modalidades de entrada, como imagens e texto, e de invocar proativamente ferramentas externas — como mecanismos de busca e utilitários de processamento de imagem — para realizar raciocínios em múltiplas etapas, verificação de evidências e recuperação de conhecimento, com o objetivo de resolver tarefas complexas de resposta a perguntas visuais que exigem grande volume de conhecimento. o relatório, publicado ontem (6 de maio) na plataforma arxiv, apresenta o framework opensearch-vl para o treinamento de agentes de busca profunda multimodal de ponta. a equipe de pesquisa desenvolveu um pipeline de dados de alta qualidade que utiliza amostragem de caminhos da wikipédia e reescrita fuzzy de entidades para reduzir atalhos na recuperação, resultando em conjuntos de dados como o searchvl-sft-36k.

a equipe de pesquisa observa que o principal gargalo atualmente impedindo o avanço dos agentes de busca multimodal de última geração é a disponibilidade de dados de treinamento de alta qualidade. a maioria dos sistemas líderes hoje é desenvolvida por empresas comerciais, cujas fontes de dados, critérios de filtragem e registros de uso de ferramentas são proprietários, dificultando a replicação de capacidades avançadas e a realização de pesquisas sistemáticas. para enfrentar esse desafio, o estudo propõe o opensearch-vl, uma solução de código aberto de ponta a ponta que abrange dados, ferramentas e algoritmos de treinamento.

na construção do pipeline de dados, o opensearch-vl aproveita o grafo de hiperlinks da wikipédia para realizar amostragem de caminhos de entidades em múltiplos saltos, reescreve entidades intermediárias em descrições fuzzy e vincula entidades âncora às imagens de origem, desestimulando atalhos de recuperação de um único passo e incentivando o agente a aprender comportamentos de busca e raciocínio em múltiplos saltos.

o pipeline gera o conjunto de dados searchvl-sft-36k para ajuste fino supervisionado, com cada trajetória registrando em média 6,3 chamadas a ferramentas. ao mesmo tempo, 10% dos dados são submetidos aleatoriamente a tratamentos degradantes, como desfoque e downsampling, combinados com ferramentas de augmentação para induzir o comportamento de “pensar enquanto processa imagens”.

o ambiente de ferramentas vai além de simples agentes de recuperação, integrando funções como busca textual, busca por imagem, ocr, recorte, nitidez, super-resolução e correção de perspectiva. isso permite que o agente processe primeiro entradas visuais borradas, de baixa resolução ou distorcidas antes de consultar conhecimentos externos, combinando assim de forma fluida percepção proativa com a aquisição de conhecimento.

experimentos mostram que o modelo opensearch-vl-30b-a3b eleva a pontuação média de referência de 47,8 para 61,6, alcançando melhorias significativas em benchmarks como vdr e mmsearch. estudos de ablação confirmam a contribuição de cada componente: a remoção da ancoragem entre fonte e âncora, da reescrita fuzzy ou do filtro em etapas resulta em uma queda média de 8,2 a 11,5 pontos na pontuação.

Várias fabricantes de placas-mãe já lançaram, uma após outra, novas versões beta da BIOS para a série 600, com o objetivo de habilitar oficialmente o suporte à tecnologia de memória AMD EXPO-ULL

a amd apresentou oficialmente, na computex 2026, o padrão de memória expo-ull (ultra low-latency), uma atualização crucial do padrão expo v1.2. essa tecno

06.15.26 0

A Intel poderá equipar os processadores Raptor Lake Refresh (codinome “Raptor Lake Next”) com uma arquitetura de até 20 núcleos, abrangendo integralmente toda a linha de produtos Core i7, i5 e i3

a intel planeja iniciar a produção em massa do processador raptor lake next no início de 2027, integrando‑o oficialmente ao novo sistema de nomenclatura —

06.15.26 0

O negócio de jogos da Microsoft enfrenta desafios severos: o hardware do Xbox tem registrado prejuízos significativos há longo tempo, com cada console chegando a perder centenas de dólares; a empresa está avaliando uma cisão estratégica ou uma reestrutura

em fevereiro deste ano, a microsoft anunciou que asha sharma substituiria phil spencer como chefe do negócio do xbox. essa mudança de alto escalão não foi

06.15.26 0

A versão de demonstração de “Iron Throne Heavy Cannon” será disponibilizada amanhã para que os jogadores a experimentem; os jogadores ficarão sozinhos defendendo uma gigantesca fortaleza de aço, protegendo‑se integralmente contra as ameaças que se aproxim

“iron nest” é um jogo de simulação tática imersivo no estilo dieselpunk, que em breve chegará à plataforma pc e oferecerá suporte nativo ao chinês si

06.15.26 0

A versão de teste de “Resíduos Sem Coroa” foi oficialmente lançada Um MMORPG de fantasia sombria imersivo, com ênfase em uma experiência de combate em perspectiva isométrica altamente fluida

“embers of the uncrowned” já está disponível na steam, com um demo inicial que oferece suporte a interface e legendas em chinês simplificado. trata-se de

06.15.26 0

100 dólares por um jogo gerado por IA? Este novo lançamento na Steam tem gerado grande repercussão

recentemente, a pcgamer revelou um jogo de ficção científica intitulado “kryonull”, que gerou ampla controvérsia na comunidade de jogadores — a maioria

06.15.26 1

A equipe oficial de “Fallout 76” confirmou: por enquanto, não há planos de desenvolvimento para novos mapas ou conteúdos de exploração externa

desde o seu lançamento, “fallout 76” já apresentou duas grandes missões de exploração independentes — “pittsburgh”, em setembro de 2022, e “atlantic

06.15.26 0

A série de “Final Fantasy VII Remake” poderá integrar integralmente todas as obras derivadas ao longo dos anos, e os personagens femininos clássicos poderão retornar todos

na mais recente rodada de interação com os jogadores chineses, o diretor da trilogia remasterizada de “final fantasy vii”, naoki hamaguchi, expôs pela pri

06.15.26 1

“Call of Duty 23: Modern Warfare IV” anunciou oficialmente o desbloqueio antecipado do modo campanha — os jogadores que adquirirem a edição digital por pré-venda terão o privilégio de experimentar o jogo antes, entrando no campo de batalha sete dias antes

a activision confirmou oficialmente que “call of duty: modern warfare 4” abrirá um acesso antecipado ao modo campanha para os jogadores que fizerem a pré‑

06.15.26 0

“Gears of War: Judgment” entra oficialmente em fase de testes públicos! Os usuários que fizeram a pré-compra têm direito a acesso antecipado

a microsoft anunciou oficialmente um novo trailer de “gears of war: escalation” e confirmou que o teste beta será lançado em 6 de agosto de 2026, com acess

06.15.26 0

A desenvolvedora oficial de “Sword Star: Blood Rain” esclareceu os rumores sobre a compatibilidade entre plataformas: o desempenho do Nintendo Switch ainda não é suficiente para rodar “GTA 6”

segundo as mais recentes informações do mynintendonews, “sword of the stars: blood rain” fez sua estreia no summer game fest e, com um visual extremamente

06.15.26 1

O caminho de transformação da Capcom: despedida da era do “modelo estrelar” e abraço a um novo paradigma de criação coletiva

a capcom está a atravessar uma transformação silenciosa, mas profunda — deixou de depender do halo pessoal dos “produtores‑estrela” e passou a centrar a

06.15.26 0

A ausência de “GTA 6” na lista de anúncios do Mundial de Miami não reflete uma negligência em relação ao seu apelo, mas sim a firmeza estratégica de manter o próprio ritmo

a copa do mundo de 2026 está em pleno andamento nos estados unidos, canadá e méxico. miami, como uma das cidades‑sede estratégicas, não apenas recebe par

06.15.26 0

XGP continua a ampliar seus benefícios! Os novos títulos mais populares já estão disponíveis para acesso antecipado

“caçador das sombras nebulosas” já iniciou sua fase de teste público por tempo limitado, e os assinantes do xbox game pass poderão ser os primeiros a ade

06.15.26 0

A Tata Consultancy Services implementou plenamente o grande modelo Claude, construindo uma plataforma unificada de capacitação em IA para seus 50 mil colaboradores em todo o mundo, impulsionando a implantação em escala e padronizada da inteligência artifi

em meio ao cenário em que a ia generativa acelera a reconfiguração do panorama global de serviços tecnológicos, a tata consultancy services (tcs) anunciou

06.12.26 4