
a equipe do qwen, da alibaba, apresentou oficialmente seu novo modelo multimodal de grande escala, o “qwen3.7‑plus”, demonstrando que as capacidades baseadas em agentes desse modelo representam mais um avanço significativo na integração avançada entre visão e linguagem. esse modelo não é apenas uma versão aprimorada; ele foi concebido com base na filosofia central de design “percepção‑compreensão‑tomada de decisão‑execução unificadas”. ao mesmo tempo em que herda os poderosos recursos de processamento de texto, geração de código, invocação de ferramentas e automação de escritório do qwen3.7, ele reestrutura sistematicamente sua arquitetura de cognição visual, aprimorando de forma abrangente suas habilidades de coordenação cross‑modal.
o qwen3.7‑plus suporta entradas heterogêneas provenientes de diversas fontes — incluindo imagens, vídeos curtos, capturas de tela de desktop, instantâneos de páginas web e texto simples — e pode integrar-se perfeitamente a interfaces gráficas (guis), interfaces de linha de comando (clis) e diversos ambientes de ferramentas saas. em cenários reais de escritório, ele permite a conclusão de tarefas de ponta a ponta — desde o reconhecimento de elementos de interface e a análise lógica de gráficos até a invocação autônoma de apis, a geração de scripts e a produção de relatórios — sem qualquer intervenção manual. atualmente, esse modelo já está implantado na plataforma bailian, da alibaba cloud, e também está disponível uma experiência interativa por meio do qwen studio, permitindo que desenvolvedores e usuários corporativos o acessem e implementem imediatamente.
em frameworks de avaliação reconhecidos, o qwen3.7‑plus apresenta desempenho inovador. ele ocupa a 5ª posição mundial e lidera o ranking na china no placar geral do vision arena. além disso, obtém melhorias substanciais nas pontuações em benchmarks de raciocínio visual de última geração, como babyvision e mathvision, ao mesmo tempo em que registra avanços expressivos tanto na precisão de compreensão de telas quanto nas taxas de sucesso das operações nos testes screenspot pro e osworld‑verified. adicionalmente, testes realizados pelo androidworld mostram um aumento superior a 40% nas taxas de conclusão de tarefas em comparação com a geração anterior. por outro lado, suas capacidades de processamento de texto continuam sendo de classe mundial, aproximando‑se do nível dos melhores modelos fechados atualmente em áreas como codificação, raciocínio, seguimento de instruções e suporte multilíngue. este lançamento não apenas estabelece um novo marco para os modelos multimodais nacionais, como também define um novo padrão para a ia baseada em agentes, voltada a gerar ganhos tangíveis de produtividade.