
recentemente, a equipe hunyuan da tencent, em colaboração com a academia gaoling de inteligência artificial da universidade renmin da china e diversas outras instituições de pesquisa, lançou oficialmente e disponibilizou como código aberto um novo framework para avaliar e treinar capacidades de planejamento — o planningbench. ancorado em problemas reais de planejamento, esse framework estabelece um sistema de geração de dados e avaliação que é ao mesmo tempo escalável, verificável e diversificado em termos de tarefas, visando medir e aprimorar sistematicamente as habilidades de tomada de decisão estruturada de grandes modelos de linguagem sob restrições complexas.
afastando-se das limitações das avaliações tradicionais baseadas em tarefas únicas, o planningbench alcança, pela primeira vez, a cobertura completa de seis cenários centrais de planejamento: planejamento de cronogramas, alocação de recursos, escalonamento de mão de obra, otimização de rotas, gestão da produção e resposta a emergências, abrangendo mais de 30 sub‑tarefas. seu mecanismo de geração de dados não se baseia apenas no aumento do comprimento dos prompts; ao contrário, ajusta dinamicamente os níveis de dificuldade segundo dimensões essenciais, como a topologia da tarefa, o acoplamento multilayer das restrições e o grau de tensão entre oferta e demanda de recursos, garantindo que cada amostra aborde diretamente os gargalos de planejamento do mundo real. cada instância vem acompanhada de uma lista de verificação estruturada que realiza uma validação tripla — desde a consistência da entrada e a satisfação das restrições até a optimalidade do objetivo — identificando de forma abrangente eventuais problemas de viabilidade nas saídas dos modelos.
mais notavelmente, o framework introduz de forma inovadora um paradigma de avaliação em duas frentes — “conformidade local–viabilidade global” — permitindo a identificação precisa de modos típicos de falha, como “as etapas estão corretas, mas persistem conflitos globais” ou “a alocação de recursos é razoável, porém impraticável”. isso melhora significativamente a capacidade de diagnosticar a lógica subjacente de planejamento do modelo. resultados empíricos mostram que, após o treinamento reforçado com dados verificáveis gerados pelo planningbench, os modelos não apenas apresentam desempenho amplamente superior em benchmarks de planejamento nunca antes vistos, como também exibem vantagens de transferência cross‑domain em raciocínio geral e em tarefas de múltiplos passos. assim, o planningbench estabelece um ciclo fechado completo — “cenário‑direcionado–geração de dados–treinamento verificável–avaliação de generalização” — fornecendo uma base sólida para a avaliação científica e o avanço eficiente das capacidades de planejamento de grandes modelos.