A Tencent, em colaboração com a Universidade Renmin da China, apresentou o PlanningBench, um benchmark de avaliação de código aberto que se concentra na avaliação sistemática das capacidades de grandes modelos no planejamento de tarefas complexas

IA 06.11.26

recentemente, a equipe hunyuan da tencent, em colaboração com a academia gaoling de inteligência artificial da universidade renmin da china e diversas outras instituições de pesquisa, lançou oficialmente e disponibilizou como código aberto um novo framework para avaliar e treinar capacidades de planejamento — o planningbench. ancorado em problemas reais de planejamento, esse framework estabelece um sistema de geração de dados e avaliação que é ao mesmo tempo escalável, verificável e diversificado em termos de tarefas, visando medir e aprimorar sistematicamente as habilidades de tomada de decisão estruturada de grandes modelos de linguagem sob restrições complexas.

afastando-se das limitações das avaliações tradicionais baseadas em tarefas únicas, o planningbench alcança, pela primeira vez, a cobertura completa de seis cenários centrais de planejamento: planejamento de cronogramas, alocação de recursos, escalonamento de mão de obra, otimização de rotas, gestão da produção e resposta a emergências, abrangendo mais de 30 sub‑tarefas. seu mecanismo de geração de dados não se baseia apenas no aumento do comprimento dos prompts; ao contrário, ajusta dinamicamente os níveis de dificuldade segundo dimensões essenciais, como a topologia da tarefa, o acoplamento multilayer das restrições e o grau de tensão entre oferta e demanda de recursos, garantindo que cada amostra aborde diretamente os gargalos de planejamento do mundo real. cada instância vem acompanhada de uma lista de verificação estruturada que realiza uma validação tripla — desde a consistência da entrada e a satisfação das restrições até a optimalidade do objetivo — identificando de forma abrangente eventuais problemas de viabilidade nas saídas dos modelos.

mais notavelmente, o framework introduz de forma inovadora um paradigma de avaliação em duas frentes — “conformidade local–viabilidade global” — permitindo a identificação precisa de modos típicos de falha, como “as etapas estão corretas, mas persistem conflitos globais” ou “a alocação de recursos é razoável, porém impraticável”. isso melhora significativamente a capacidade de diagnosticar a lógica subjacente de planejamento do modelo. resultados empíricos mostram que, após o treinamento reforçado com dados verificáveis gerados pelo planningbench, os modelos não apenas apresentam desempenho amplamente superior em benchmarks de planejamento nunca antes vistos, como também exibem vantagens de transferência cross‑domain em raciocínio geral e em tarefas de múltiplos passos. assim, o planningbench estabelece um ciclo fechado completo — “cenário‑direcionado–geração de dados–treinamento verificável–avaliação de generalização” — fornecendo uma base sólida para a avaliação científica e o avanço eficiente das capacidades de planejamento de grandes modelos.

Várias fabricantes de placas-mãe já lançaram, uma após outra, novas versões beta da BIOS para a série 600, com o objetivo de habilitar oficialmente o suporte à tecnologia de memória AMD EXPO-ULL

a amd apresentou oficialmente, na computex 2026, o padrão de memória expo-ull (ultra low-latency), uma atualização crucial do padrão expo v1.2. essa tecno

06.15.26 0

A Intel poderá equipar os processadores Raptor Lake Refresh (codinome “Raptor Lake Next”) com uma arquitetura de até 20 núcleos, abrangendo integralmente toda a linha de produtos Core i7, i5 e i3

a intel planeja iniciar a produção em massa do processador raptor lake next no início de 2027, integrando‑o oficialmente ao novo sistema de nomenclatura —

06.15.26 0

O negócio de jogos da Microsoft enfrenta desafios severos: o hardware do Xbox tem registrado prejuízos significativos há longo tempo, com cada console chegando a perder centenas de dólares; a empresa está avaliando uma cisão estratégica ou uma reestrutura

em fevereiro deste ano, a microsoft anunciou que asha sharma substituiria phil spencer como chefe do negócio do xbox. essa mudança de alto escalão não foi

06.15.26 0

A versão de demonstração de “Iron Throne Heavy Cannon” será disponibilizada amanhã para que os jogadores a experimentem; os jogadores ficarão sozinhos defendendo uma gigantesca fortaleza de aço, protegendo‑se integralmente contra as ameaças que se aproxim

“iron nest” é um jogo de simulação tática imersivo no estilo dieselpunk, que em breve chegará à plataforma pc e oferecerá suporte nativo ao chinês si

06.15.26 0

A versão de teste de “Resíduos Sem Coroa” foi oficialmente lançada Um MMORPG de fantasia sombria imersivo, com ênfase em uma experiência de combate em perspectiva isométrica altamente fluida

“embers of the uncrowned” já está disponível na steam, com um demo inicial que oferece suporte a interface e legendas em chinês simplificado. trata-se de

06.15.26 0

100 dólares por um jogo gerado por IA? Este novo lançamento na Steam tem gerado grande repercussão

recentemente, a pcgamer revelou um jogo de ficção científica intitulado “kryonull”, que gerou ampla controvérsia na comunidade de jogadores — a maioria

06.15.26 1

A equipe oficial de “Fallout 76” confirmou: por enquanto, não há planos de desenvolvimento para novos mapas ou conteúdos de exploração externa

desde o seu lançamento, “fallout 76” já apresentou duas grandes missões de exploração independentes — “pittsburgh”, em setembro de 2022, e “atlantic

06.15.26 0

A série de “Final Fantasy VII Remake” poderá integrar integralmente todas as obras derivadas ao longo dos anos, e os personagens femininos clássicos poderão retornar todos

na mais recente rodada de interação com os jogadores chineses, o diretor da trilogia remasterizada de “final fantasy vii”, naoki hamaguchi, expôs pela pri

06.15.26 1

“Call of Duty 23: Modern Warfare IV” anunciou oficialmente o desbloqueio antecipado do modo campanha — os jogadores que adquirirem a edição digital por pré-venda terão o privilégio de experimentar o jogo antes, entrando no campo de batalha sete dias antes

a activision confirmou oficialmente que “call of duty: modern warfare 4” abrirá um acesso antecipado ao modo campanha para os jogadores que fizerem a pré‑

06.15.26 0

“Gears of War: Judgment” entra oficialmente em fase de testes públicos! Os usuários que fizeram a pré-compra têm direito a acesso antecipado

a microsoft anunciou oficialmente um novo trailer de “gears of war: escalation” e confirmou que o teste beta será lançado em 6 de agosto de 2026, com acess

06.15.26 0

A desenvolvedora oficial de “Sword Star: Blood Rain” esclareceu os rumores sobre a compatibilidade entre plataformas: o desempenho do Nintendo Switch ainda não é suficiente para rodar “GTA 6”

segundo as mais recentes informações do mynintendonews, “sword of the stars: blood rain” fez sua estreia no summer game fest e, com um visual extremamente

06.15.26 1

O caminho de transformação da Capcom: despedida da era do “modelo estrelar” e abraço a um novo paradigma de criação coletiva

a capcom está a atravessar uma transformação silenciosa, mas profunda — deixou de depender do halo pessoal dos “produtores‑estrela” e passou a centrar a

06.15.26 0

A ausência de “GTA 6” na lista de anúncios do Mundial de Miami não reflete uma negligência em relação ao seu apelo, mas sim a firmeza estratégica de manter o próprio ritmo

a copa do mundo de 2026 está em pleno andamento nos estados unidos, canadá e méxico. miami, como uma das cidades‑sede estratégicas, não apenas recebe par

06.15.26 0

XGP continua a ampliar seus benefícios! Os novos títulos mais populares já estão disponíveis para acesso antecipado

“caçador das sombras nebulosas” já iniciou sua fase de teste público por tempo limitado, e os assinantes do xbox game pass poderão ser os primeiros a ade

06.15.26 0

A Tata Consultancy Services implementou plenamente o grande modelo Claude, construindo uma plataforma unificada de capacitação em IA para seus 50 mil colaboradores em todo o mundo, impulsionando a implantação em escala e padronizada da inteligência artifi

em meio ao cenário em que a ia generativa acelera a reconfiguração do panorama global de serviços tecnológicos, a tata consultancy services (tcs) anunciou

06.12.26 4