Tencent-Hunyuan/PlanningBench

GitHub: Tencent-Hunyuan/PlanningBench

PlanningBench 是一个面向大型语言模型的合成规划基准测试框架,提供可扩展、可验证的规划评估数据,用于检验模型在多约束耦合条件下的完整规划能力。

Stars: 21 | Forks: 1

## PlanningBench:生成可扩展且可验证的规划数据,用于评估和训练大型语言模型

Tencent Hunyuan Renmin University of China

arXiv Hugging Face Licence Data PlanningBench is a synthetic planning benchmark and data construction framework for evaluating and training large language models on complex, text-based planning tasks. It focuses on whether a model can coordinate goals, constraints, resources, time windows, dependencies, priorities, and objectives into an executable and verifiable plan. 与固定的手写规划示例集合不同,PlanningBench 将真实的规划场景抽象为可复用的任务分类体系、约束族和难度因子。该基准测试旨在检验在耦合约束下的完整规划成功率,而不仅仅是局部需求的满足度。 ### 概述

PlanningBench logo
PlanningBench targets self-contained text-based planning problems where all information needed to construct and verify a plan is provided in the input. Each instance contains a planning question and corresponding verification checklists, so that model outputs can be evaluated for constraint satisfaction and objective quality. 本仓库目前发布了 **467 个合成规划实例**,所有 467 个实例均用于**评估**。它们应被视为基准测试/测试数据,而不是训练数据。 发布的数据均为手动编写和核对。它**不**包含专有业务数据、用户日志、客户数据、生产数据或企业工作流记录。人工标注员参与质量控制和审查;他们并非从零开始创建基准测试实例。 ### 发布内容 本仓库包含: ``` PlanningBench/ ├── data/ │ └── PlanningBench-eval.jsonl # 467 synthetic evaluation instances\ ├── asset/ │ ├── planningbench-logo.png # PlanningBench benchmark logo │ ├── hunyuanlogo.png # Tencent Hunyuan logo │ ├── cn_ruc_logo.png # Renmin University of China logo │ ├── figure-data.png # Task taxonomy and data distribution figure │ └── figure-framework.png # Data construction framework figure ├── LICENSE-PlanningBench.txt └── README.md ``` ### 任务分类体系与数据分布 我们定义了 PlanningBench 使用的任务空间。它将规划问题组织为六个高级规划族、30 多个具体任务类型以及多个子任务变体。 该分类体系是按规划结构组织的,而不仅仅是表面的应用领域。它涵盖了时间冲突、资源分配、覆盖范围与公平性、路线协调、生产依赖关系、应急响应优先级以及其他规划难度的来源。

PlanningBench task taxonomy and data distribution

六个高级族分别是: - **排班与时间表编排**:时间冲突、时间窗口和执行顺序。 - **项目与生产运营**:里程碑、依赖关系、产能和连续性。 - **路线与出行**:路线选择、时空协调和换乘。 - **应急响应与公共服务**:及时性、优先级分配和重新规划。 - **分配与匹配**:兼容性和容量限制下的资源分配。 - **轮班与劳动力调度**:覆盖范围、轮换公平性和可用性。 ### 数据构建框架 PlanningBench 遵循约束驱动的合成 pipeline。构建过程将真实的规划场景抽象为任务和约束分类体系,对任务-约束配置进行采样,生成自包含的规划问题,附带验证清单或评分标准,并应用自动过滤以及人工质量控制审查。

PlanningBench construction framework

该 pipeline 包含两个主要阶段: 1. **任务和约束分类体系构建**:将具有代表性的规划场景概括为任务族、具体任务、子任务变体、通用约束、特定任务约束以及专门的有状态约束。 2. **约束驱动的合成与难度提升**:Generator 创建候选规划实例,Responder 尝试解决它们,Critic 根据清单验证输出。已解决或未解决实例的反馈被用来调整采样,以适应适当的难度。 这种设计支持跨任务、约束和解决方案结构的可控多样性。难度可以通过约束紧迫度、资源稀缺性、目标冲突、子任务依赖性和全局协调要求等因素进行调整。 ### 引用 如果您使用 PlanningBench,请引用: ``` @article{zhao2026planningbench, title={PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models}, author={Zhao, Ziliang and Xu, Zenan and Wang, Shuting and Qian, Hongjin and Lei, Yan and Hu, Minda and Wang, Zhao and Dou, Shihan and Dou, Zhicheng and Zhou, Pluto}, journal={arXiv preprint arXiv:2605.20873}, year={2026} } ``` ### 许可证 有关许可证信息,请参阅 [`LICENSE.txt`](./LICENSE.txt)。
标签:AI数据集, DLL 劫持, 任务规划, 大模型评估, 大语言模型, 时序数据库, 逆向工具