Tencent-Hunyuan/PlanningBench
GitHub: Tencent-Hunyuan/PlanningBench
PlanningBench 是一个面向大型语言模型的合成规划基准测试框架,提供可扩展、可验证的规划评估数据,用于检验模型在多约束耦合条件下的完整规划能力。
Stars: 21 | Forks: 1
## PlanningBench:生成可扩展且可验证的规划数据,用于评估和训练大型语言模型
PlanningBench targets self-contained text-based planning problems where all information needed to construct and verify a plan is provided in the input. Each instance contains a planning question and corresponding verification checklists, so that model outputs can be evaluated for constraint satisfaction and objective quality.
本仓库目前发布了 **467 个合成规划实例**,所有 467 个实例均用于**评估**。它们应被视为基准测试/测试数据,而不是训练数据。
发布的数据均为手动编写和核对。它**不**包含专有业务数据、用户日志、客户数据、生产数据或企业工作流记录。人工标注员参与质量控制和审查;他们并非从零开始创建基准测试实例。
### 发布内容
本仓库包含:
```
PlanningBench/
├── data/
│ └── PlanningBench-eval.jsonl # 467 synthetic evaluation instances\
├── asset/
│ ├── planningbench-logo.png # PlanningBench benchmark logo
│ ├── hunyuanlogo.png # Tencent Hunyuan logo
│ ├── cn_ruc_logo.png # Renmin University of China logo
│ ├── figure-data.png # Task taxonomy and data distribution figure
│ └── figure-framework.png # Data construction framework figure
├── LICENSE-PlanningBench.txt
└── README.md
```
### 任务分类体系与数据分布
我们定义了 PlanningBench 使用的任务空间。它将规划问题组织为六个高级规划族、30 多个具体任务类型以及多个子任务变体。
该分类体系是按规划结构组织的,而不仅仅是表面的应用领域。它涵盖了时间冲突、资源分配、覆盖范围与公平性、路线协调、生产依赖关系、应急响应优先级以及其他规划难度的来源。
PlanningBench is a synthetic planning benchmark and data construction framework for evaluating and training large language models on complex, text-based planning tasks. It focuses on whether a model can coordinate goals, constraints, resources, time windows, dependencies, priorities, and objectives into an executable and verifiable plan.
与固定的手写规划示例集合不同,PlanningBench 将真实的规划场景抽象为可复用的任务分类体系、约束族和难度因子。该基准测试旨在检验在耦合约束下的完整规划成功率,而不仅仅是局部需求的满足度。
### 概述
标签:AI数据集, DLL 劫持, 任务规划, 大模型评估, 大语言模型, 时序数据库, 逆向工具