onestruction/Ishigaki-IDS-Bench

GitHub: onestruction/Ishigaki-IDS-Bench

这是一个用于评估大语言模型从 BIM 信息需求中自动生成 buildingSMART IDS XML 规范能力的基准评测框架。

Stars: 2 | Forks: 0

# Ishigaki-IDS-Bench [![DOI](https://img.shields.io/badge/DOI-10.5281%2Fzenodo.20550510-blue.svg)](https://doi.org/10.5281/zenodo.20550510) Ishigaki-IDS-Bench 的最小化评估代码。该数据集在 Hugging Face 上分发: https://huggingface.co/datasets/ONESTRUCTION/Ishigaki-IDS-Bench ## 设置 ``` python -m venv .venv source .venv/bin/activate pip install -r requirements.txt ``` 已使用 Python `3.12.7` 进行测试。依赖项已固定在 `requirements.txt` 中。 为 OpenRouter 模型设置 `OPENROUTER_API_KEY`。 论文中报告的第一阶段审计指标需要 buildingSMART IDS-Audit-Tool `ids-tool`;如果没有它,评估器仍然可以写入 facet 分数,但 IDS 审计指标将被跳过,并且无法与论文进行比较。报告的 结果使用了 `ids-tool 1.0.96+e2c96c23`: - NuGet package: https://www.nuget.org/packages/ids-tool.CommandLine/1.0.96 - Source commit: https://github.com/buildingSMART/IDS-Audit-tool/tree/e2c96c23 在复现论文结果之前,请检查已安装的版本: ``` ids-tool version ``` ## 运行 ``` python scripts/run_eval.py --config config/eval-template.yaml ``` 模板配置使用 Hugging Face 数据集 `ONESTRUCTION/Ishigaki-IDS-Bench`。 用于本地预上传检查: ``` python scripts/run_eval.py --config config/eval-template.yaml --dataset-path /path/to/test.jsonl --limit 2 ``` ## 输出 ``` results/predictions.jsonl results/summary.json results/openrouter_metadata.json results/generated_ids/ results/gold_ids/ results/raw_outputs/ results/response_metadata/ results/failed_generations/ ``` ## 评估说明 - 如果未指定属性集,或者输入表明接受任何自定义属性集,则 prompt 会指示模型使用 XML Schema 正则表达式 `^(?!(Pset_|Qto_)).+` 来表示 ``。 - facet 评分器有意使用紧凑的比较目标,并且不会对每个 IDS 属性进行评分。例如,诸如 `minOccurs` 和 `maxOccurs` 之类的 applicability occurrence 属性会由 `ids-tool audit` 检查,但它们不属于 facet 匹配分数的一部分。 - 在评分之前,评估器会移除 `...` 块,并且当输出包含围栏代码块时,会将第一个围栏代码块的内容作为生成的 IDS 进行评分。生成失败的结果会被保存以供审计;评估器默认不会修复、重排序或重新生成输出。该模板使用 `retries: 0` 和 `api_workers: 1`。 ## 许可证 本仓库中的评估代码、prompt、配置文件和可复现性文档均采用 Apache License 2.0 授权。 基准数据集和标准 IDS 文件在 Hugging Face 上根据 CC BY 4.0 单独分发: https://huggingface.co/datasets/ONESTRUCTION/Ishigaki-IDS-Bench ## 引用 ``` @misc{kanazawa2026ishigakiidsbench, title = {Ishigaki-IDS-Bench: A Benchmark for Generating Information Delivery Specification from BIM Information Requirements}, author = {Ryo Kanazawa and Koyo Hidaka and Teppei Miyamoto and Takayuki Kato and Tomoki Ando and Chenguang Wang and Dayuan Jiang and Naofumi Fujita and Shuhei Saitoh and Atomu Kondo and Koki Arakawa and Daiho Nishioka}, year = {2026}, eprint = {2605.22079}, archivePrefix = {arXiv}, primaryClass = {cs.CL}, doi = {10.48550/arXiv.2605.22079}, url = {https://arxiv.org/abs/2605.22079} } ```
标签:BIM, DLL 劫持, Python, XML生成, 大语言模型, 工程建筑, 无后门, 逆向工具