HaniBacha/isms-bench-artifact

GitHub: HaniBacha/isms-bench-artifact

面向 AI 辅助 ISMS 事件响应预评估的可复现诊断基准，用于量化和揭示大模型与检索系统在合规判定中的虚假合规风险。

Stars: 0 | Forks: 0

# KI-SEC Assist / ISMS-Bench 本代码库包含用于 ACSAC 2026 投稿的研究工件，主题为 AI 辅助 ISMS 事件响应预评估中的虚假合规问题。其狭义主张为： ``` python -m venv .venv source .venv/bin/activate pip install -r requirements.txt python -m pytest python scripts/check_label_leakage.py python scripts/check_generator_coupling.py python scripts/run_label_audit.py python scripts/make_tables.py --version v04 ``` 该工件不提供合规认证，不替代审计员，也不验证在机密的真实审计环境中的部署性能。 ## 包含内容 - 确定性合成事件响应 benchmark 生成。 - 证据段落、benchmark 案例、mutation 案例、复述/多语言压力测试案例、人工挑战案例、源自公开文档的诊断压力测试案例，以及 adversarial fixtures。 - 检索与评估基线：BM25、TF-IDF、metadata 感知规则、provenance 平衡、provenance 保守、带来源保护的 provenance 保守，以及用于界定虚假合规权衡的简单常量状态基线。 - 用于兼容 OpenAI 的 endpoint 的模块化 LLM/RAG 基线运行器，支持 dry-run/mock 模式并输出解析后的预测结果。 - 用于检索、合规分类、攻击、公开文档诊断、metadata 伪造、bootstrap 区间以及表格/图表生成的评估脚本。 - 生成的表格/图表、主张-证据矩阵、benchmark card 以及可复现性说明。 ## 快速开始 ``` python scripts/build_corpus.py python scripts/generate_synthetic_cases.py --version v03 --split development_template --seed 42 python scripts/generate_synthetic_cases.py --version v03 --split heldout_template --seed 42 python scripts/generate_synthetic_cases.py --version v03 --split stress_test --seed 42 python scripts/generate_mutation_cases.py --seed 42 python scripts/generate_paraphrase_stress_v04.py --seed 42 python scripts/run_retrieval_eval.py --method bm25 --k 5 --version v04 python scripts/run_compliance_eval.py --method bm25 --k 5 --version v04 python scripts/run_attack_eval.py --method bm25 --k 5 --version v04 python scripts/make_tables.py --version v04 ``` 如果 `rank_bm25` 不可用，BM25 检索器将回退到确定性的本地实现。 ## 复现主要确定性结果 ``` JGU_API_BASE="https://your-openai-compatible-endpoint.example/v1" JGU_MODEL="gpt-oss-120b" python scripts/run_llm_baselines_v13.py --seed 42 --max-cases 150 --real-api --output-stem llm_medium_150_v14 python scripts/run_llm_baselines_v13.py --seed 42 --max-cases 5 --dry-run --output-stem llm_mock_smoke ``` ## LLM/RAG 基线真实的 LLM/RAG 运行需要兼容 OpenAI 的 endpoint 以及本地环境变量。本代码库不包含任何 API 密钥。 ``` src/kisec/ Package code for data models, generation, retrieval, assessment, attacks, metrics, and LLM/RAG utilities scripts/ Reproducibility entry points tests/ Fast pytest suite and leakage/coupling checks data/benchmark/ Synthetic, manual, LLM subset, and public-document-derived benchmark files data/attacks/ Original and advanced static adversarial cases data/external_public/ Public source inventory and short paraphrase/excerpt evidence corpus data/synthetic_cases/ Synthetic evidence passages experiments/results/ Result CSV/JSON/MD files used by submitted-paper tables and figures artifact_outputs/ Generated tables and figures for traceability ``` 论文报告了一个真实模型家族（`gpt-oss-120b`）在子集评估上的表现。这些结果是针对特定模型的诊断，并非广泛的模型比较。 ## 代码库结构 ``` make artifact-check make eval-small make sensitivity ``` ## 重要范围说明 - 大多数 benchmark 标签是合成的或由项目作者编写的。 - 源自公开文档的拆分使用了真实的公开事件响应文档，但其标签仍为项目初步设定，且未经独立审查；这是诊断性压力测试证据，而非独立验证。 - 该 benchmark 目前涵盖事件响应，不覆盖完整的 ISMS 控制空间。 - LLM/RAG 证据使用了一个可用的模型家族和子集运行结果。 - 人工/专家验证已作为协议记录在案，除非存在已完成的标注。有关面向审稿人的详细信息，请参阅 `ARTIFACT.md`、`REPRODUCIBILITY.md`、`BENCHMARK_CARD.md`、`CLAIMS_AND_EVIDENCE.md` 和 `SCOPE_AND_LIMITATIONS.md`。有用的 Make 目标：

标签：DLL 劫持, 人工智能安全, 信息安全管理体系, 合规性, 合规评估, 大语言模型, 安全规则引擎, 检索增强生成, 逆向工具