RAG7782/fi-benchmark

GitHub: RAG7782/fi-benchmark

一个系统化对比提示工程、上下文工程与框架注入三种范式的大模型基准测试套件,帮助研究和评估 LLM 在不同条件下的表现与安全边界。

Stars: 0 | Forks: 0

# 框架注入基准测试套件 ## 组件 - `fi_generator.py` — 为任何领域生成可注入的框架 - `benchmark.py` — 完整的 PE vs CE vs FI 基准测试 (10 个领域 x 3 个条件 x N 次运行) - `validate.py` — 快速验证 (3 个领域 x 1 次运行) ## 使用方法 ``` # 生成一个 framework python fi_generator.py --domain "corporate law M&A due diligence" # 快速验证(9 次 API 调用) python validate.py # 完整 benchmark(90+ 次 API 调用) python benchmark.py --domains all --runs 3 ``` ## 方法论 对比了三种条件: - **PE** (Prompt Engineering):简单的任务指令 - **CE** (Context Engineering):任务 + 专家上下文 + 结构 - **FI** (Framework Injection):完整的 5 类可注入框架 + 任务 评估:使用 LLM-as-judge 基于 6 项标准(1-5 分制)进行评估: 1. 领域准确性 2. 推理深度 3. 完整性 4. 可操作性 5. 幻觉检查 6. 专业语气 ## 参考文献 Gomes, R. A. (2026). From Commands to Cognition: Digital Craftsmanship and the Framework Injection Paradigm. DOI: 10.5281/zenodo.19344789
标签:AI基准测试, AI安全, Apex, Chat Copilot, Clair, DLL 劫持, Framework Injection, LLM-as-Judge, LLM评估, NLP, Ollama, Python, RESTful API, 上下文学习, 上下文工程, 人工智能, 企业并购, 多领域测试, 大模型评测, 大语言模型, 对抗性测试, 尽职调查, 推理深度, 提示注入, 提示词优化, 无后门, 机器学习, 框架注入, 生成式AI, 用户模式Hook绕过, 索引, 行动指南, 逆向工具, 集群管理, 领域准确性