RAG7782/fi-benchmark
GitHub: RAG7782/fi-benchmark
一个系统化对比提示工程、上下文工程与框架注入三种范式的大模型基准测试套件,帮助研究和评估 LLM 在不同条件下的表现与安全边界。
Stars: 0 | Forks: 0
# 框架注入基准测试套件
## 组件
- `fi_generator.py` — 为任何领域生成可注入的框架
- `benchmark.py` — 完整的 PE vs CE vs FI 基准测试 (10 个领域 x 3 个条件 x N 次运行)
- `validate.py` — 快速验证 (3 个领域 x 1 次运行)
## 使用方法
```
# 生成一个 framework
python fi_generator.py --domain "corporate law M&A due diligence"
# 快速验证(9 次 API 调用)
python validate.py
# 完整 benchmark(90+ 次 API 调用)
python benchmark.py --domains all --runs 3
```
## 方法论
对比了三种条件:
- **PE** (Prompt Engineering):简单的任务指令
- **CE** (Context Engineering):任务 + 专家上下文 + 结构
- **FI** (Framework Injection):完整的 5 类可注入框架 + 任务
评估:使用 LLM-as-judge 基于 6 项标准(1-5 分制)进行评估:
1. 领域准确性
2. 推理深度
3. 完整性
4. 可操作性
5. 幻觉检查
6. 专业语气
## 参考文献
Gomes, R. A. (2026). From Commands to Cognition: Digital Craftsmanship and the Framework Injection Paradigm. DOI: 10.5281/zenodo.19344789
标签:AI基准测试, AI安全, Apex, Chat Copilot, Clair, DLL 劫持, Framework Injection, LLM-as-Judge, LLM评估, NLP, Ollama, Python, RESTful API, 上下文学习, 上下文工程, 人工智能, 企业并购, 多领域测试, 大模型评测, 大语言模型, 对抗性测试, 尽职调查, 推理深度, 提示注入, 提示词优化, 无后门, 机器学习, 框架注入, 生成式AI, 用户模式Hook绕过, 索引, 行动指南, 逆向工具, 集群管理, 领域准确性