perfecxion-ai/temporal-vulnerabilities-artifact
GitHub: perfecxion-ai/temporal-vulnerabilities-artifact
评估大语言模型在检测时序、侧信道和组合漏洞能力的基准测试框架,揭示模型真实推理能力与模式匹配的差距。
Stars: 0 | Forks: 0
# 超越模式匹配:评估 LLM 在时间、侧信道和组合漏洞安全审查中的表现
基于 LLM 的代码审查工具已部署在生产环境的 CI/CD 流水线中,但安全领域的文献从未衡量过它们在需要多步推理的漏洞类别上的能力。本代码库包含基准测试、评估框架和实验结果,针对三个需要推理的漏洞类别,对 10 个模型进行了 57,600 次评估:
- **TOCTOU 竞态条件** (CWE-367)
- **时序侧信道** (CWE-208)
- **组合授权缺陷** (CWE-863)
## 主要发现
- **模型层级分化**:商业前沿模型在需要推理的类别中实现了 88-100% 的检出率;开源模型达到了 25-59%——两者差距高达 57 个百分点,而在可模式匹配的对照组中则无此现象(仅差 3-5 pp)。
- **表面模式激活**:在安全诱饵代码上,81.3% 的误报指出了诱饵表面上模仿的漏洞类别,表明检出率夸大了推理能力。
- **逐跳授权防御 (D1)** 消除了所有语料库和攻击变体中测量到的泄露。
## 代码库结构
```
benchmark/ # 160-sample benchmark (130 vulnerable + 30 decoys)
experiments/ # Evaluation harness, scoring, and analysis
tools/ # Model configuration, scoring, and evaluation tools
results/ # Raw and analyzed experimental results
overleaf/ # Paper source (LaTeX)
```
## 三层评分方法
1. **第一层(检测)**:二元判定——模型是否将代码标记为有漏洞?
2. **第二层(分类)**:模型是否以预注册的最小证据识别出正确的漏洞类别?
3. **第三层(推理质量)**:通过双法官 LLM 协议(RQS,0-1 刻度)评分的基于量表的因果推理质量。
## 评估的模型
| Model | Tier | Provider |
|-------|------|----------|
| Claude Opus 4.6 | Commercial | Anthropic |
| GPT-5.2 | Commercial | OpenAI |
| Gemini 2.5 Pro | Commercial | Google |
| DeepSeek Chat | Commercial | DeepSeek |
| Sonar Pro | Commercial | Perplexity |
| o3-mini | Reasoning | OpenAI |
| DeepSeek-R1 | Reasoning | DeepSeek |
| Qwen 2.5 72B | Open-source | Local (Ollama) |
| Llama 3.3 70B | Open-source | Local (Ollama) |
| DeepSeek-Coder 16B | Open-source | Local (Ollama) |
## 复现结果
```
# 安装依赖
pip install -r requirements.txt
# 运行评估
python experiments/tools/run_evaluation.py
# 分析结果
python experiments/tools/analyze_results.py
```
## 引用
```
@techreport{thornton2026beyondpattern,
author = {Thornton, Scott},
title = {Beyond Pattern Matching: Evaluating LLM Security Review on Temporal, Side-Channel, and Compositional Vulnerabilities},
institution = {perfecXion.ai},
year = {2026}
}
```
## 许可证
MIT
标签:AI风险缓解, CI/CD 安全, CWE-208, CWE-367, CWE-863, DevSecOps, DLL 劫持, Python, TOCTOU, 上游代理, 人工智能安全, 代码推理, 侧信道攻击, 合规性, 商业模型, 大语言模型, 学术论文复现, 安全评审, 开源模型, 授权缺陷, 数据投毒防御, 无后门, 时序攻击, 模式匹配, 竞态条件, 组合漏洞, 自动化资产收集, 误报分析, 逆向工具, 防御方案