camilouribeg/cap-g5-llm-prompt-injection-eval
GitHub: camilouribeg/cap-g5-llm-prompt-injection-eval
一个用于评估LLM聊天机器人对提示注入攻击脆弱性并衡量缓解措施有效性的模块化安全评估框架。
Stars: 0 | Forks: 0
# LLM提示注入安全评估框架
一个大学顶点研究仓库,用于评估LLM聊天机器人对提示注入攻击的脆弱性并衡量缓解措施的有效性。
## 目标
- 在多个场景中模拟提示注入攻击。
- 在防御措施实施前测量攻击成功率。
- 应用缓解策略。
- 量化安全改进和权衡。
## 范围
### 范围内
- 攻击场景设计与执行
- LLM安全漏洞评估
- 防御缓解措施实施
- 比较测量与分析
### 范围外
- 训练新的基础模型
- 构建类似ChatGPT的产品
- 大规模模型训练流水线
## 仓库结构
- `src/prompt_injection_framework/attacks/`:攻击策略定义和生成器。
- `src/prompt_injection_framework/mitigations/`:缓解模块和适配器。
- `src/prompt_injection_framework/models/`:模型包装器(API和开源模型)。
- `src/prompt_injection_framework/evaluation/`:指标和评估工具。
- `src/prompt_injection_framework/orchestration/`:实验流水线运行器。
- `configs/`:实验和模型配置文件。
- `experiments/`:实验定义和保存的运行规范。
- `results/`:生成的实验输出(最小化跟踪)。
- `logs/`:执行日志。
- `tests/`:自动化测试。
- `docs/`:研究和架构笔记。
## 高级流水线
1. LLM聊天机器人
2. 攻击生成器
3. 攻击执行
4. 缓解层
5. 评估指标
6. 结果与分析
## 快速开始
### 1) 创建环境
```
python3 -m venv .venv
source .venv/bin/activate
pip install -U pip
pip install -e .[dev]
```
### 2) 运行基线实验
```
python -m prompt_injection_framework.orchestration.run_experiment \
--config configs/baseline.yaml
```
### 2a) 运行Groq支持的MVP实验
将`GROQ_APIKEY`添加到`.env`,然后运行以下之一:
```
python -m prompt_injection_framework.orchestration.run_experiment \
--config configs/groq_smoke.yaml
```
```
python -m prompt_injection_framework.orchestration.run_experiment \
--config configs/groq_20.yaml
```
每次运行会写入:
- `results//manifest.json`
- `results//case_results.jsonl`
- `results//summary.json`
### 3) 运行测试
```
pytest
```
## 初始指标
- 攻击成功率(ASR)
- 缓解后的ASR降低率
- 误报率/漏报率
- 对正常系统性能的影响
## 笔记
- 核心项目上下文记录在`PROJECT_CONTEXT.md`中。
- 架构特意设计为模块化,以便添加新的攻击、缓解措施和模型适配器。
标签:AES-256, AI安全测试, Linux系统监控, LLM评估, Ollama, Python安全工具, Sysdig, 人工智能安全, 合规性, 大语言模型安全, 实验框架, 对抗性攻击, 提示注入, 攻击模拟, 机密管理, 模型安全, 漏洞评估, 策略即代码, 网络安全, 聊天机器人安全, 逆向工具, 防御缓解, 隐私保护, 集群管理, 驱动签名利用