UsmanNadeemGit/slm-jailbreak-eval
GitHub: UsmanNadeemGit/slm-jailbreak-eval
一套面向开源SLM的对抗性提示词越狱安全基准评测流水线,支持多模型对比、Guardrail基线和温度消融实验,并提供容器化的量化推理环境与自动化报告生成。
Stars: 0 | Forks: 0
# 自动化安全基准流水线
用于开源 LLM 对抗性提示词基准测试的后端流水线。
## 功能说明
- 从 Hugging Face 加载对抗性提示词数据集
- 使用量化的开源模型运行本地推理
- 导出每次运行的 CSV 文件以供分析
- 生成 EDA 和可用于报告的图表
## 本地设置 (Windows PowerShell)
```
python -m venv .venv
.\.venv\Scripts\Activate.ps1
python -m pip install --upgrade pip
pip install -r requirements.txt
```
## 核心命令
### 1) 仅 EDA
```
python .\pipeline.py --eda-only --figures-dir outputs/figures
```
### 2) 多模型基准测试
```
python .\pipeline.py --multi-model --sample-size 20 --runs-dir outputs/runs
```
### 3) Guardrail 基线 (关 vs 开)
```
python .\pipeline.py --guardrail-baseline --sample-size 20 --runs-dir outputs/runs --models "mistralai/Mistral-7B-Instruct-v0.2" "microsoft/Phi-3-mini-4k-instruct" "Qwen/Qwen2.5-3B-Instruct"
```
### 4) 温度消融实验 (0.1 vs 0.9)
```
python .\pipeline.py --temperature-ablation --sample-size 20 --max-new-tokens 100 --runs-dir outputs/runs --models "mistralai/Mistral-7B-Instruct-v0.2" "microsoft/Phi-3-mini-4k-instruct" "Qwen/Qwen2.5-3B-Instruct" --temperatures 0.1 0.9 --ablation-guardrail-mode off
```
### 5) 生成报告图表
```
python .\generate_report_figures.py
```
## Docker
构建镜像:
```
docker build -t genai-benchmark:latest .
```
运行默认容器命令 (仅 EDA):
```
docker run --rm -v "${PWD}/outputs:/app/outputs" genai-benchmark:latest
```
运行自定义命令 (示例:多模型):
```
docker run --rm -v "${PWD}/outputs:/app/outputs" genai-benchmark:latest python pipeline.py --multi-model --sample-size 20 --runs-dir outputs/runs
```
## 输出文件夹
- `outputs/figures`:EDA 和报告图表
- `outputs/runs`:实验 CSV 输出
标签:4-bit量化, AI安全, API密钥扫描, Chat Copilot, CISA项目, CSV分析, DLL 劫持, Docker, EDA, GenAI基准测试, Guardrail, Hugging Face, Linux系统监控, LLM, Mistral, MLOps, NIDS, Phi-3, Python, Qwen, SLM, Unmanaged PE, 反取证, 大语言模型, 安全基准测试, 安全护栏, 安全评估, 安全防御评估, 容器化, 对抗性攻击, 小型语言模型, 开源模型, 探索性数据分析, 推理管线, 无后门, 本地推理, 模型安全, 模型量化, 消融实验, 深度学习安全, 硬件高效, 请求拦截, 逆向工具, 防御基线, 鲁棒性测试