UsmanNadeemGit/slm-jailbreak-eval

GitHub: UsmanNadeemGit/slm-jailbreak-eval

一套面向开源SLM的对抗性提示词越狱安全基准评测流水线，支持多模型对比、Guardrail基线和温度消融实验，并提供容器化的量化推理环境与自动化报告生成。

Stars: 0 | Forks: 0

# 自动化安全基准流水线用于开源 LLM 对抗性提示词基准测试的后端流水线。 ## 功能说明 - 从 Hugging Face 加载对抗性提示词数据集 - 使用量化的开源模型运行本地推理 - 导出每次运行的 CSV 文件以供分析 - 生成 EDA 和可用于报告的图表 ## 本地设置 (Windows PowerShell) ``` python -m venv .venv .\.venv\Scripts\Activate.ps1 python -m pip install --upgrade pip pip install -r requirements.txt ``` ## 核心命令 ### 1) 仅 EDA ``` python .\pipeline.py --eda-only --figures-dir outputs/figures ``` ### 2) 多模型基准测试 ``` python .\pipeline.py --multi-model --sample-size 20 --runs-dir outputs/runs ``` ### 3) Guardrail 基线 (关 vs 开) ``` python .\pipeline.py --guardrail-baseline --sample-size 20 --runs-dir outputs/runs --models "mistralai/Mistral-7B-Instruct-v0.2" "microsoft/Phi-3-mini-4k-instruct" "Qwen/Qwen2.5-3B-Instruct" ``` ### 4) 温度消融实验 (0.1 vs 0.9) ``` python .\pipeline.py --temperature-ablation --sample-size 20 --max-new-tokens 100 --runs-dir outputs/runs --models "mistralai/Mistral-7B-Instruct-v0.2" "microsoft/Phi-3-mini-4k-instruct" "Qwen/Qwen2.5-3B-Instruct" --temperatures 0.1 0.9 --ablation-guardrail-mode off ``` ### 5) 生成报告图表 ``` python .\generate_report_figures.py ``` ## Docker 构建镜像： ``` docker build -t genai-benchmark:latest . ``` 运行默认容器命令 (仅 EDA)： ``` docker run --rm -v "${PWD}/outputs:/app/outputs" genai-benchmark:latest ``` 运行自定义命令 (示例：多模型)： ``` docker run --rm -v "${PWD}/outputs:/app/outputs" genai-benchmark:latest python pipeline.py --multi-model --sample-size 20 --runs-dir outputs/runs ``` ## 输出文件夹 - `outputs/figures`：EDA 和报告图表 - `outputs/runs`：实验 CSV 输出

标签：4-bit量化, AI安全, API密钥扫描, Chat Copilot, CISA项目, CSV分析, DLL 劫持, Docker, EDA, GenAI基准测试, Guardrail, Hugging Face, Linux系统监控, LLM, Mistral, MLOps, NIDS, Phi-3, Python, Qwen, SLM, Unmanaged PE, 反取证, 大语言模型, 安全基准测试, 安全护栏, 安全评估, 安全防御评估, 容器化, 对抗性攻击, 小型语言模型, 开源模型, 探索性数据分析, 推理管线, 无后门, 本地推理, 模型安全, 模型量化, 消融实验, 深度学习安全, 硬件高效, 请求拦截, 逆向工具, 防御基线, 鲁棒性测试