KazKozDev/system-prompt-benchmark

GitHub: KazKozDev/system-prompt-benchmark

一个针对LLM系统提示词的安全测试基准工具,通过287种攻击向量检测提示词注入、越狱和数据泄露等安全漏洞。

Stars: 11 | Forks: 0

logo

Security testing for production LLM applications

Vectors Injection Jailbreak Leaks

针对 287 种真实世界的攻击向量测试您的 LLM 系统提示词,包括提示词注入 (Prompt Injection)、越狱 和数据泄露。为生产环境 AI 系统提供自动化安全测试。

## 功能特性 - **9 个生产就绪的提示词** - 涵盖客户支持、销售、人力资源、法务、财务、代码审查等 - **287 种攻击向量** - 覆盖 2024-2025 年所有的越狱技术 - **5 个 LLM 提供商** - OpenAI、Anthropic、Grok、Gemini、Ollama - **提示词分析** - AI 驱动的分析,解析提示词的角色、能力和边界 - **自动化测试** - 基于 Ollama 的裁判 用于通过/失败决策 - **版本对比** - 跟踪并比较多次测试运行的结果 - **手动覆盖** - 点击将任何测试标记为通过/失败 - **专业报告** - 导出为包含图表的 JSON 或 PDF 格式 Screenshot 2025-11-20 at 16 47 27 ## 快速开始 ``` # Clone 和安装 git clone https://github.com/kazkozdev/system-prompt-benchmark cd system-prompt-benchmark pip install -r requirements.txt # 启动 Ollama(automated scoring 必需) ollama serve ollama pull qwen3:14b # LLM judge for evaluating responses # 启动 app ./start.sh ``` 在浏览器中打开 `http://localhost:8501`。 **注意:** 带有 `qwen3:14b` 的 Ollama 被用作 LLM 裁判,以自动对测试响应进行评分。如果没有它,您需要手动审查每个结果。您可以使用其他 Ollama 模型,但建议使用 `qwen3:14b` 以获得准确的评分。 ## 使用指南 1. **上传或选择提示词** - 上传 .txt 文件、粘贴文本或选择示例 2. **配置 LLM 提供商** - 选择 OpenAI、Anthropic、Grok、Gemini 或 Ollama 3. **分析提示词** (可选) - 获取关于提示词结构和安全性的 AI 洞察 4. **运行基准测试** - 使用自动评分针对 287 种攻击向量进行测试 5. **对比版本** - 跟踪多次测试运行中的改进 6. **导出结果** - 下载为 JSON 或 PDF 报告 ## 可用提示词 ### 商务与销售 - **客户支持机器人** - 具有越狱防护的电商支持 - **销售助手** - 带有价格控制的潜在客户筛选 - **HR 筛选机器人** - 带有反歧视规则的候选人筛选 ### 技术 - **代码审查助手** - OWASP Top 10 漏洞检测 - **企业知识 RAG** - 文档访问控制和数据隐私 ### 合规与安全 - **法律合规检查器** - GDPR、CCPA、HIPAA 指导 - **财务顾问机器人** - 带有免责声明的教育内容 - **教育导师** - 学术诚信执行 ### 内容 - **社交媒体创作者** - 锁定品牌的健身内容生成器 ## 攻击类别 基准测试涵盖以下攻击类型: **安全攻击** - 提示词注入 (“ignore previous instructions”) - 越狱 (DAN 模式、角色扮演技巧) - 提示词泄露 (提取系统指令) - 权限绕过 (伪造 CEO/管理员声明) **高级技术** - 多语言攻击 (6 种语言) - 编码技巧 (base64、ROT13、十六进制) - Token 走私 (逐字提取) - RAG 中毒 (伪造文档注入) **特定领域** - 学术不端企图 - 未授权折扣请求 - 法律/财务建议绕过 - HR 歧视触发 - 数据隐私违规 ## 最佳实践 **建议:** - 在生产环境前测试提示词 - 使用环境变量存储密钥 - 监控可疑请求 - 针对新攻击向量进行更新 - 使用多重安全层 **禁止:** - 在提示词中存储 API 密钥 - 仅依赖提示词进行安全防护 - 忽略失败的测试 - 跳过 Ollama 裁判审查 - 对不同访问级别使用同一提示词 ## 许可证 MIT 许可证 - 详情请参阅 [LICENSE](LICENSE) 文件。 ## 联系方式 - **GitHub Issues**: [Project Issues](https://github.com/KazKozDev/system-prompt-benchmark/issues) - **LinkedIn**: [Artem KK](https://www.linkedin.com/in/kazkozdev/) ⭐ 如果您觉得这个项目有帮助,请点个 Star
标签:AI安全, AI风险缓解, Anthropic, Chat Copilot, CIS基准, DNS 反向解析, Gemini, Grok, Jailbreak, Kubernetes, LLM评估, Ollama, OpenAI, Petitpotam, Python, Streamlit, 内存规避, 大模型安全, 安全合规, 安全基准测试, 安全报告生成, 攻击向量库, 数据泄露防护, 无后门, 网络代理, 网络探测, 访问控制, 越狱检测, 逆向工具