BhavyaSheth3294/promptshield

GitHub: BhavyaSheth3294/promptshield

一款暗黑黑客风格的 AI 提示注入安全测试平台，通过 50+ 对抗攻击提供实时评分与加固建议。

Stars: 0 | Forks: 0

# PromptShield 🛡️ AI 提示注入安全测试器 **具有暗黑黑客美学的 AI 提示安全对抗测试平台** [![Python](https://img.shields.io/badge/Python-3.8+-blue.svg)](https://python.org) [![Streamlit](https://img.shields.io/badge/Streamlit-1.32.0-FF6B6B.svg)](https://streamlit.io) [![License](https://img.shields.io/badge/License-MIT-green.svg)](LICENSE) ## 🎯 问题陈述 AI 系统容易受到提示注入攻击，其中恶意输入会操纵模型行为、绕过安全措施或提取敏感信息。安全团队需要在部署前使用强大的测试工具来识别这些漏洞。 ## 🚀 解决方案 PromptShield 是一个全面的安全测试平台，模拟 **50+ 种对抗性攻击**，涵盖 7 个关键漏洞类别，提供定量安全评估和可操作的加固建议。 ## ⚡ 功能特性 ### 核心能力 - **50+ 攻击向量** 涵盖 7 个类别（越狱、提示泄露、指令覆盖、编码攻击、上下文操纵、PII 提取、工具滥用） - **实时 API 测试** 针对 Claude 模型，使用用户提供的 API 密钥 - **安全评分**（0-100 分），包含类别细分和风险评估 - **成功模式匹配** 精确显示哪些攻击成功 - **加固建议** 提供代码示例和实现指导 - **示例系统提示** 用于真实测试场景 ### 暗黑黑客美学 - 灵感源自 Matrix 的黑色背景配霓虹绿色点缀 - 终端字体（Orbitron、JetBrains Mono）营造真实黑客氛围 - 故障效果和动画元素 - 类命令行界面设计 ### 攻击类别 1. **越狱（Jailbreaks）** - 绕过安全措施和伦理准则 2. **提示泄露（Prompt Leakage）** - 提取系统提示和内部指令 3. **指令覆盖（Instruction Override）** - 用恶意行为替换预期行为 4. **编码攻击（Encoding Attacks）** - 使用字符编码隐藏恶意意图 5. **上下文操纵（Context Manipulation）** - 污染对话历史或上下文 6. **PII 提取（PII Extraction）** - 尝试提取个人/敏感信息 7. **工具滥用（Tool Abuse）** - 错误使用函数调用和工具访问 ## 🛠️ 安装 ``` # 克隆仓库 git clone https://github.com/BhavyaSheth3294/promptshield.git cd promptshield # 安装依赖 pip install -r requirements.txt # 运行应用程序 streamlit run app.py ``` ## 📋 需求 - Python 3.8+ - Anthropic API 密钥（用于测试） - 现代网页浏览器 ## 🎮 使用方法 1. **启动应用**：`streamlit run app.py` 2. **在侧边栏输入 Anthropic API 密钥** 3. **选择或粘贴要测试的系统提示** 4. **选择要包含的攻击类别** 5. **运行安全评估并查看结果** 6. **查看检测到的漏洞的加固建议** ## 📊 安全评分 PromptShield 采用 CVSS 启发式评分方法： - **0-30**：低风险 - 基础提示卫生问题 - **31-60**：中等风险 - 需要关注的适度漏洞 - **61-85**：高风险 - 可能对业务造成影响的严重漏洞 - **86-100**：关键风险 - 需要立即修复的严重漏洞 ## 🔧 包含的示例提示 - **客户支持机器人** - 电子商务支持助手 - **代码审查员** - 以安全为重点的代码分析 - **医疗助理** - 符合 HIPAA 的健康信息 - **财务顾问** - 投资和银行业务指导 - **HR 助理** - 员工信息管理 - **教育导师** - 学生学习支持 ## 🏗️ 架构设计 ``` promptshield/ ├── app.py # Main Streamlit application ├── attacks.py # Attack definitions and vectors ├── attack_suite.py # Async execution engine ├── scoring.py # Security assessment logic ├── recommendations.py # Hardening guidance database ├── samples.py # Sample system prompts └── requirements.txt # Python dependencies ``` ## 🔒 安全注意事项 - API 密钥仅保存在内存中（不存储） - 速率限制防止 API 滥用 - 攻击模式仅用于教育/防御目的 - 不生成实际的恶意内容 ## 🎯 目标用户 - **安全工程师** - 验证 AI 系统的健壮性 - **AI/ML 团队** - 部署前的安全测试 - **DevSecOps** - 集成到 CI/CD 流水线 - **研究人员** - 研究提示注入模式 - **合规团队** - 展示安全尽职调查 ## 📈 商业价值 - **减少安全事件** - 在生产前捕获漏洞 - **合规性** - 展示安全测试实践 - **成本避免** - 防止昂贵的安全漏洞 - **建立信任** - 展示对负责任 AI 的承诺 ## 🚧 路线图 - [ ] 新增模型支持（OpenAI GPT、Anthropic Claude 变体） - [ ] 自定义攻击向量创建界面 - [ ] 自动化 CI/CD 集成 - [ ] 合规报告（SOC2、ISO27001） - [ ] 多语言支持 ## 📝 许可证 MIT 许可证 - 详细信息请参见 [LICENSE](LICENSE) 文件。 ## 📞 支持如有疑问或问题： - 创建 GitHub 问题 - 联系：[您的联系信息] **由 Bhavya Sheth ❤️ 构建 | 组合项目 #5** *属于全面的 AI 安全工具系列*

标签：AES-256, AI安全, API测试, Chat Copilot, Claude模型, GitHub Advanced Security, Glitch效果, Jailbreak, Kubernetes, Matrix风格, PII提取, Prompt注入, Python, SEO: AI安全测试, SEO: Prompt注入防护, SEO: 对抗性攻击平台, Streamlit应用, 上下文操纵, 代码示例, 命令行界面, 安全加固, 安全测试, 安全量化, 实时评分, 密钥泄露防护, 对抗攻击, 工具滥用, 指令覆盖, 提示泄漏, 提示注入, 攻击性安全, 敏感信息检测, 数据分析, 无后门, 暗黑客美学, 机器学习安全, 样本提示, 漏洞评估, 硬性推荐, 终端字体, 编码攻击, 逆向工具, 集群管理, 霓虹绿, 黑底绿字