donut-hole0/promptforge

GitHub: donut-hole0/promptforge

PromptForge 是一个面向 AI Agent 的自动化 prompt injection 渗透测试平台,通过分类攻击库和 LLM-as-judge 评分机制帮助开发者发现并量化 LLM 端点的安全漏洞。

Stars: 0 | Forks: 0

# PromptForge **一个专为 AI agents 设计的自动化渗透测试平台。** 将 PromptForge 指向任何 LLM 聊天机器人、agent 或 API endpoint,它就会运行一系列精心策划的 prompt injection 和越狱攻击,然后生成一份带有严重性评分的漏洞报告。可以把它看作“针对 AI agents 的 Burp Suite / Nessus”。 为 CipherHacks 而构建。 ## 工作原理 1. 你提供一个目标:一个 OpenAI 兼容的 API endpoint(或聊天机器人 wrapper)。 2. 运行引擎向目标发射已分类的攻击 payload。 3. 每个响应都会通过 LLM-as-judge 以及启发式检查进行通过/失败评分。 4. Dashboard 实时流式传输结果,并生成一份 CVSS 风格的报告。 ## 仓库结构 ``` attacks/ # P1 - curated + categorized attack payload library (JSON/YAML) engine/ # P2 - runner engine: sends attacks, parses + scores responses dashboard/ # P3 - real-time UI: live results, severity scoring, report export demo-target/ # P4 - deliberately weak demo chatbot used for the live demo docs/ # pitch deck, demo script, methodology notes ``` ## 团队与职责 | 职责 | 负责人 | 责任 | |------|---------|----------------------------------------------------------------------| | P1 | Shourya | 攻击库:策划并对 100 多个 injection payload 进行分类 | | P2 | Alan | 运行引擎 + 技术负责人:执行 pipeline、LLM-as-judge | | P3 | Iyan | Dashboard:实时结果 UI、严重性评分、报告导出 | | P4 | Josh | 演示目标 + 路演;灵活协助引擎 (P2) 和 dashboard (P3)| ## 技术栈 - **引擎:** Python 3.11 + FastAPI(异步攻击执行,REST API) - **评分:** 通过 API 进行 LLM-as-judge + 正则表达式/启发式检查 - **Dashboard:** React + Vite,通过 WebSocket/SSE 进行实时更新 - **演示目标:** 带有故意薄弱 system prompt 的小型 FastAPI 聊天机器人 ## 快速开始 ``` git clone https://github.com/donut-hole0/promptforge.git cd promptforge # engine cd engine python -m venv .venv && source .venv/bin/activate pip install -r requirements.txt ``` 将你的模型 API key 设置为环境变量(切勿提交 key): ``` export LLM_API_KEY=your_key_here ``` ## 路线图(24小时黑客松) - [ ] 引擎能够请求 OpenAI 兼容的 endpoint 并返回原始响应 - [ ] 攻击库 v1(50+ payload,已分类) - [ ] 带有置信度阈值的 LLM-as-judge 评分 - [ ] Dashboard 流式传输实时结果 - [ ] 部署演示目标聊天机器人 - [ ] 报告导出(PDF/JSON) - [ ] 排练好的现场演示 ## 免责声明 仅供教育和授权的安全测试使用。仅对你拥有或获得明确测试许可的 endpoint 进行测试。
标签:AI安全, Chat Copilot, DLL 劫持, Homebrew安装, 大语言模型, 自动化评估