donut-hole0/promptforge
GitHub: donut-hole0/promptforge
PromptForge 是一个面向 AI Agent 的自动化 prompt injection 渗透测试平台,通过分类攻击库和 LLM-as-judge 评分机制帮助开发者发现并量化 LLM 端点的安全漏洞。
Stars: 0 | Forks: 0
# PromptForge
**一个专为 AI agents 设计的自动化渗透测试平台。**
将 PromptForge 指向任何 LLM 聊天机器人、agent 或 API endpoint,它就会运行一系列精心策划的 prompt injection 和越狱攻击,然后生成一份带有严重性评分的漏洞报告。可以把它看作“针对 AI agents 的 Burp Suite / Nessus”。
为 CipherHacks 而构建。
## 工作原理
1. 你提供一个目标:一个 OpenAI 兼容的 API endpoint(或聊天机器人 wrapper)。
2. 运行引擎向目标发射已分类的攻击 payload。
3. 每个响应都会通过 LLM-as-judge 以及启发式检查进行通过/失败评分。
4. Dashboard 实时流式传输结果,并生成一份 CVSS 风格的报告。
## 仓库结构
```
attacks/ # P1 - curated + categorized attack payload library (JSON/YAML)
engine/ # P2 - runner engine: sends attacks, parses + scores responses
dashboard/ # P3 - real-time UI: live results, severity scoring, report export
demo-target/ # P4 - deliberately weak demo chatbot used for the live demo
docs/ # pitch deck, demo script, methodology notes
```
## 团队与职责
| 职责 | 负责人 | 责任 |
|------|---------|----------------------------------------------------------------------|
| P1 | Shourya | 攻击库:策划并对 100 多个 injection payload 进行分类 |
| P2 | Alan | 运行引擎 + 技术负责人:执行 pipeline、LLM-as-judge |
| P3 | Iyan | Dashboard:实时结果 UI、严重性评分、报告导出 |
| P4 | Josh | 演示目标 + 路演;灵活协助引擎 (P2) 和 dashboard (P3)|
## 技术栈
- **引擎:** Python 3.11 + FastAPI(异步攻击执行,REST API)
- **评分:** 通过 API 进行 LLM-as-judge + 正则表达式/启发式检查
- **Dashboard:** React + Vite,通过 WebSocket/SSE 进行实时更新
- **演示目标:** 带有故意薄弱 system prompt 的小型 FastAPI 聊天机器人
## 快速开始
```
git clone https://github.com/donut-hole0/promptforge.git
cd promptforge
# engine
cd engine
python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt
```
将你的模型 API key 设置为环境变量(切勿提交 key):
```
export LLM_API_KEY=your_key_here
```
## 路线图(24小时黑客松)
- [ ] 引擎能够请求 OpenAI 兼容的 endpoint 并返回原始响应
- [ ] 攻击库 v1(50+ payload,已分类)
- [ ] 带有置信度阈值的 LLM-as-judge 评分
- [ ] Dashboard 流式传输实时结果
- [ ] 部署演示目标聊天机器人
- [ ] 报告导出(PDF/JSON)
- [ ] 排练好的现场演示
## 免责声明
仅供教育和授权的安全测试使用。仅对你拥有或获得明确测试许可的 endpoint 进行测试。
标签:AI安全, Chat Copilot, DLL 劫持, Homebrew安装, 大语言模型, 自动化评估