carrickcheah/human-ai-red-team
GitHub: carrickcheah/human-ai-red-team
面向 Agentic AI 系统的开源红队测试框架,支持多轮攻击、工具链利用和跨租户泄漏测试,配备 OWASP 与 MITRE ATLAS 标准映射的评分系统。
Stars: 0 | Forks: 0
# HART — 人机红队测试
一个用于 Agentic AI 系统红队测试的开源框架。支持多轮攻击、工具链利用和跨租户泄漏测试 —— 并配备标准化评分系统,与 OWASP 和 MITRE ATLAS 等现有标准相辅相成。
## 架构
```
Attack Layer → Plugin-based attack strategies (Crescendo, GOAT, GALA, GCG, TAP, MCP exploitation)
Target Layer → Connectors to any AI agent (HTTP API, MCP, function calling)
Evaluation Layer → Multi-judge grading, OWASP + MITRE ATLAS severity mapping, HART score
Defence Layer → Tiered threat response (L0-L4), tool-gating, memory isolation
```
## 技术栈
- **核心 API + 插件:** TypeScript + Bun + Hono
- **ML 攻击引擎:** Python + uv (PyTorch, HuggingFace)
- **桥接层:** TS 和 Python 之间的 HTTP/gRPC 通信
## 研究
马来亚大学博士项目 —— “面向 Agentic AI 安全的人机红队测试”。
| RQ | 问题 |
|----|----------|
| RQ1 | 针对 Agentic AI 的多轮对抗性攻击分类法 |
| RQ2 | 工具链利用(从 Prompt 注入到 RCE) |
| RQ3 | 多租户 AI 部署中的跨租户数据泄漏 |
| RQ4 | 混合人机红队测试框架设计 |
## 状态
研究阶段 —— 文献综述与攻击分类体系开发。
## 许可证
[Apache 2.0](LICENSE)
标签:Agentic AI, AI 安全, AI 对抗攻击, Apache 2.0, Bun, CISA项目, Hono, HuggingFace, LLM 安全, MCP 安全, MITRE ATLAS, PE 加载器, Python, Python工具, PyTorch, RCE, TypeScript, 凭据扫描, 函数调用安全, 博士生研究项目, 域名收集, 多轮攻击, 安全插件, 密码管理, 工具链利用, 无后门, 模型安全评估, 红队框架, 自动化渗透测试, 跨租户泄露, 逆向工具