qualifire-dev/rogue
GitHub: qualifire-dev/rogue
一款 AI 智能体安全评估平台,支持自动化策略验证与红队对抗演练,帮助企业在上线前发现智能体的行为偏差和安全漏洞。
Stars: 1011 | Forks: 159
# Rogue — AI 智能体评估器与红队平台


**在攻击者动手之前,先对您的 AI 智能体进行压力测试。**
[Discord Community](https://discord.gg/EUfAt7ZDeK) · [Quick Start](#-quick-start) · [Documentation](./docs/)
## 强化智能体的两种方式
## 架构
Rogue 采用**客户端-服务器架构**,并提供多种接口:
| 组件 | 描述 |
| --------- | -------------------------------------- |
| **Server** | 核心评估与红队逻辑 |
| **TUI** | 现代终端界面 (Go + Bubble Tea) |
| **CLI** | 用于 CI/CD 流水线的非交互模式 |
https://github.com/user-attachments/assets/b5c04772-6916-4aab-825b-6a7476d77787
### 支持的协议
| 协议 | 传输方式 | 描述 |
| --------- | -------------------- | --------------------------------- |
| **A2A** | HTTP | [Google's Agent-to-Agent](https://a2a-protocol.org/latest/) 协议 |
| **MCP** | SSE, STREAMABLE_HTTP | 通过 `send_message` 工具 [Model Context Protocol](https://modelcontextprotocol.io/) |
| **Python** | — | 直接 Python 函数调用(无网络协议) |
参见 [`examples/`](./examples/) 中的示例以获取参考实现。
#### Python 入口点
对于实现为 Python 函数且不使用 A2A 或 MCP 的智能体:
1. 创建一个包含 `call_agent` 函数的 Python 文件:
```
def call_agent(messages: list[dict]) -> str:
"""
Process conversation and return response.
Args:
messages: List of {"role": "user"|"assistant", "content": "..."}
Returns:
Agent's response as a string
"""
# Your agent logic here
latest = messages[-1]["content"]
return f"Response to: {latest}"
```
2. 使用 Python 协议运行 Rogue:
```
uvx rogue-ai cli \
--protocol python \
--python-entrypoint-file ./my_agent.py \
--judge-llm openai/gpt-4o-mini
```
或通过 TUI:选择 "Python" 作为协议并输入文件路径。
完整示例请参见 [`examples/python_entrypoint_stub.py`](./examples/python_entrypoint_stub.py)。
## 🔥 快速开始
### 前置条件
- `uvx` — [Install uv](https://docs.astral.sh/uv/getting-started/installation/)
- Python 3.10+
- LLM API 密钥 (OpenAI, Anthropic, 或 Google)
### 安装
```
# TUI(推荐)
uvx rogue-ai
# CLI / CI/CD
uvx rogue-ai cli
```
### 使用示例智能体尝试
```
# 一体化:同时启动 Rogue 和示例 T 恤店代理
uvx rogue-ai --example=tshirt_store
```
在 UI 中配置:
- **Agent URL**: `http://localhost:10001`
- **Mode**: 选择 `Automatic Evaluation` 或 `Red Teaming`
## 运行模式
| 模式 | 命令 | 描述 |
| -------- | --------------------- | ---------------------- |
| Default | `uvx rogue-ai` | 服务器 + TUI |
| Server | `uvx rogue-ai server` | 仅后端 |
| TUI | `uvx rogue-ai tui` | 终端客户端 |
| CLI | `uvx rogue-ai cli` | 非交互模式 (CI/CD) |
### 服务器选项
```
uvx rogue-ai server --host 0.0.0.0 --port 8000 --debug
```
### CLI 选项
```
uvx rogue-ai cli \
--evaluated-agent-url http://localhost:10001 \
--judge-llm openai/gpt-4o-mini \
--business-context-file ./.rogue/business_context.md
```
| 选项 | 描述 |
| ------------------------ | ------------------------------------------- |
| `--config-file` | 配置 JSON 路径 |
| `--evaluated-agent-url` | 智能体端点(必填) |
| `--judge-llm` | 用于评估的 LLM(必填) |
| `--business-context` | 上下文字符串或 `--business-context-file` |
| `--input-scenarios-file` | 场景 JSON 文件 |
| `--output-report-file` | 报告输出路径 |
| `--deep-test-mode` | 扩展测试 |
## 红队演练
### 扫描类型
| 类型 | 漏洞数 | 攻击数 | 耗时 |
| ---------- | ------------ | ------------ | ---------- |
| **Basic** | 5 个精选 | 6 个 | ~2-3 分钟 |
| **Full** | 75+ 个 | 40+ 个 | ~30-45 分钟|
| **Custom** | 用户自选 | 用户自选 | 不定 |
### 合规框架
- **OWASP LLM Top 10** — 提示注入、敏感数据泄露、过度授权
- **MITRE ATLAS** — AI 系统对抗性威胁全景
- **NIST AI RMF** — AI 风险管理框架
- **ISO/IEC 42001** — AI 管理体系标准
- **EU AI Act** — 欧盟 AI 法规合规
- **GDPR** — 数据保护要求
- **OWASP API Top 10** — API 安全最佳实践
### 攻击类别
| 类别 | 示例 |
| ---------------- | -------------------------------------- |
| Encoding | Base64, ROT13, Leetspeak |
| Social Engineering | 角色扮演、建立信任 |
| Injection | 提示注入、SQL 注入 |
| Semantic | 目标重定向、上下文污染 |
| Technical | 灰盒探测、权限提升 |
### 风险评分(基于 CVSS)
每个漏洞都会获得一个 **0-10 的风险评分**,基于:
- **Impact (影响)** — 被利用后的严重程度
- **Exploitability (可利用性)** — 成功率可能性
- **Human Factor (人为因素)** — 手动利用的潜力
- **Complexity (复杂度)** — 攻击难度
### 可复现扫描
```
# 使用随机种子以获得可复现的结果
uvx rogue-ai cli --random-seed 42
```
非常适合回归测试和验证安全修复。
## 配置
### 环境变量
```
OPENAI_API_KEY="sk-..."
ANTHROPIC_API_KEY="sk-..."
GOOGLE_API_KEY="..."
```
### 配置文件 (`.rogue/user_config.json`)
```
{
"evaluated_agent_url": "http://localhost:10001",
"judge_llm": "openai/gpt-4o-mini"
}
```
## 核心功能
| 功能 | 描述 |
| ------------------------ | ---------------------------------------- |
| 🔄 动态场景 | 根据业务上下文自动生成测试 |
| 👀 实时监控 | 实时查看智能体对话 |
| 📊 综合报告 | Markdown, CSV, JSON 导出 |
| 🔍 多维度测试 | 策略合规 + 安全漏洞 |
| 🤖 模型支持 | OpenAI, Anthropic, Google (通过 LiteLLM) |
| 🛡️ CVSS 评分 | 行业标准风险评估 |
| 🔁 可复现性 | 使用随机种子进行确定性扫描 |
## 文档
- **[Quick Reference](./docs/QUICK_REFERENCE.md)** — 单页速查表
- **[Red Team Workflow](./docs/RED_TEAM_WORKFLOW.md)** — 技术深入解析
- **[Implementation Status](./docs/IMPLEMENTATION_STATUS.md)** — 功能详解
- **[Attack Mapping](./docs/ATTACK_VULNERABILITY_MAPPING.md)** — 漏洞覆盖范围
## 许可证
根据专有许可证授权 — 详见 [LICENSE](LICENSE.md)。
个人和内部使用免费。商业托管需要许可。
联系方式:`admin@qualifire.ai`
**在攻击者动手之前,先对您的 AI 智能体进行压力测试。**
[Discord Community](https://discord.gg/EUfAt7ZDeK) · [Quick Start](#-quick-start) · [Documentation](./docs/)
| ### 🎯 自动评估 根据**业务策略**和预期行为测试您的智能体。 - 定义场景与预期结果 - 验证是否符合业务规则 - 实时查看 Rogue 探测您的智能体时的对话 - 获取包含推理过程的详细通过/失败报告 **适用于:** 回归测试、行为验证、策略合规 | ### 🔴 红队演练 模拟**对抗性攻击**以发现安全漏洞。 - 涵盖 12 个安全类别的 75+ 个漏洞 - 20 种攻击技术(编码、社会工程学、注入) - 基于 CVSS 的风险评分 - 8 种合规框架(OWASP、MITRE、NIST、GDPR、欧盟 AI 法案) **适用于:** 安全审计、渗透测试、合规报告 |
标签:AI安全, AI红队, Chat Copilot, CVSS, DNS 反向解析, ESC8, GDPR合规, Go语言, LLM, LNA, MITRE ATLAS, NIST框架, Python, Unmanaged PE, 域名收集, 大语言模型评估, 提示注入, 无后门, 日志审计, 社会工程学, 程序破解, 逆向工具, 集群管理, 零日漏洞检测, 风险评分