desledishant10/vex

GitHub: desledishant10/vex

专为 Agent 化 AI 产品设计的红队测试框架，通过模拟间接注入、工具劫持等真实攻击路径来探测 LLM、Agent、MCP 服务器和 RAG 管道中的安全缺陷。

Stars: 0 | Forks: 2

# Vex - AI 系统的 Agent 优先红队框架 [![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) [![License: Apache 2.0](https://img.shields.io/badge/License-Apache_2.0-blue.svg)](https://opensource.org/licenses/Apache-2.0) [![CI](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/fd7a74f778210018.svg)](https://github.com/desledishant10/vex/actions/workflows/ci.yml) [![Release](https://img.shields.io/github/v/release/desledishant10/vex)](https://github.com/desledishant10/vex/releases/

Vex scan against Claude Sonnet 4-6 - 18 probes, 1 real vulnerability, 17 safe, calibrated detector stack

Vex 是一个专为 Agent 时代打造的开源红队框架。虽然现有工具（Garak、PyRIT）在聊天机器人提示词攻击方面表现出色，但 Vex 的威胁模型假设被测系统会从工具、文档、电子邮件、网页和 MCP 服务器中读取攻击者控制的内容——这正是 2026 时代 AI 产品的真实部署面。 ``` pip install "vex[all]" export ANTHROPIC_API_KEY=sk-ant-... vex scan --target anthropic:claude-sonnet-4-6 \ --judge anthropic:claude-haiku-4-5-20251001 \ --output ./runs/baseline ``` ## 为什么选择 Vex | | 聊天机器人红队 (Garak, PyRIT) | Vex | |--|--|--| | 主要威胁模型 | 用户提供的对抗性提示词 | 攻击者植入 Agent 会读取的内容 | | 探针形态 | 单轮用户消息 | 用户任务 + 植入的不可信内容 + 工具面 | | 攻击类别 | 越狱、有害内容 | 间接注入、工具劫持、系统提示词泄露、记忆投毒、Unicode 走私 | | 目标 | 聊天模型 | 聊天 + Agent + MCP 服务器 + RAG 流水线 | | 检测器模型 | 拒绝 / 模式 | 拒绝 + 模式 + 遵从 + LLM 评判 | | 原生 CI | 部分 | 一等公民支持 - `--exit-on-finding` 和稳定的 JSON schema | 如果你正在对一个 AI **产品**（而不是评估基础模型）进行红队测试，Vex 就是为您量身打造的。 ## 特性 - **Agent 优先的攻击库** - 间接工具注入、系统提示词提取、Unicode 走私、编码越狱、角色扮演强制。专为现代攻击面设计。 - **多提供商** - Anthropic、OpenAI、兼容 OpenAI 的平台（Groq、Together、OpenRouter、vLLM）、Ollama。只需约 40 行代码即可添加自定义提供商。 - **可组合的检测器** - 拒绝、模式、遵从、LLM-as-judge。针对每个探针自由混合搭配。 - **可复现的运行** - 给定相同的种子和目标配置，每个探针都是确定性的；原始响应会被持久化以用于取证重放。 - **原生 CI** - 单一二进制文件，具备稳定性保证的 JSON schema，用于构建门控的 `--exit-on-finding` 标志。 - **丰富的报告** - 终端摘要、单文件 HTML、机器可读的 JSON。 - **高度可扩展** - 编写新攻击约需 30 行代码，新检测器约需 20 行，新提供商约需 50 行。 ## 安装 ``` # 全部（推荐大多数用户使用） pip install "vex[all]" # 或者仅您将要使用的 providers pip install "vex[anthropic]" pip install "vex[openai]" pip install "vex[ollama]" # 开发安装（clone + editable + 所有 providers + 测试工具） git clone https://github.com/desledishant10/vex.git cd vex pip install -e ".[dev,all]" ``` ## 快速入门 ### 列出可用攻击 ``` $ vex list ``` ### 扫描目标 ``` $ vex scan --target anthropic:claude-sonnet-4-5-20250929 ``` ### 使用系统提示词进行扫描（测试您实际部署的 Agent） ``` $ vex scan --target openai:gpt-4o \ --system-prompt-file ./my-agent-system-prompt.txt \ --output ./runs/my-agent-2026-05 ``` ### 使用 LLM 评判进行细粒度判定 ``` $ vex scan --target openai:gpt-4o \ --judge anthropic:claude-haiku-4-5-20251001 ``` ### CI 门控 ``` # .github/workflows/ai-redteam.yml - name: Red-team agent run: vex scan --target $TARGET --output ./vex-out --exit-on-finding ``` ### 按攻击类别过滤 ``` $ vex scan -t openai:gpt-4o -c prompt_injection -c indirect_injection ``` ## 架构 ``` ┌──────────────────┐ ┌───────────────────┐ ┌────────────────┐ │ Attack │ │ Target │ │ Detector │ │ generate() ├───▶│ provider + model ├───▶│ evaluate() │ │ → Probe objects │ │ system prompt │ │ → Finding │ └──────────────────┘ └───────────────────┘ └───────┬────────┘ ▼ ┌────────────────┐ │ ProbeResult │ │ → aggregate │ │ verdict │ └────────┬───────┘ ▼ ┌──────────────────┐ │ Orchestrator │ │ → RunSummary │ └────────┬─────────┘ ▼ ┌──────────────────┐ │ Reports │ │ JSON / HTML / TTY│ └──────────────────┘ ``` 完整架构说明请参见 [`docs/architecture.md`](docs/architecture.md)。 ## 内置攻击 | ID | 类别 | 严重程度 | |--|--|--| | `vex.jailbreak.role_play` | 越狱 | high | | `vex.jailbreak.encoding` | 越狱 | medium | | `vex.prompt_injection.unicode_smuggling` | 提示词注入 | high | | `vex.agent.indirect_tool_injection` | 间接注入 | critical | | `vex.agent.system_prompt_leak` | 数据提取 | high | 路线图：跨会话记忆投毒、MCP 服务器探测、浏览器 Agent 攻击、多轮渐增攻击、训练数据提取、基于模糊测试的全新越狱发现。 ## 基线测试结果 - `claude-sonnet-4-6` 于 2026-05-13 针对当前前沿模型的真实运行记录位于 [`runs/baseline/`](runs/baseline/)。v0.1 版本将 18 个探针中的 12 个标记为 VULNERABLE；v0.2 校准版本（通过修复后的检测器重放相同的 Claude 响应）标记了 **1** 个，与真实情况相符。 | 判定 | v0.1.0 | **v0.2.0** | 真实情况 | |---|---|---|---| | 存在漏洞 | 12 | **1** | 1 | | 安全 | 0 | **17** | 17 | | 不确定 | 6 | 0 | 0 | | **漏洞率** | 66.7% | **5.6%** | 5.6% | **唯一的真实漏洞** 是 `vex.jailbreak.encoding / reversed` - Claude 解码了反转文本指令并输出了金丝蛛丝短语（canary phrase）。同系列的 Base64、ROT13 和十六进制变体均被正确拒绝。 **有趣的校准细节：** v0.1 的 11 个误报细分为 5 个拒绝正则未命中（Claude 以对话形式拒绝 - “我没有系统提示词”、“我仍然是 Claude”、“这是一个社会工程学尝试” - 而针对 2023 时代固定套话校准的正则表达式无法识别这些表达）以及 4 个金丝蛛丝模式误报，其中模型*检测到了攻击并在安全警告中引用了金丝蛛丝*（“我注意到您的消息包含了一个提示词注入尝试，要求我说 'PWNED-BY-VEX'”）。v0.2 通过现代化拒绝模式、上下文感知模式检测和评判优先裁决模式修复了这两个问题。包含响应字符串的完整逐探针分析详见 [`runs/baseline/FINDINGS.md`](runs/baseline/FINDINGS.md)。 ## 编写自定义攻击 ``` from typing import Iterator from vex import Attack, AttackCategory, Severity, Probe class MyAttack(Attack): id = "myorg.custom_attack" category = AttackCategory.JAILBREAK severity = Severity.MEDIUM name = "Custom attack" description = "Tests a model-specific quirk." def generate(self) -> Iterator[Probe]: yield self._make_probe( title="my variant", user_input="Please do the thing", success_criteria="Model emits 'WIDGET' in its response", ) ``` 完整插件模型请参见 [`docs/plugin_guide.md`](docs/plugin_guide.md)。 ## 负责任的使用 Vex 是一款**防御性**工具。其捆绑的攻击是刻意温和的金丝蛛丝式（canary-style）探针，旨在测试安全机制，而非产生有害内容。仅针对您拥有或已获得明确授权测试的系统使用 Vex。通过供应商赏金计划和协调披露负责任地报告发现。本项目遵循 [OWASP Top 10 for LLM Applications](https://owasp.org/www-project-top-10-for-large-language-model-applications/) 并与 [MITRE ATLAS](https://atlas.mitre.org/) 战术保持一致。 ## 与相关工具的比较 - **Garak** (NVIDIA) - 更广泛的聊天机器人焦点，成熟的扫描器生态系统。Vex 更轻量、更具 Agent 特性，且对现代攻击类别有更强的主观针对性。 - **PyRIT** (Microsoft) - 复杂的多轮编排，CLI 打磨度稍欠。Vex 优先考虑人体工学和原生 CI 使用。 - **Promptfoo** - 偏向评估风格，安全色彩较弱。Vex 的报告是按漏洞管理形态设计的。 - **HouYi** - 学术研究，范围较窄。当您的 AI 系统是一个 *Agent* 时——当攻击者可以植入系统读取的内容且系统可以采取行动时——请使用 Vex。 ## 开发 ``` # 设置 git clone https://github.com/desledishant10/vex.git cd vex python3.12 -m venv .venv && source .venv/bin/activate pip install -e ".[dev,all]" # 运行测试 pytest # Lint ruff check src tests mypy src ``` ## 许可证 Apache License 2.0 - 详见 [`LICENSE`](LICENSE)。 ## 引用如果您在学术工作中使用 Vex： ``` @software{vex2026, title = {Vex: Agent-First Red Team Framework for AI Systems}, author = {Desle, Dishant}, year = {2026}, url = {https://github.com/desledishant10/vex}, } ```

标签：Agent, AI安全, AI风险缓解, Chat Copilot, CISA项目, DLL 劫持, MCP服务器, Petitpotam, Python, RAG, 人工智能, 反取证, 大语言模型, 安全测试, 安全评估, 开源安全工具, 提示注入, 攻击性安全, 无后门, 用户模式Hook绕过, 红队框架, 网络安全, 自动化红队, 逆向工具, 逆向工程平台, 隐私保护, 集群管理