abhinandanpandey-in/Agent-Isolate-X
GitHub: abhinandanpandey-in/Agent-Isolate-X
一个面向 Agentic AI 的零信任安全研究框架,通过双核隔离与语义净化机制有效缓解间接 Prompt 注入攻击。
Stars: 0 | Forks: 0
# Agent-Isolate-X:双核 LLM 安全架构
### *通过隔离执行与语义净化缓解 Prompt 注入*
**Agent-Isolate-X** 是一个面向研究的安全框架,旨在消除 Agentic AI 系统中的间接 Prompt 注入(IPI)和二阶注入攻击。
通过实施**双核隔离**策略,该架构将不可信的数据处理与特权系统逻辑解耦,在本地基准测试的 75 种以上高级攻击向量中实现了 **0.0% 的漏洞率**。
## 🛡️ 问题:“上帝模式”谬误
大多数 AI Agent 都在单核逻辑上运行:同一个 LLM 实例在读取不可信用户数据(文档、电子邮件、网络搜索)的同时,还掌握着敏感的系统指令(API 密钥、密码)。
**结果:** 攻击者可以通过 Agent 读取的数据来“劫持”其角色设定,迫使其泄露机密或执行未经授权的命令。
## 🏗️ 解决方案:双核隔离
Agent-Isolate-X 将“大脑”拆分为两个专门的层级:
1. **隔离执行器(第 1 层):**
- **角色:** 读取原始的、不可信的文档。
- **约束:** 对系统机密或敏感工具零访问权限。
- **输出:** 严格格式化的 JSON,仅包含提取的事实。
2. **语义粉碎器(中间件):**
- **角色:** 确定性的 Python 过滤器(Regex),用于清除执行器输出中所有非数字和非事实的字符。
- **约束:** 删除所有祈使动词和命令语法。
3. **特权控制器(第 2 层):**
- **角色:** 掌握系统机密并协调最终输出。
- **约束:** 绝不与原始文档交互;仅查看“粉碎后”的事实数据。
## 📊 基准测试结果(Mistral-7B)
使用 `benchmark.py` 针对 75 种不同的攻击向量(包括 Base64 混淆、外语绕过和上下文填充)进行了测试。
| 架构 | 漏洞率 | 状态 |
| :--- | :---: | :--- |
| **标准原生 Agent** | **75.0%** | ❌ 易受攻击 |
| **Agent-Isolate-X** | **0.0%** | ✅ 安全 |
## 🚀 入门指南
### 前置条件
- 已安装并正在运行 [Ollama](https://ollama.com/)。
- 已拉取 Mistral 模型:`ollama pull mistral`
- Python 3.10+
### 安装与使用
1. **克隆仓库:**
git clone https://github.com/YOUR_USERNAME/Agent-Isolate-X.git
cd Agent-Isolate-X
2. **构建攻击武器库:**
python payload_builder.py
3. **运行安全审计:**
python benchmark.py
## 🛠️ 项目结构
| 文件 | 描述 |
| :--- | :--- |
| `attacker.py` | 演示基线 YAML 陷阱漏洞利用。 |
| `defender.py` | 实现核心的 Isolate-X 逻辑。 |
| `payload_builder.py` | 生成 75 种多样化的注入向量用于测试。 |
| `benchmark.py` | 用于对比分析的自动化测试套件。 |
## 📜 免责声明
本项目仅供**教育和研究目的**。它演示了针对特定类别 Prompt 注入的缓解措施。LLM 的安全性是一个不断发展的领域;请始终使用多层防御机制。
标签:AI智能体安全, AI红蓝对抗, AI越狱防御, AI风险缓解, API密钥保护, CISA项目, Mistral-7B, Python网络安全, 企业AI安全框架, 双核心隔离架构, 命令注入防御, 大模型安全, 安全基准测试, 提示词注入防御, 数据不可信模型, 数据清洗, 特权控制器, 第二阶注入攻击, 网络安全, 自然语言处理安全, 语义清洗, 逆向工具, 间接提示词注入, 隐私保护, 隔离执行器, 零信任架构