abhinandanpandey-in/Agent-Isolate-X

GitHub: abhinandanpandey-in/Agent-Isolate-X

一个面向 Agentic AI 的零信任安全研究框架,通过双核隔离与语义净化机制有效缓解间接 Prompt 注入攻击。

Stars: 0 | Forks: 0

# Agent-Isolate-X:双核 LLM 安全架构 ### *通过隔离执行与语义净化缓解 Prompt 注入* **Agent-Isolate-X** 是一个面向研究的安全框架,旨在消除 Agentic AI 系统中的间接 Prompt 注入(IPI)和二阶注入攻击。 通过实施**双核隔离**策略,该架构将不可信的数据处理与特权系统逻辑解耦,在本地基准测试的 75 种以上高级攻击向量中实现了 **0.0% 的漏洞率**。 ## 🛡️ 问题:“上帝模式”谬误 大多数 AI Agent 都在单核逻辑上运行:同一个 LLM 实例在读取不可信用户数据(文档、电子邮件、网络搜索)的同时,还掌握着敏感的系统指令(API 密钥、密码)。 **结果:** 攻击者可以通过 Agent 读取的数据来“劫持”其角色设定,迫使其泄露机密或执行未经授权的命令。 ## 🏗️ 解决方案:双核隔离 Agent-Isolate-X 将“大脑”拆分为两个专门的层级: 1. **隔离执行器(第 1 层):** - **角色:** 读取原始的、不可信的文档。 - **约束:** 对系统机密或敏感工具零访问权限。 - **输出:** 严格格式化的 JSON,仅包含提取的事实。 2. **语义粉碎器(中间件):** - **角色:** 确定性的 Python 过滤器(Regex),用于清除执行器输出中所有非数字和非事实的字符。 - **约束:** 删除所有祈使动词和命令语法。 3. **特权控制器(第 2 层):** - **角色:** 掌握系统机密并协调最终输出。 - **约束:** 绝不与原始文档交互;仅查看“粉碎后”的事实数据。 ## 📊 基准测试结果(Mistral-7B) 使用 `benchmark.py` 针对 75 种不同的攻击向量(包括 Base64 混淆、外语绕过和上下文填充)进行了测试。 | 架构 | 漏洞率 | 状态 | | :--- | :---: | :--- | | **标准原生 Agent** | **75.0%** | ❌ 易受攻击 | | **Agent-Isolate-X** | **0.0%** | ✅ 安全 | ## 🚀 入门指南 ### 前置条件 - 已安装并正在运行 [Ollama](https://ollama.com/)。 - 已拉取 Mistral 模型:`ollama pull mistral` - Python 3.10+ ### 安装与使用 1. **克隆仓库:** git clone https://github.com/YOUR_USERNAME/Agent-Isolate-X.git cd Agent-Isolate-X 2. **构建攻击武器库:** python payload_builder.py 3. **运行安全审计:** python benchmark.py ## 🛠️ 项目结构 | 文件 | 描述 | | :--- | :--- | | `attacker.py` | 演示基线 YAML 陷阱漏洞利用。 | | `defender.py` | 实现核心的 Isolate-X 逻辑。 | | `payload_builder.py` | 生成 75 种多样化的注入向量用于测试。 | | `benchmark.py` | 用于对比分析的自动化测试套件。 | ## 📜 免责声明 本项目仅供**教育和研究目的**。它演示了针对特定类别 Prompt 注入的缓解措施。LLM 的安全性是一个不断发展的领域;请始终使用多层防御机制。
标签:AI智能体安全, AI红蓝对抗, AI越狱防御, AI风险缓解, API密钥保护, CISA项目, Mistral-7B, Python网络安全, 企业AI安全框架, 双核心隔离架构, 命令注入防御, 大模型安全, 安全基准测试, 提示词注入防御, 数据不可信模型, 数据清洗, 特权控制器, 第二阶注入攻击, 网络安全, 自然语言处理安全, 语义清洗, 逆向工具, 间接提示词注入, 隐私保护, 隔离执行器, 零信任架构