abhinandanpandey-in/Agent-Isolate-X

GitHub: abhinandanpandey-in/Agent-Isolate-X

一个面向 Agentic AI 的零信任安全研究框架，通过双核隔离与语义净化机制有效缓解间接 Prompt 注入攻击。

Stars: 0 | Forks: 0

# Agent-Isolate-X：双核 LLM 安全架构 ### *通过隔离执行与语义净化缓解 Prompt 注入* **Agent-Isolate-X** 是一个面向研究的安全框架，旨在消除 Agentic AI 系统中的间接 Prompt 注入（IPI）和二阶注入攻击。通过实施**双核隔离**策略，该架构将不可信的数据处理与特权系统逻辑解耦，在本地基准测试的 75 种以上高级攻击向量中实现了 **0.0% 的漏洞率**。 ## 🛡️ 问题：“上帝模式”谬误大多数 AI Agent 都在单核逻辑上运行：同一个 LLM 实例在读取不可信用户数据（文档、电子邮件、网络搜索）的同时，还掌握着敏感的系统指令（API 密钥、密码）。 **结果：** 攻击者可以通过 Agent 读取的数据来“劫持”其角色设定，迫使其泄露机密或执行未经授权的命令。 ## 🏗️ 解决方案：双核隔离 Agent-Isolate-X 将“大脑”拆分为两个专门的层级： 1. **隔离执行器（第 1 层）：** - **角色：** 读取原始的、不可信的文档。 - **约束：** 对系统机密或敏感工具零访问权限。 - **输出：** 严格格式化的 JSON，仅包含提取的事实。 2. **语义粉碎器（中间件）：** - **角色：** 确定性的 Python 过滤器（Regex），用于清除执行器输出中所有非数字和非事实的字符。 - **约束：** 删除所有祈使动词和命令语法。 3. **特权控制器（第 2 层）：** - **角色：** 掌握系统机密并协调最终输出。 - **约束：** 绝不与原始文档交互；仅查看“粉碎后”的事实数据。 ## 📊 基准测试结果（Mistral-7B）使用 `benchmark.py` 针对 75 种不同的攻击向量（包括 Base64 混淆、外语绕过和上下文填充）进行了测试。 | 架构 | 漏洞率 | 状态 | | :--- | :---: | :--- | | **标准原生 Agent** | **75.0%** | ❌ 易受攻击 | | **Agent-Isolate-X** | **0.0%** | ✅ 安全 | ## 🚀 入门指南 ### 前置条件 - 已安装并正在运行 [Ollama](https://ollama.com/)。 - 已拉取 Mistral 模型：`ollama pull mistral` - Python 3.10+ ### 安装与使用 1. **克隆仓库：** git clone https://github.com/YOUR_USERNAME/Agent-Isolate-X.git cd Agent-Isolate-X 2. **构建攻击武器库：** python payload_builder.py 3. **运行安全审计：** python benchmark.py ## 🛠️ 项目结构 | 文件 | 描述 | | :--- | :--- | | `attacker.py` | 演示基线 YAML 陷阱漏洞利用。 | | `defender.py` | 实现核心的 Isolate-X 逻辑。 | | `payload_builder.py` | 生成 75 种多样化的注入向量用于测试。 | | `benchmark.py` | 用于对比分析的自动化测试套件。 | ## 📜 免责声明本项目仅供**教育和研究目的**。它演示了针对特定类别 Prompt 注入的缓解措施。LLM 的安全性是一个不断发展的领域；请始终使用多层防御机制。

标签：AI智能体安全, AI红蓝对抗, AI越狱防御, AI风险缓解, API密钥保护, CISA项目, Mistral-7B, Python网络安全, 企业AI安全框架, 双核心隔离架构, 命令注入防御, 大模型安全, 安全基准测试, 提示词注入防御, 数据不可信模型, 数据清洗, 特权控制器, 第二阶注入攻击, 网络安全, 自然语言处理安全, 语义清洗, 逆向工具, 间接提示词注入, 隐私保护, 隔离执行器, 零信任架构