aiagentmackenzie-lang/NeuralStrike

GitHub: aiagentmackenzie-lang/NeuralStrike

NeuralStrike 是一个面向 AI/LLM 系统的进攻性安全框架,通过对抗循环自动化发现并利用模型与代理的脆弱性。

Stars: 0 | Forks: 0

# NeuralStrike ## 对抗式AI编排框架 ## 什么是 NeuralStrike? NeuralStrike 是一个精英进攻性安全框架,旨在分析、利用并编排对 AI/LLM 系统和自主代理的妥协。与简单的提示注入工具不同,NeuralStrike 实现了**对抗循环**——利用本地 LLM 作为攻击者、受害者和评判者,以自动化发现和利用 AI 漏洞。 它针对以下新兴的攻击面: - **自主代理**:多代理框架(CrewAI、AutoGen、LangChain) - **协议层**:MCP(模型上下文协议)实现 - **执行引擎**:函数调用和工具使用架构 - **内存基质**:向量数据库和长期代理记忆 - **LLM API**:OpenAI、Anthropic 和本地 Ollama 部署 ## 对抗循环(C2 架构) NeuralStrike 不仅仅是发送提示;它编排攻击。它利用一个由 **Ollama** 托管的三部分模型架构: 1. **攻击者**:一个本地模型(例如 `deepseek-r1`、`llama3`),用于生成和变异对抗性负载。 2. **受害者**:被测试的目标系统。 3. **评判者**:一个本地模型,用于分析受害者的响应,对攻击的成功进行评分,并为攻击者提供反馈以进行迭代。 ## 架构概览 ``` ┌─────────────────────────────────────────────────────────────────┐ │ NEURALSTRIKE │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ RECON │ │ WEAPONIZE │ │ EXPLOIT │ │ │ │ │ │ │ │ │ │ │ │ • LLMRecon │ │ • Jailbreak │ │ • Function │ │ │ │ • ToolEnum │ │ Forge │ │ Hijack │ │ │ │ • AgentMap │ │ • Context │ │ • AgentPivot │ │ │ │ │ │ Poison │ │ • MCPIntercep│ │ │ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │ │ │ │ │ │ │ └────────────────┼────────────────┘ │ │ ▼ │ │ ┌─────────────────────┐ │ │ │ POST-EXPLOITATION │ │ │ │ │ │ │ │ • C2 for Agents │ │ │ │ • Context Persistence│ │ │ │ • Data Exfiltration │ │ │ │ • Lateral Movement │ │ │ └─────────────────────┘ │ │ │ │ ┌─────────────────────────────────────────────────────────────┐ │ │ │ EVASION LAYER │ │ │ │ • Token Smuggling • Behavioral Mimicry │ │ │ │ • Steganographic • Persona Wrapping │ │ │ │ Prompts │ │ │ └─────────────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────┘ ``` ## 模块规范 ### 模块 1:LLMRecon **目的**:攻击面映射和端点枚举。 - 扫描 OpenAI 兼容和 Ollama 端点。 - 枚举模型能力和工具模式。 - 映射代理到工具的关联和信任边界。 ### 模块 2:JailbreakForge(迭代循环) **目的**:自动、自我优化的越狱生成。 - **攻击者-评判者循环**:本地 Ollama 模型迭代优化提示,直到评判者验证漏洞。 - 用于提示变异的遗传算法。 - Unicode 走私和令牌级操作。 ### 模块 3:FunctionHijack **目的**:利用“AI 系统调用”层。 - 拦截并修改函数定义。 - 参数注入和返回结果投毒。 - 工具混淆攻击以强制恶意工具选择。 ### 模块 4:ContextPoison **目的**:操纵代理的世界观和记忆。 - 长文档注入和指令层级利用。 - 系统提示提取和“记忆”植入以实现持久性。 - 上下文窗口耗尽(拒绝服务)。 ### 模块 5:AgentPivot **目的**:在多代理系统中进行横向移动。 - 破坏 CrewAI/AutoGen 中的代理间信任。 - 通过委托滥用进行权限提升。 - 建立代理-C2 以实现协调的数据外泄。 ### 模块 6:MCPInterceptor **目的**:对模型上下文协议进行协议级操作。 - MCP 流量的代理服务器实现。 - 工具定义篡改和能力注入。 - 协议级状态操作。 ### 模块 7:ModelExtract **目的**:推理和指纹攻击。 - 完成时序分析和对数概率提取。 - 成员推理和架构指纹识别。 ## 技术栈 | 组件 | 技术 | 目的 | |-----------|------------|----------| | 核心框架 | Python 3.11+ | 主引擎 | | 本地大脑 | **Ollama** | 托管攻击者/评判者模型 | | LLM 集成 | LiteLLM | 标准化的 API 访问 | | 编排 | **LangGraph / CrewAI** | 管理复杂的攻击链 | | 网络 | **mitmproxy / httpx** | 协议拦截(MCP) | | 数据处理 | Pydantic / Pandas | 模式和结果验证 | | CLI 接口 | Typer / Rich | 专业的终端 UI | | 跟踪 | Weights & Biases | 迭代攻击成功指标 | ## 路线图 ### 阶段 1:本地大脑(第 1-2 周) - [ ] Ollama 集成和对抗循环(攻击者/评判者) - [ ] 核心 CLI 和 LLMRecon 模块 - [ ] 基础越狱自动化 ### 阶段 2:协议突破(第 3-4 周) - [ ] `MCPInterceptor` 代理实现 - [ ] `FunctionHijack` 模式投毒 - [ ] `ContextPoison` 内存植入 ### 阶段 3:代理战争(第 5-6 周) - [ ] `AgentPivot` 信任滥用和横向移动 - [ ] 多代理妥协的 Agent-C2 编排 ### 阶段 4:隐身与研究(第 7-8 周) - [ ] 行为模仿与人格包装 - [ ] `ModelExtract` 时序和对数攻击 - [ ] 隐写提示工程 ## 道德使用 NeuralStrike 仅供**授权安全测试**使用。 1. 仅测试您拥有或已获得书面授权的系统。 2. 负责任地报告漏洞。 3. 不得用于恶意目的。 **免责声明:** 未经授权访问计算机系统是非法的。
标签:AI取证, AI安全, AI风险缓解, AutoGen, C2架构, Chat Copilot, CrewAI, LangChain, LLM评估, MCP安全, Ollama, PyRIT, SOC工具, 内存安全, 函数调用安全, 受害者模型, 向量数据库安全, 多智能体系统, 多语言支持, 大模型攻防, 安全测试框架, 对抗攻击, 对抗生成, 提示注入防御, 攻击循环, 敏感信息检测, 本地LLM, 模型上下文协议, 源代码安全, 漏洞发现, 神经攻击, 红队自动化, 自主代理安全, 自动化渗透测试, 裁判模型, 轻量级, 逆向工具