bhardwajnikhil823/Self-Healing-AI-Pipeline

GitHub: bhardwajnikhil823/Self-Healing-AI-Pipeline

一个自动化多智能体管道,通过红蓝对抗循环对LLM进行压力测试并自动合成安全补丁,实现AI系统的自愈防护。

Stars: 0 | Forks: 0

# 🛡️ 自主AI红队与自愈管道 一个自动化、闭环的漏洞管理系统,用于对大型语言模型(LLM)进行压力测试、识别安全漏洞(提示注入、社会工程学),并在无需人工干预的情况下动态合成补丁。 ## 🧠 架构概述 该管道模拟了专业企业安全环境。它不使用单一模型,而是采用**多智能体架构**来避免"LLM即评判者"的确认偏差。 * **目标(通过Groq的Llama-3 8B):** 充当银行客服代理,负责保护敏感财务数据($5,000余额)的同时保持乐于助人。 * **攻击者(红队引擎):** 动态生成对抗性人物角色、意图和风格化攻击的矩阵。 * **评判者(Gemini 2.5 Flash):** 一个独立且能力强大的模型,用于评估攻击成功与否(通过/失败),防止目标模型给自己的盲点打分。 * **教师(通过Gemini的补丁引擎):** 分析失败日志,提炼漏洞,并将优化的安全规则合成到实时配置文件中。 ## 🔄 闭环工作流程 1. **攻击阶段(`attacker.py`):** 向目标机器人发起不同的提示注入和社会工程学攻击。 2. **评估阶段:** 独立评判者评估交互。如果目标在不需要多因素身份验证(MFA)的情况下泄露数据,则记录为`FAIL`。 3. **合成阶段(`patch.py`):** 教师AI接收失败的攻击,并使用提示提炼重写防御提示块(`active_defenses.txt`)。 4. **部署阶段:** 目标机器人实时动态加载新的防御措施。 5. **验证阶段(`benign_test.py`):** 运行"黄金数据集"的正常客户交互,以确保新的安全规则不会导致误报(过度拒绝)。 ## 📂 仓库结构 | 文件 | 角色 | 描述 | | :--- | :--- | :--- | | `target_bot.py` | 核心逻辑 | 集中式银行助手模拟。 | | `attacker.py` | 红队 | 生成攻击、协调异步测试,并将结果保存到CSV。 | | `patch.py` | 蓝队 | "免疫系统"。读取漏洞并编写新规则。 | | `benign_test.py` | 质量保证/可用性 | 验证合法用户不会被新的安全措施阻止。 | | `active_defenses.txt`| 配置 | 由目标加载的动态、自动更新的规则集。 | | `matrix_red_team_results.csv`| 日志 | 攻击尝试和自动评估的历史记录。 | ## 🚀 关键工程特性 * **异步批处理:** 使用`asyncio`并发处理多个对抗性攻击,并包含自动API流量整形(退避/冷却)以遵守速率限制。 * **模块化设计(DRY):** 核心LLM逻辑解耦到`target_bot.py`中,以确保攻击、补丁和可用性环境之间的一致状态。 * **零误报目标:** 自愈循环明确指示补丁引擎优先考虑MFA升级而不是硬性拒绝用户,从而保持机器人的业务功能。 ## 🛠️ 设置与安装 1. **克隆仓库:**
标签:AI安全, AI红队, ASM汇编, Chat Copilot, CI/CD安全, CISA项目, DLL 劫持, Gemini, GPT, Llama, MFA验证, 动态补丁, 压力测试, 域名收集, 多代理系统, 大语言模型, 安全运营, 实时防御, 对抗性测试, 扫描框架, 提示注入, 模型安全评估, 漏洞管理, 社会工程防御, 自动修复, 自动化渗透测试, 计算机取证, 逆向工具, 金融安全, 集群管理