bhardwajnikhil823/Self-Healing-AI-Pipeline

GitHub: bhardwajnikhil823/Self-Healing-AI-Pipeline

一个自动化多智能体管道，通过红蓝对抗循环对LLM进行压力测试并自动合成安全补丁，实现AI系统的自愈防护。

Stars: 0 | Forks: 0

# 🛡️ 自主AI红队与自愈管道一个自动化、闭环的漏洞管理系统，用于对大型语言模型（LLM）进行压力测试、识别安全漏洞（提示注入、社会工程学），并在无需人工干预的情况下动态合成补丁。 ## 🧠 架构概述该管道模拟了专业企业安全环境。它不使用单一模型，而是采用**多智能体架构**来避免"LLM即评判者"的确认偏差。 * **目标（通过Groq的Llama-3 8B）：** 充当银行客服代理，负责保护敏感财务数据（$5,000余额）的同时保持乐于助人。 * **攻击者（红队引擎）：** 动态生成对抗性人物角色、意图和风格化攻击的矩阵。 * **评判者（Gemini 2.5 Flash）：** 一个独立且能力强大的模型，用于评估攻击成功与否（通过/失败），防止目标模型给自己的盲点打分。 * **教师（通过Gemini的补丁引擎）：** 分析失败日志，提炼漏洞，并将优化的安全规则合成到实时配置文件中。 ## 🔄 闭环工作流程 1. **攻击阶段（`attacker.py`）：** 向目标机器人发起不同的提示注入和社会工程学攻击。 2. **评估阶段：** 独立评判者评估交互。如果目标在不需要多因素身份验证（MFA）的情况下泄露数据，则记录为`FAIL`。 3. **合成阶段（`patch.py`）：** 教师AI接收失败的攻击，并使用提示提炼重写防御提示块（`active_defenses.txt`）。 4. **部署阶段：** 目标机器人实时动态加载新的防御措施。 5. **验证阶段（`benign_test.py`）：** 运行"黄金数据集"的正常客户交互，以确保新的安全规则不会导致误报（过度拒绝）。 ## 📂 仓库结构 | 文件 | 角色 | 描述 | | :--- | :--- | :--- | | `target_bot.py` | 核心逻辑 | 集中式银行助手模拟。 | | `attacker.py` | 红队 | 生成攻击、协调异步测试，并将结果保存到CSV。 | | `patch.py` | 蓝队 | "免疫系统"。读取漏洞并编写新规则。 | | `benign_test.py` | 质量保证/可用性 | 验证合法用户不会被新的安全措施阻止。 | | `active_defenses.txt`| 配置 | 由目标加载的动态、自动更新的规则集。 | | `matrix_red_team_results.csv`| 日志 | 攻击尝试和自动评估的历史记录。 | ## 🚀 关键工程特性 * **异步批处理：** 使用`asyncio`并发处理多个对抗性攻击，并包含自动API流量整形（退避/冷却）以遵守速率限制。 * **模块化设计（DRY）：** 核心LLM逻辑解耦到`target_bot.py`中，以确保攻击、补丁和可用性环境之间的一致状态。 * **零误报目标：** 自愈循环明确指示补丁引擎优先考虑MFA升级而不是硬性拒绝用户，从而保持机器人的业务功能。 ## 🛠️ 设置与安装 1. **克隆仓库：**

标签：AI安全, AI红队, ASM汇编, Chat Copilot, CI/CD安全, CISA项目, DLL 劫持, Gemini, GPT, Llama, MFA验证, 动态补丁, 压力测试, 域名收集, 多代理系统, 大语言模型, 安全运营, 实时防御, 对抗性测试, 扫描框架, 提示注入, 模型安全评估, 漏洞管理, 社会工程防御, 自动修复, 自动化渗透测试, 计算机取证, 逆向工具, 金融安全, 集群管理