Leegreen305/AI-Red-Team-Framework

GitHub: Leegreen305/AI-Red-Team-Framework

这是一个用于评估大语言模型和自主AI代理安全态势的对抗性测试框架,旨在通过模块化攻击和异常检测发现提示注入、越狱等AI特有漏洞。

Stars: 1 | Forks: 0

# AI Red Team 框架

Python 3.9+ License CI Status GitHub Stars

一个用于评估 AI 代理和基于 LLM 的系统安全态势的对抗性测试工具包。 ## 概述 AI Red Team Framework 提供了一个模块化平台,用于对大语言模型(LLM)和自主 AI 代理进行安全评估。它实现了用于测试 AI 系统鲁棒性的常见攻击向量,包括提示注入、越狱尝试、数据窃取探测和工具滥用场景。 ### 目标用户 - **安全工程师** —— 在部署前评估 AI 系统漏洞 - **红队操作员** —— 对基于 LLM 的应用程序执行对抗性测试 - **AI 安全研究员** —— 使用可复现的方法基准测试模型鲁棒性 ### 问题陈述 AI 代理越来越多地处理敏感操作并与外部系统交互。传统的安全测试工具无法解决 AI 特有的攻击向量,例如提示注入、间接指令覆盖和上下文操纵。该框架通过提供专用的 AI 对抗性测试工具填补了这一空白。 ## 功能 - **攻击库** —— 模块化攻击实现,包括: - 直接和间接提示注入 - 越狱和角色覆盖尝试 - 系统提示提取探测 - 上下文窗口溢出攻击 - 数据窃取向量 - 工具滥用场景 - **检测引擎** —— AI 代理行为的异常检测: - 针对异常工具调用模式的频率分析 - 延迟峰值检测 - 输出格式变化监控 - 失败模式分析 - 风险评分(0-100 分制) - **Splunk 集成** —— 支持 HTTP Event Collector (HEC) 以进行 SIEM 摄入 - **评分引擎** —— 漏洞评估指标: - 严重程度加权评分(critical/high/medium/low) - 字母等级分配(A-F 分制) - 缓解措施建议映射 - **HTML 报告** —— 生成带有嵌入式可视化的独立报告 - **SOC 仪表板** —— 基于浏览器的监控界面,用于实时评估跟踪 ## 支持的模型 | Provider | Models | Notes | |----------|--------|-------| | OpenAI | GPT-3.5, GPT-4, GPT-4o | Via OpenAI API | | Anthropic | Claude 3.x, Claude 3.5 | Via Anthropic API | | Generic | Any HTTP-compatible endpoint | Custom agent implementations | ## 前置条件 - Python 3.9 或更高版本 - pip 包管理器 - (可选)用于 SIEM 集成的 Splunk HEC 端点 ## 安装 ``` # 克隆仓库 git clone https://github.com/Leegreen305/AI-Red-Team-Framework.git cd AI-Red-Team-Framework # 安装依赖 pip install -r requirements.txt # 或作为包安装 pip install -e . ``` ## 快速开始 ### 检测与报告(标准导入) ``` from detection.anomaly_detector import AnomalyDetector from reporting.score_engine import RedTeamScorer # 分析 agent 日志以检测异常 detector = AnomalyDetector() logs = detector.generate_sample_logs() result = detector.analyze(logs) print(f"Risk Score: {result['risk_score']}/100") # 对攻击结果进行评分 sample_results = RedTeamScorer.generate_sample_results() scorer = RedTeamScorer(sample_results) score_data = scorer.calculate_score() print(f"Grade: {score_data['grade']}") ``` ### 攻击库(带连字符的目录) `attack-library` 目录使用连字符,需要使用 `importlib` 进行动态导入: ``` import sys from importlib import import_module # 将当前目录添加到 path sys.path.insert(0, ".") # 动态导入 attack 模块 prompt_injection = import_module("attack-library.prompt_injection") jailbreak = import_module("attack-library.jailbreak_suite") # 执行 prompt injection 测试 attacker = prompt_injection.PromptInjectionAttack(mock_mode=True) result = attacker.direct_injection( target_agent_url="http://target-agent/api", payload="Ignore previous instructions" ) print(f"Vulnerability detected: {result['vulnerability_detected']}") ``` ## 仓库结构 ``` AI-Red-Team-Framework/ ├── attack-library/ # Attack implementation modules │ ├── prompt_injection.py │ ├── jailbreak_suite.py │ ├── data_exfiltration_probes.py │ └── tool_misuse_attacks.py ├── detection/ # Anomaly detection and monitoring │ ├── anomaly_detector.py │ ├── agentic_drift_monitor.py │ └── splunk_integration.py ├── reporting/ # Assessment reporting and scoring │ ├── score_engine.py │ └── html_report_generator.py ├── dashboard/ # SOC monitoring interface │ └── soc_dashboard.html ├── playbooks/ # Red team methodology guides │ ├── single_agent_redteam.md │ ├── multi_agent_redteam.md │ └── rag_poisoning_playbook.md ├── docs/ # Documentation │ ├── getting_started.md │ └── attack_reference.md ├── screenshots/ # Preview images │ ├── soc_dashboard_preview.png │ └── html_report_preview.png ├── requirements.txt # Python dependencies ├── setup.py # Package configuration ├── LICENSE # MIT License └── README.md # This file ``` ## 截图 ### SOC 仪表板 ![SOC Dashboard](https://static.pigsec.cn/wp-content/uploads/repos/2026/04/5d2df8ddd1111146.png) ### 红队评估报告 ![HTML Report](https://static.pigsec.cn/wp-content/uploads/repos/2026/04/90b8e0bf3c111153.png) ## 安全 如果您发现此框架中的漏洞,请负责任地进行报告。 - 查阅 [SECURITY.md](./SECURITY.md) 了解披露指南 - 邮箱:`webappsecuredev@gmail.com` ## 许可证 本项目在 MIT License 下获得许可。有关详细信息,请参阅 [LICENSE](./LICENSE)。
标签:AI安全, AI智能体, Chat Copilot, Jailbreak, LLM, Petitpotam, Prompt注入, Python, Unmanaged PE, 人工智能, 反取证, 多模态安全, 大模型, 安全工程, 安全评估, 对抗性测试, 工具滥用, 异常检测, 数据可视化, 数据展示, 无后门, 用户模式Hook绕过, 系统提示词提取, 红队, 越狱