appsecdecoded/AI-LLM-Red-Teaming-Roadmap-2026-Edition

GitHub: appsecdecoded/AI-LLM-Red-Teaming-Roadmap-2026-Edition

一份帮助AppSec专业人员转型为AI/LLM红队成员的结构化学习路线图，涵盖从基础ML知识到高级Agentic Security的完整进阶路径。

Stars: 1 | Forks: 0

# 🛡️ AI/LLM 红队路线图 (2026 版) 本仓库是一份结构化、社区驱动的路线图，旨在帮助您从传统 AppSec 过渡到 **AI/LLM 红队**。它整合了 2026 年最新的行业标准，包括 **Agentic Security** 和 **Model Context Protocol (MCP)**。 ## 🗺️ 可视化学习路径 ``` graph TD Start((START HERE)) --> Pre[0. Prerequisites: CIA & AppSec] Pre --> ML[1. ML & Transformer Fundamentals] ML --> Core[2. Prompt Hacking & Model Vulnerabilities] subgraph "The 2026 Frontier" Core --> Agentic[3. Agentic AI & MCP Security] Agentic --> ASI[OWASP Top 10 for Agents] end subgraph "Professional Practice" ASI --> RT[4. Red Team Execution & Tools] RT --> Gov[5. Compliance & Defense] end Gov --> Mastery((AI RED TEAMER)) ``` ## ⚖️ 安全性 vs. 安全保障：理解范围专业的 AI 红队成员必须区分这两个核心支柱： * **AI Safety (AI 安全性 - 有害内容)：** 防止模型生成有毒、带有偏见或非法的内容（例如，“如何制造炸弹？”）。 * **AI Security (AI 安全保障 - 漏洞利用)：** 防止模型/系统作为技术资产被攻陷（例如，“通过 Prompt Injection 实现 Remote Code Execution”）。 ## 🛑 步骤 0：前置条件在深入研究 AI 之前，您必须对传统系统中的 **CIA Triad** (Confidentiality, Integrity, Availability，即机密性、完整性、可用性) 有扎实的掌握。 * **机密性 (Confidentiality)：** 提示词能否提取 PII 或训练数据？ * **完整性 (Integrity)：** 攻击者能否“污染”模型的逻辑？ * **可用性 (Availability)：** 对手能否通过消耗大量资源的递归提示词触发“拒绝服务”？ ## 🚀 精通之路 ### 🟦 级别 1：基础知识 *在破坏它之前，你必须了解它是如何构建的。* * [ ] **AI/ML 基础** * [ ] [Learn Prompting (基础课程)](https://learnprompting.org) * [ ] 监督学习 vs. 无监督学习 vs. 强化学习 (RLHF) * [ ] 神经网络与 Transformer 架构 (BERT, GPT, Attention) * [ ] 检索增强生成 (RAG) 架构 ### 🟨 级别 2：提示词攻击与模型漏洞 *LLM 特定漏洞利用的核心。* * [ ] **提示词攻击技术** * [ ] **直接提示词注入：** 覆盖系统指令。 * [ ] **间接提示词注入：** 通过 RAG 或网络搜索结果进行攻击。 * [ ] **越狱：** 角色扮演、编码绕过以及安全过滤器规避。 * [ ] **模型层攻击** * [ ] **数据投毒：** 篡改训练/微调数据集。 * [ ] **模型提取：** 通过 API 查询窃取权重或逻辑。 * [ ] **隐私攻击：** 模型反转与成员推理。 ### 🟧 级别 3：Agentic AI 与基础设施 (2026 核心) *在 2026 年，AI 不再仅仅是聊天机器人；它是拥有工具的 Agent。* * [ ] **Agentic Security Interface (ASI)** * [ ] [OWASP Agent Top 10](https://owasp.org/www-project-top-10-for-large-language-model-applications/) * [ ] **目标劫持：** 重定向 Agent 的自主任务。 * [ ] **工具滥用：** 通过授权的 API 工具提升权限。 * [ ] **Model Context Protocol (MCP) 安全** * [ ] 将 Agent 安全地连接到本地/远程数据源。 * [ ] MCP 服务器的漏洞评估。 * [ ] **系统基础设施** * [ ] 模型 Pickle 文件中的**不安全反序列化**。 * [ ] 通过沙箱代码解释器实现的 **Remote Code Execution (RCE)**。 ### 🟥 级别 4：实践经验与方法论 *动手实践与专业标准。* * [ ] **测试方法论** * [ ] 针对 AI 的黑盒、白盒和灰盒测试。 * [ ] 自动化 vs. 手动红队测试。 * [ ] **工具箱** * [ ] [PyRIT (Python Risk Identification Toolkit)](https://www.google.com/search?q=https://github.com/Azure/pyrit) * [ ] [Garak：LLM 漏洞扫描器](https://github.com/leondz/garak) * [ ] **动手实验室** * [ ] [HackAPrompt CTF](https://www.hackaprompt.com/) * [ ] [TensorTrust (互动实验室)](https://tensortrust.ai) ### 🟩 级别 5：专业发展与防御 *加固系统并保持领先。* * [ ] **防御策略** * [ ] 对抗训练与输入/输出 Guardrails (LlamaGuard)。 * [ ] 针对Agent的持续监控与异常检测。 * [ ] **行业标准** * [ ] [MITRE ATLAS 框架](https://atlas.mitre.org) * [ ] **EU AI Act 与 NIST AI RMF：** 红队的监管合规性。 * [ ] **社区与资质** * [ ] **会议：** DEF CON AI Village。 * [ ] **课程：** SANS AI Security 路线。 ## 🛠️ 贡献本路线图一直在不断发展。如果您发现了新的漏洞类别或更好的工具，请提交 PR！

标签：AI伦理与安全, AI安全, AI智能体安全, AppSec转型, Chat Copilot, CIA三要素, CISA项目, Generative AI安全, LLM红队, MCP安全, OWASP Top 10 for Agents, RLHF安全, Web安全, 内核模块, 大语言模型安全, 学习路线图, 安全资源, 密码管理, 密钥泄露防护, 对抗性机器学习, 机器学习安全, 机密管理, 模型上下文协议安全, 模型漏洞挖掘, 漏洞修复, 白帽黑客, 网络安全培训, 网络安全学习路径, 蓝队分析, 逆向工具