Sanjeevk26/ai-red-team-bytes

GitHub: Sanjeevk26/ai-red-team-bytes

一个专注于AI红队测试的实践学习仓库，通过案例帮助识别AI系统的安全漏洞和故障模式。

Stars: 1 | Forks: 0

# AI 红队安全速报 **AI 红队安全速报**是一个注重实践、直觉优先的代码仓库，记录了**AI 系统在现实世界中如何失败**——不仅限于模型层面，还包括**提示词、工作流、用户及防护机制**的方方面面。本仓库聚焦于 **AI 红队测试**：一种结构化、符合伦理的 AI 系统压力测试方法，旨在于造成现实危害*之前*，发现**滥用路径、不安全行为、偏见、隐私泄露、越狱漏洞及失效假设**。 ## 为什么需要这个仓库大多数 AI 学习资源关注的是： - 模型性能与基准测试 - 架构、微调与优化 - “如何构建” AI 系统然而，大多数**现实世界的 AI 故障**源于： - 自动化偏见与过度信任 - 模糊或双重用途的用户意图 - 提示词注入与工作流操纵 - 薄弱的评估与标注 - 在隔离环境中有效、但在生产环境中失败的防护机制 - 故障文档记录不足 **AI 红队安全速报**正是为了弥合这一差距而存在。它将帮助你学习如何： - 像攻击者一样思考，*同时*恪守道德准则 - 超越正常路径测试 AI 系统 - 识别安全机制退化之处 - 一致地标注意外情况（区分意图与实际损害） - 向工程师、产品经理及管理层清晰传达风险 ## 你会在本仓库中发现什么每个“速报”都力求做到： - **简短且聚焦** —— 一次只关注一个概念或一种故障模式 - **故事驱动** —— 基于现实场景 - **工具无关** —— 适用于各类模型与供应商 - **注重实践** —— 聚焦于故障实际如何显现本仓库结合了 **Markdown 解释**与 **Jupyter notebooks**： - Markdown 文件解释概念与心智模型 - Notebook 演示行为、模式与故障动态 ## 仓库结构（当前） ### 基础与现实故障 - `01_automation_bias_and_overtrust.md` 过度依赖 AI 输出如何在真实系统中导致静默失败。 - `03_the_day_the_ai_was_red_teamed.md` 一次 AI 红队测试演练的叙事性回顾及其发现。 - `04_history_and_purpose_of_red_teaming.md` 从军事与网络安全起源到现代 AI 红队测试的历程。 ### 提示词注入与滥用 - `02_prompt_injection_indirect_rag.md` - `02_prompt_injection_indirect_rag.ipynb` RAG 系统中的间接提示词注入，以及为何检索会扩大攻击面。 - `04_examples_common_red_teaming_patterns.md` 跨提示词、角色和工作流的常见红队测试模式。 - `04_one_shot_jailbreak_defense.ipynb` 单轮越狱行为与防御性考量。 - `04_roleplay_hypotheticals_defense.ipynb` 为何“虚构”和“角色扮演”并非安全免责条款。 - `04_system_prompt_extraction_boundary.ipynb` 测试系统提示词的机密性与边界失效。 ### 多轮对话与工作流风险 - `04_multi_turn_risk_scoring.ipynb` 风险如何在对话中累积，而非瞬间显现。 - `04_workflow_social_engineering_controls.ipynb` 对 AI 辅助工作流的社会工程攻击（流程层面的攻击）。 ### 隐私与数据泄露 - `04_privacy_canary_redaction_rate_limit.ipynb` 模型反演、成员推理与泄露检测概念。 ### 安全分类与评估 - `05_safety_taxonomy_and_labeling.md` 构建安全分类法，以及正确标注提示词与响应。 - `05_granularity_tradeoffs_simulator.ipynb` 为何分类粒度很重要（误报 vs 漏报）。 - `05_taxonomy_labeling_trainer.ipynb.ipynb` 练习标注用户意图与实际模型危害。 ### 边界情况与模糊性 - `06_edge_cases_and_multi_labeling.md` 如何处理那些无法明确归入单一类别的情况。 - `06_understanding_edge_cases.ipynb` 为何边界情况能优化分类法，而非破坏它们。 ### 对抗性思维与心态 - `07_adversarial_thinking_101.md` - `07_adversarial_thinking_101.ipynb` 在行动上恪守道德与责任的同时，像攻击者一样思考。 ### 越狱与提示词注入参考 - `08_jailbreaking_cheatsheet.md` 便于记忆的单轮与多轮越狱技术参考。 ## 如何使用本仓库（推荐方式） 1. **从心态开始** - 阅读 `04_history_and_purpose_of_red_teaming.md` - 接着阅读 `07_adversarial_thinking_101.md` 2. **了解故障如何显现** - `01_automation_bias_and_overtrust.md` - `03_the_day_the_ai_was_red_teamed.md` 3. **理解攻击面** - 提示词注入（RAG、角色扮演、系统提示词） - 多轮操纵与工作流攻击 4. **练习评估** - 使用分类法与标注相关的 notebook - 练习分离意图与危害 - 处理边界情况，而非强行贴标签 5. **以防护机制的视角思考** - 将故障映射到输入过滤器、系统提示词、RLHF 和输出检查 - 问自己：*是哪一层失败了，原因是什么？* ## 本仓库不是什么 - 不是一本数学繁重的机器学习教科书 - 不是一个模型训练仓库 - 不绑定于特定供应商或框架重点在于**直觉、推理与现实世界的安全性**，而非优化。 ## 本仓库适合谁 - 学习负责任 AI 和 AI 安全的初学者 - 转型治理或评估领域的机器学习从业者 - 红队 / 信任与安全岗位候选人 - 与 AI 系统合作的产品经理与顾问 - 任何准备 AI 风险或红队测试面试的人如果你能**清晰解释一次 AI 故障**，那么你对 AI 的理解就更深一层。 ## 理念 AI 红队测试旨在**先于用户之前**找到那些漏洞。 ## 安全与道德声明本仓库侧重于**负责任、符合道德的测试**。示例仅为教育目的设计，旨在提高系统的健壮性与安全性——而非助长滥用。 ## 免责声明示例经过简化以阐明概念。它们并非旨在指控或评估任何特定组织或已部署的系统。 **批判性地思考。检验假设。构建更安全的 AI。**

标签：AI失败分析, AI失败模式, AI安全, AI测试, AI滥用, AI红队测试, Chat Copilot, Markdown, 伦理AI, 偏见与公平性, 反取证, 基线管理, 安全评估, 实践学习, 护栏机制, 提示注入, 故事驱动, 真实世界AI, 自动化偏见, 防御加固, 集群管理, 风险识别