Sanjeevk26/ai-red-team-bytes
GitHub: Sanjeevk26/ai-red-team-bytes
一个专注于AI红队测试的实践学习仓库,通过案例帮助识别AI系统的安全漏洞和故障模式。
Stars: 1 | Forks: 0
# AI 红队安全速报
**AI 红队安全速报**是一个注重实践、直觉优先的代码仓库,记录了**AI 系统在现实世界中如何失败**——不仅限于模型层面,还包括**提示词、工作流、用户及防护机制**的方方面面。
本仓库聚焦于 **AI 红队测试**:一种结构化、符合伦理的 AI 系统压力测试方法,旨在于造成现实危害*之前*,发现**滥用路径、不安全行为、偏见、隐私泄露、越狱漏洞及失效假设**。
## 为什么需要这个仓库
大多数 AI 学习资源关注的是:
- 模型性能与基准测试
- 架构、微调与优化
- “如何构建” AI 系统
然而,大多数**现实世界的 AI 故障**源于:
- 自动化偏见与过度信任
- 模糊或双重用途的用户意图
- 提示词注入与工作流操纵
- 薄弱的评估与标注
- 在隔离环境中有效、但在生产环境中失败的防护机制
- 故障文档记录不足
**AI 红队安全速报**正是为了弥合这一差距而存在。
它将帮助你学习如何:
- 像攻击者一样思考,*同时*恪守道德准则
- 超越正常路径测试 AI 系统
- 识别安全机制退化之处
- 一致地标注意外情况(区分意图与实际损害)
- 向工程师、产品经理及管理层清晰传达风险
## 你会在本仓库中发现什么
每个“速报”都力求做到:
- **简短且聚焦** —— 一次只关注一个概念或一种故障模式
- **故事驱动** —— 基于现实场景
- **工具无关** —— 适用于各类模型与供应商
- **注重实践** —— 聚焦于故障实际如何显现
本仓库结合了 **Markdown 解释**与 **Jupyter notebooks**:
- Markdown 文件解释概念与心智模型
- Notebook 演示行为、模式与故障动态
## 仓库结构(当前)
### 基础与现实故障
- `01_automation_bias_and_overtrust.md`
过度依赖 AI 输出如何在真实系统中导致静默失败。
- `03_the_day_the_ai_was_red_teamed.md`
一次 AI 红队测试演练的叙事性回顾及其发现。
- `04_history_and_purpose_of_red_teaming.md`
从军事与网络安全起源到现代 AI 红队测试的历程。
### 提示词注入与滥用
- `02_prompt_injection_indirect_rag.md`
- `02_prompt_injection_indirect_rag.ipynb`
RAG 系统中的间接提示词注入,以及为何检索会扩大攻击面。
- `04_examples_common_red_teaming_patterns.md`
跨提示词、角色和工作流的常见红队测试模式。
- `04_one_shot_jailbreak_defense.ipynb`
单轮越狱行为与防御性考量。
- `04_roleplay_hypotheticals_defense.ipynb`
为何“虚构”和“角色扮演”并非安全免责条款。
- `04_system_prompt_extraction_boundary.ipynb`
测试系统提示词的机密性与边界失效。
### 多轮对话与工作流风险
- `04_multi_turn_risk_scoring.ipynb`
风险如何在对话中累积,而非瞬间显现。
- `04_workflow_social_engineering_controls.ipynb`
对 AI 辅助工作流的社会工程攻击(流程层面的攻击)。
### 隐私与数据泄露
- `04_privacy_canary_redaction_rate_limit.ipynb`
模型反演、成员推理与泄露检测概念。
### 安全分类与评估
- `05_safety_taxonomy_and_labeling.md`
构建安全分类法,以及正确标注提示词与响应。
- `05_granularity_tradeoffs_simulator.ipynb`
为何分类粒度很重要(误报 vs 漏报)。
- `05_taxonomy_labeling_trainer.ipynb.ipynb`
练习标注用户意图与实际模型危害。
### 边界情况与模糊性
- `06_edge_cases_and_multi_labeling.md`
如何处理那些无法明确归入单一类别的情况。
- `06_understanding_edge_cases.ipynb`
为何边界情况能优化分类法,而非破坏它们。
### 对抗性思维与心态
- `07_adversarial_thinking_101.md`
- `07_adversarial_thinking_101.ipynb`
在行动上恪守道德与责任的同时,像攻击者一样思考。
### 越狱与提示词注入参考
- `08_jailbreaking_cheatsheet.md`
便于记忆的单轮与多轮越狱技术参考。
## 如何使用本仓库(推荐方式)
1. **从心态开始**
- 阅读 `04_history_and_purpose_of_red_teaming.md`
- 接着阅读 `07_adversarial_thinking_101.md`
2. **了解故障如何显现**
- `01_automation_bias_and_overtrust.md`
- `03_the_day_the_ai_was_red_teamed.md`
3. **理解攻击面**
- 提示词注入(RAG、角色扮演、系统提示词)
- 多轮操纵与工作流攻击
4. **练习评估**
- 使用分类法与标注相关的 notebook
- 练习分离意图与危害
- 处理边界情况,而非强行贴标签
5. **以防护机制的视角思考**
- 将故障映射到输入过滤器、系统提示词、RLHF 和输出检查
- 问自己:*是哪一层失败了,原因是什么?*
## 本仓库不是什么
- 不是一本数学繁重的机器学习教科书
- 不是一个模型训练仓库
- 不绑定于特定供应商或框架
重点在于**直觉、推理与现实世界的安全性**,而非优化。
## 本仓库适合谁
- 学习负责任 AI 和 AI 安全的初学者
- 转型治理或评估领域的机器学习从业者
- 红队 / 信任与安全岗位候选人
- 与 AI 系统合作的产品经理与顾问
- 任何准备 AI 风险或红队测试面试的人
如果你能**清晰解释一次 AI 故障**,那么你对 AI 的理解就更深一层。
## 理念
AI 红队测试旨在**先于用户之前**找到那些漏洞。
## 安全与道德声明
本仓库侧重于**负责任、符合道德的测试**。
示例仅为教育目的设计,旨在提高系统的健壮性与安全性——而非助长滥用。
## 免责声明
示例经过简化以阐明概念。
它们并非旨在指控或评估任何特定组织或已部署的系统。
**批判性地思考。
检验假设。
构建更安全的 AI。**
标签:AI失败分析, AI失败模式, AI安全, AI测试, AI滥用, AI红队测试, Chat Copilot, Markdown, 伦理AI, 偏见与公平性, 反取证, 基线管理, 安全评估, 实践学习, 护栏机制, 提示注入, 故事驱动, 真实世界AI, 自动化偏见, 防御加固, 集群管理, 风险识别