Eashwar2107/ai-security-research
GitHub: Eashwar2107/ai-security-research
一份记录AI红队与LLM安全研究过程的学习文档,通过Gandalf挑战等实践案例系统讲解提示注入和绕过技术。
Stars: 0 | Forks: 0
# AI 安全研究
**Eashwar · Chennai · LLM 安全与渗透测试**
记录我关于 AI 安全的所有学习过程——并在学习中公开分享。
## Gandalf 挑战
*逐级突破 AI 的防御。*
[Lakera AI](https://lakera.ai/gandalf) 推出的 Gandalf 挑战将一个秘密密码隐藏在 LLM 中,要求你将其提取出来。每个关卡都会增加更强的防御。每一次绕过都会教你一种当今用于攻击生产 AI 系统的真实攻击技术。
| 关卡 | 使用的攻击方法 |
|-------|-------------|
| [1](./level-01.md) | 直接请求——无防御 |
| [2](./level-02.md) | 元数据提取 |
| [3](./level-03.md) | 部分字符提取——输出过滤器绕过 |
| [4](./level-04.md) | 字母枚举——审查 LLM 绕过 |
| [5](./level-05.md) | 同义词替换——关键字屏蔽绕过 |
| [6](./level-06.md) | 任务重构——翻译请求 |
| [7](./level-07.md) | 逐字母提取 |
| [8](./level-08.md) | 自己动手 |
## 接下来是什么
- Garak 自动化 LLM 扫描报告
- OWASP LLM Top 10——应用解析
- 真实 CVE 分析
- 动手渗透测试报告
*所有研究均在授权环境中进行。*
标签:AI安全, AI越狱, Bug Bounty, C2, Chat Copilot, CISA项目, CVE分析, Gandalf挑战, Garak, HackTheBox, LLM渗透测试, OWASP LLM Top 10, TryHackMe, XXE攻击, 元数据提取, 可自定义解析器, 大语言模型安全, 安全Write-up, 机密管理, 网络安全, 进程保护, 隐私保护, 靶场演练, 黑客学习