Eashwar2107/ai-security-research

GitHub: 21f3002581/ai-security-research

一份记录AI红队与LLM安全研究过程的学习文档，通过Gandalf挑战等实践案例系统讲解提示注入和绕过技术。

Stars: 0 | Forks: 0

# AI 安全研究 **Eashwar · Chennai · LLM 安全与渗透测试** 记录我关于 AI 安全的所有学习过程——并在学习中公开分享。 ## Gandalf 挑战 *逐级突破 AI 的防御。* [Lakera AI](https://lakera.ai/gandalf) 推出的 Gandalf 挑战将一个秘密密码隐藏在 LLM 中，要求你将其提取出来。每个关卡都会增加更强的防御。每一次绕过都会教你一种当今用于攻击生产 AI 系统的真实攻击技术。 | 关卡 | 使用的攻击方法 | |-------|-------------| | [1](./level-01.md) | 直接请求——无防御 | | [2](./level-02.md) | 元数据提取 | | [3](./level-03.md) | 部分字符提取——输出过滤器绕过 | | [4](./level-04.md) | 字母枚举——审查 LLM 绕过 | | [5](./level-05.md) | 同义词替换——关键字屏蔽绕过 | | [6](./level-06.md) | 任务重构——翻译请求 | | [7](./level-07.md) | 逐字母提取 | | [8](./level-08.md) | 自己动手 | ## 接下来是什么 - Garak 自动化 LLM 扫描报告 - OWASP LLM Top 10——应用解析 - 真实 CVE 分析 - 动手渗透测试报告 *所有研究均在授权环境中进行。*

标签：AI安全, AI越狱, Bug Bounty, C2, Chat Copilot, CISA项目, CVE分析, Gandalf挑战, Garak, HackTheBox, LLM渗透测试, OWASP LLM Top 10, TryHackMe, XXE攻击, 元数据提取, 可自定义解析器, 大语言模型安全, 安全Write-up, 机密管理, 网络安全, 进程保护, 隐私保护, 靶场演练, 黑客学习