CipherZ3r0/security-research-writeups

GitHub: CipherZ3r0/security-research-writeups

一个持续更新的 AI 安全研究档案库，记录针对 LLM 系统的 prompt injection 评估、红队实验和负责任披露报告。

Stars: 0 | Forks: 0

# AI 安全研究文章本仓库是我个人 AI 安全研究、红队笔记和公开文章的持续更新档案。重点关注现代 LLM 系统在真实对抗压力下是如何失效的：prompt injection、指令劫持、不安全输出生成，以及不受信任的上下文被误当作受信任信号的更广泛问题。我利用此空间记录了我测试的内容、我学到的知识，以及这些发现如何转化为实际的防御措施。这里的工作内容非常丰富。有些是漏洞赏金风格的评估，有些是基于挑战的漏洞文章，随着新攻击面的出现，其他的将转化为更深入的研究笔记。 ## 我所做的工作 - 对 Brave Leo 的 prompt injection 评估，基于真实的对话记录，重点关注指令泄漏、拒绝边界失效和不安全输出生成。 - 针对 TryHackMe Echo AI 的 prompt injection 漏洞研究，包括指令覆盖、上下文切换、基于编码的注入和多步 prompt 链接等绕过技术。 - 负责任披露风格的报告，将原始测试转化为结构化的发现、影响分析、根本原因讨论和缓解指导。 ## 研究重点我的工作处于 AI 安全、对抗性 prompt 和面向产品的防御评估的交叉点。我特别感兴趣的是： - Prompt injection 和间接指令劫持 - System prompt 泄漏和行为边界失效 - 对抗性框架下的不安全内容生成 - AI 辅助的网络钓鱼和社会工程学滥用路径 - 聊天机器人产品和集成助手中的模型治理漏洞 ## 未来研究方向我计划探索的下一个领域是： - 持久化内存架构，以及如何安全地隔离、限定范围和审计保留状态 - 内存和上下文投毒，包括攻击者如何植入长期或会话局部的上下文以供日后滥用这些主题很重要，因为内存将单次聊天变成了一个长期的攻击面。一旦模型能够在多轮对话中保留偏好、事实或任务状态，攻击者就会获得影响未来行为的新方法，而无需每次都从头开始赢得每一个 prompt。 ## 仓库结构 - [AI-security/bug-bounty/brave_research/Brave_Leo_Prompt_Injection_Assessment.md](AI-security/bug-bounty/brave_research/Brave_Leo_Prompt_Injection_Assessment.md) - [AI-security/bug-bounty/tryhackme_leo/Tryhackme_Prompt_Injection_Vulnerability.md](AI-security/bug-bounty/tryhackme_leo/Tryhackme_Prompt_Injection_Vulnerability.md) ## 工作风格 - 我更喜欢基于证据的文章，而不是推测。 - 我会清晰地记录攻击链，以便防御者能够重现风险并推理解决方案。 - 在需要时，我会将公开安全的报告与敏感的漏洞利用细节区分开来。 - 我将 AI 系统视为对抗性环境，而不仅仅是带有聊天界面的产品。 ## 备注随着我发布关于 AI 安全、prompt injection、内存安全和其他红队导向调查的新研究，本仓库将继续扩充。

标签：AI安全, C2, Chat Copilot, DLL 劫持, 大语言模型, 漏洞分析, 红队研究, 路径探测, 防御加固