CyberRehAI/AI-SEC-Arsenal

GitHub: CyberRehAI/AI-SEC-Arsenal

一个展示LLM越狱、提示注入和对抗性ML攻击技术的AI安全学习作品集，含交互式演示与防御机制。

Stars: 1 | Forks: 0

# AI-Sec-Arsenal AI 安全作品集 | 针对 LLM、Agent、RAG 和 MCP 的红队测试 | 越狱、提示注入、对抗性机器学习 # AI-Sec-Arsenal 作为一名立志成为 **AI 安全专家** 的从业者（专注于 LLM、Agent、RAG、MCP、对抗性 ML 的红队测试），这是我的公开作品集。目前处于我 2025–2027 路线图的第一阶段：通过构建实战项目来掌握 LLM 越狱、提示注入及其防御技术。 ## 当前项目 - **项目 1：LLM 越狱防御套件** 交互式 Streamlit 应用，演示了 15+ 种越狱技术（DAN、编码、多轮对话、CoT 操纵等），并包含缓解层和指标仪表盘。目标：缓解前成功的提示注入 → 缓解后成功率降至 <5%。 [在线演示](https://ai-sec-arsenal-nfx3dylsawsaepym8qs8hc.streamlit.app) | [代码 → projects/project1-llm-jailbreak-suite](projects/project1-llm-jailbreak-suite) - **项目 2：对抗性 ML 攻击模拟器**（进行中） Jupyter notebook，包含针对 MNIST/CIFAR-10 的 FGSM/PGD 规避攻击及防御措施。 ## 旅程与路线图遵循一份结构化的 2025（末）–2027 规划，专注于 AI 红队测试和云 AI 安全。每周更新，包括攻击演示、缓解验证和指标。灵感来源于 OWASP LLM Top 10、Garak、DeepTeam 以及近期的 CTF（例如 Lakera Agent Breaker）。 ## 技术栈（第一阶段） - Python, Streamlit, OpenAI/Anthropic APIs - 工具：Garak, Foolbox（计划中） ## 联系方式 - LinkedIn: www.linkedin.com/in/abdul-rehman-08b67031a - Email: dev.abd04@gmail.com 如果你也对 AI 安全红队测试感兴趣，请点个 Star ⭐！

标签：AI安全, AI治理, Anthropic API, Chat Copilot, CISA项目, DNS 反向解析, FGSM, Garak, Kubernetes, Kubernetes 安全, MCP安全, NoSQL, OpenAI API, OWASP LLM Top 10, Petitpotam, PGD, Python, RAG安全, Red Canary, Streamlit, TGT, 人工智能安全, 合规性, 域名收集, 大语言模型安全, 安全测试, 密码管理, 对抗样本, 攻击性安全, 攻防演练, 无后门, 机密管理, 模型鲁棒性, 深度学习安全, 网络安全, 访问控制, 逆向工具, 防御缓解, 隐私保护