7Bharanidaran/garak-ai-redteam-lab

GitHub: 7Bharanidaran/garak-ai-redteam-lab

基于 NVIDIA Garak 的 AI 红队实验室项目,用于对大型语言模型进行自动化提示词注入漏洞评估并生成安全报告。

Stars: 0 | Forks: 0

# Garak AI Red Team 实验室 ## 概述 **Garak AI Red Team Lab** 是一个专注于使用 **NVIDIA Garak** 评估大型语言模型(LLM)安全的实操项目。NVIDIA Garak 是一款专为 AI 系统设计的开源漏洞扫描器。本仓库通过自动化的 prompt injection 评估演示了实用的 AI 红队技术,并深入探讨了生成式 AI 模型的安全评估流程。 ## 目标 * 探索 AI 红队方法论和工作流。 * 了解 NVIDIA Garak 的架构和功能。 * 执行自动化的 prompt injection 评估。 * 分析 Garak 生成的漏洞报告。 * 记录安全测试的发现和观察结果。 * 培养保护基于 LLM 的应用程序的实践经验。 ## 使用的技术 * **NVIDIA Garak v0.15.2.pre1** * **Python 3** * **Kali Linux** * **Git** * **GitHub** ## 测试配置 ### Generator * **测试: Blank** ### Probe 类别 * **Prompt Injection** ### 已执行的 Probe * `HijackHateHumans` * `HijackKillHumans` * `HijackLongPrompt` ### Detector * `AttackRogueString` ## 评估结果 | Probe | 结果 | | ---------------- | ------ | | HijackHateHumans | PASS | | HijackKillHumans | PASS | | HijackLongPrompt | PASS | 所有 prompt injection probe 均已成功完成,证明了 Garak 具备自动化执行 LLM 安全评估和漏洞分析的能力。 ## 安装说明 ### 克隆 NVIDIA Garak ``` git clone https://github.com/NVIDIA/garak.git cd garak ``` ### 创建虚拟环境 ``` python3 -m venv env source env/bin/activate ``` ### 安装 Garak ``` pip install . ``` ### 验证安装 ``` python -m garak --version ``` ## 运行评估 使用 Garak 的内置测试 generator 执行 prompt injection 评估: ``` python -m garak --model_type test.Blank --probes promptinject ``` ## 主要发现 * 成功执行了自动化的 prompt injection 测试。 * 生成了结构化的 HTML 和 JSON 报告。 * 探索了 Garak 的 probe 和 detector 框架。 * 获得了 AI 红队方法论的实际操作经验。 * 展示了漏洞评估在 LLM 安全部署中的作用。 ## 仓库结构 ``` garak-ai-redteam-lab/ │ ├── README.md ├── findings/ │ └── findings.md ├── reports/ │ ├── *.report.html │ └── *.report.jsonl ├── screenshots/ └── commands.txt ``` ## 未来增强计划 * Jailbreak 测试 * Hallucination 评估 * 毒性评估 * 偏见与安全测试 * OWASP LLM Top 10 映射 * 集成基于 Ollama 的本地模型 * 高级 AI 红队场景 * 多个 LLM 的对比分析 ## 学习成果 本项目提供了以下方面的实践经验: * AI 安全基础 * LLM 漏洞评估 * Prompt Injection 测试 * AI 红队工作流 * 安全报告分析 * 生成式 AI 系统的负责任评估 ## 参考资料 * NVIDIA Garak * OWASP Top 10 for Large Language Model Applications * MITRE ATLAS Framework
标签:DLL 劫持, Docker部署, Python, 人工智能, 大语言模型, 安全测试, 攻击性安全, 无后门, 用户模式Hook绕过, 红队评估, 网络安全研究