MohsenBah/AIWall-redteam

GitHub: MohsenBah/AIWall-redteam

AIWall 的对抗性测试仓库,用于验证 AI 网关防护措施对 prompt 注入、机密窃取等攻击场景的实际拦截能力。

Stars: 0 | Forks: 0

# AIWall-redteam 针对 AIWall 和 AI 网关部署的对抗性测试 payload、攻击活动与缓解验证。 本仓库旨在验证 AIWall 的控制措施在遭受攻击时是否真正有效——包括 prompt 注入、机密窃取、不安全内容、agent 工具滥用以及成本滥用等场景。 ## 状态 **占位仓库。** 相关内容将在 [AIWall](https://github.com/MohsenBah/AIWall) 具备可用的策略和扫描控制措施(产品路线图的第 7 阶段)后添加。 请勿将本仓库中的任何内容用于您未拥有或未获得明确授权进行测试的系统。 ## 目的 | 内容 | 描述 | |---|---| | **攻击目录** | 映射到 MITRE ATLAS 的已记录对抗性场景 | | **Payload 库** | prompt 注入、机密窃取和 agent 滥用样本 | | **Garak 配置** | 自动化的 LLM 漏洞扫描活动 | | **PyRIT 场景** | 多轮对抗性编排测试 | | **评估脚本** | 运行攻击活动并生成缓解报告 | | **回归测试** | 确保已拦截的攻击在各个版本中始终被拦截 | ## 计划结构 ``` AIWall-redteam/ ├── docs/ │ ├── testing-methodology.md │ ├── rules-of-engagement.md │ ├── attack-catalog.md │ └── mitigation-validation.md ├── payloads/ │ ├── prompt-injection/ │ ├── secret-exfiltration/ │ ├── unsafe-content/ │ ├── agent-tool-abuse/ │ └── cost-abuse/ ├── garak/ │ ├── configs/ │ └── reports/ ├── pyrit/ │ ├── orchestrators/ │ └── scorers/ ├── scripts/ │ ├── run_campaign.sh │ └── generate_report.py └── reports/ ├── baseline-assessment.md └── post-mitigation-retest.md ``` ## 与 AIWall 的关系 ``` AIWall (core product) | +-- policy engine, secret scanner, guardrails | v AIWall-redteam (this repo) | +-- attack payloads and campaigns +-- mitigation validation reports +-- regression tests for controls ``` 成功的攻击将转化为产品需求。被拦截的攻击将转化为回归测试。 ## 行为准则 1. **仅测试您拥有或拥有书面授权的系统。** 2. 未经明确批准,请勿对生产环境的 AI 服务使用 payload。 3. 请将所有 payload 视为敏感信息——它们专为绕过控制措施而设计。 4. 请通过 AIWall issues 报告新发现的绕过方法,在修复方案出台前,请勿进行公开披露。 5. 在运行任何攻击活动之前,请先阅读 `docs/rules-of-engagement.md`(发布后)。 ## 贡献 在测试方法和首个攻击目录发布后,欢迎您的贡献。所有提交内容必须包含清晰的场景描述、预期的控制行为以及适用的 MITRE ATLAS 映射。提交时请在 commit 上使用 DCO sign-off。 ## 许可证 [Apache License 2.0](LICENSE) 本仓库中的 payload 和攻击样本仅供**授权的安全测试和研究使用**。作者不对任何滥用行为负责。
标签:AI安全, Chat Copilot, DLL 劫持, LLM网关, 大语言模型, 对抗性机器学习, 应用安全, 逆向工具