khushiarc/LLM-Guardrail-Proxy-Automated-Red-Teaming-Harness

GitHub: khushiarc/LLM-Guardrail-Proxy-Automated-Red-Teaming-Harness

双平面 LLM 安全基础设施，通过 CI/CD 对抗性测试门禁与运行时代理代理中间件，保护 LLM 应用免受 prompt 注入、越狱攻击和 PII 泄露。

Stars: 0 | Forks: 0

# LLM-Guardrail-Proxy-Automated-Red-Teaming-Harness 构建了一个双平面 AI 防火墙与 CI/CD 测试工具集，以保护 LLM 应用。控制平面通过 Pytest 对 prompt 执行对抗性注入变异，并使用 PostgreSQL 质量门禁拦截不安全的部署。数据平面作为异步 FastAPI 代理运行，扫描运行时输入以检测越狱行为，并对 token 进行脱敏以防止 PII 泄露。项目概述：LLM 对抗性红队网关一种双平面安全基础设施，旨在强化 LLM 驱动的应用程序，以防御生产级漏洞（Prompt Injections、权限提升和多租户数据泄露）。该系统将职责划分为攻击性控制平面（CI/CD 质量门禁）和防御性数据平面（运行时代理中间件），前者在部署前以编程方式破坏 prompt，后者过滤实时的 token 流。核心架构特性自动化红队流水线：以编程方式针对包含变异攻击向量的本地化数据库（角色扮演覆盖、间接注入）来评估 prompt 模板。确定性评估准则：利用严格的负约束验证和精确匹配过滤器，确保系统永远不会偏离已定义的可靠性“黄金路径”。有状态审计日志记录：由关系型数据库模式 (PostgreSQL) 提供支持，追踪每次交互的执行延迟、总 token 分配以及细粒度的追踪时间线。

标签：一键部署, 测试用例, 逆向工具