lockwatson-share/LLMSecurityGuard

GitHub: pallavi-security/LLMSecurityGuard

面向 LLM API 的开源安全网关，提供 MCP 协议安全、风险评分、人工审查工作流和敏感数据脱敏能力。

Stars: 6 | Forks: 2

LLMSecurityGuard LLMSecurityGuard 是一个用于 LLM API 的开源安全网关。它帮助开发者、安全工程师和组织安全地部署语言模型。它提供：模型上下文协议 (MCP) 安全身份验证和基于角色的访问控制 (RBAC) 输入和输出清洗风险评分和高风险 Prompt 的人工审查攻击模拟仪表板监控基于 STRIDE 的威胁建模功能 MCP 安全：使用 HMAC 签名和 Nonce 确保完整性、防重放和可审计性。身份验证 & RBAC：基于 Token 的用户身份验证和访问控制。输入清洗：检测危险命令和敏感信息。输出清洗：编校（脱敏）电子邮件、SSN、电话号码和其他敏感数据。风险评分引擎：根据检测到的威胁对 Prompt 进行评分。人工审查队列：高风险 Prompt 需要人工批准。交互式 CLI 审查工具：通过终端批准或拒绝 Prompt。 Streamlit 仪表板：挂起的 Prompt 和风险指标的可视化视图。攻击模拟：用于测试安全层的预构建脚本。模块化架构：易于扩展新的 Sanitizer、适配器或日志模块。适用人群？构建 LLM 驱动的应用程序的开发者审计 AI 系统的安全工程师 DevSecOps 专业人员学习 LLM 安全的学生和研究人员安全暴露 LLM API 的初创公司模型上下文协议 (MCP) MCP 确保：上下文完整性：HMAC 签名防止篡改重放保护：Nonce 验证阻止重放攻击授权：仅允许有效的 Token 可审计性：跟踪风险评分和元数据示例：MCP 签名发送 JSON 到 /llm API：注意：使用 OpenAI 或 Claude 适配器需要 API Key。为了免费测试，包含了本地适配器。安装 1. 克隆仓库： 2. 创建虚拟环境： 3. 安装依赖： 4. 安装 spaCy 和用于 NLP 输入清洗的英语模型：运行项目 1. 启动 API 服务器： API 运行于：端点： / → 健康检查 /llm → 安全 LLM 网关 2. 发送测试 Prompt：所有测试脚本位于 attack_simulations/ 示例：高风险 Prompt 示例：如果 risk ≥ 50，响应： 3. 交互式人工审查 CLI（可选）： CLI 命令： [a]pprove (批准) [r]eject (拒绝) [s]kip (跳过) [q]uit (退出) Prompt 存储在：manual_review/queue.json 4. 运行仪表板（可选）：在浏览器中打开（通常是）：可视化查看高风险 Prompt。 5. 运行攻击模拟：测试包括：危险命令敏感信息请求正常 Prompt 威胁模型（基于 STRIDE）防御对象： Prompt 注入上下文篡改重放攻击敏感数据泄露未授权的 API 访问缓解措施包括： HMAC 签名 Nonce 验证风险评分人工审查工作流输入/输出清洗项目结构未来工作：MCP 和 Agent 安全 LLMSecurityGuard 目前作为一个安全网关运行，在请求到达模型之前于 LLM API 边界拦截它们。虽然它尚未提供对 MCP 服务器或 Agent 工具调用的原生监控，但其拦截架构可以扩展以支持此模型。未来的版本可能会引入一个感知 MCP 的代理，能够解析模型上下文协议使用的 JSON-RPC 消息。这将允许 LLMSecurityGuard 检查并强制执行 Agent 与 MCP 服务器之间工具调用请求的安全策略。此类功能可以实现：工具调用验证敏感数据过滤工具使用的速率限制 Agent 与工具交互的审计日志请求到达 MCP 服务器之前的策略执行此扩展将允许 LLMSecurityGuard 充当 Agentic AI 系统的安全控制层。许可证 MIT License — 详见 LICENSE 文件。

标签：AI安全, API安全, Chat Copilot, DevSecOps, DLL 劫持, DNS 反向解析, HMAC签名, JSON输出, Kubernetes, LLM安全网关, MCP协议, OpenAPI网关, PII检测, Prompt安全, Python, RBAC, Streamlit, Streamlit, STRIDE模型, 上游代理, 人工审核, 人工智能安全, 合规性, 大语言模型, 威胁建模, 安全仪表盘, 完整性校验, 审计日志, 攻击模拟, 敏感数据过滤, 无后门, 模型上下文协议, 访问控制, 访问控制, 越狱检测, 输入清洗, 输出清洗, 逆向工具, 重放攻击防护, 风险评分, 驱动签名利用