CollieAi/llm-firewall

GitHub: CollieAi/llm-firewall

LLM 防火墙是一个 AI 安全工具,用于保护 LLM 应用免受提示注入和数据泄露。

Stars: 3 | Forks: 0

CollieAi

LLM 防火墙 — AI 安全代理

即插即用的 OpenAI 代理,可屏蔽 PII、阻止提示注入 & 记录每一次 LLM 调用。
仅需一行代码变更。九种规则类型。兼容任何供应商。

CollieAi Website Documentation Free Tier

快速入门 · 文档 · API 参考 · 免费试用 · 自行托管

## 为什么需要 LLM 防火墙? 您正在使用 GPT-4、Claude、Gemini 进行开发——但每一次 API 调用都可能成为数据泄露点。用户可能在聊天中粘贴信用卡信息。攻击者可能注入恶意提示。敏感数据未经任何过滤就流向了第三方模型。 由 [CollieAi](https://collieai.io) 开发的 **LLM 防火墙** 是一个 **即插即用的安全代理**,它位于您的应用和 LLM 提供商之间。它能实时检查、屏蔽和拦截——只需将基础 URL 替换即可,无需修改任何代码。 github-4 ## 主要功能 - **即插即用的 OpenAI 兼容代理** — 只需更改 `base_url`,即可保留您的 SDK。Python, Node.js, Go, curl — 任何能与 OpenAI 通信的客户端都能与 CollieAi 协同工作 - **PII 检测与屏蔽** — 正则表达式模式、结构化 ID 验证(Luhn, MOD-97)以及基于 Aho-Corasick 算法的字典匹配 - **提示注入防护** — ML 分类器(10-50 毫秒)并可选用基于 LLM 的分析来应对复杂攻击 - **灵活的策略引擎** — 6 个可配置规则类别,每个类别都有监控(仅记录)或执行(屏蔽/拦截)模式。自定义正则表达式、字典、阈值——可按项目调整一切 - **入站 + 出站过滤** — 使用独立的策略扫描用户提示和模型响应 - **用户满意度跟踪** — 检测负面情绪,监控不满指标,出问题时获得警报 - **完整的审计跟踪** — 每个请求都记录触发的规则、延迟和 token 数量。可按项目、时间范围或规则类型进行筛选 - **仪表板** — 创建项目、配置规则、添加供应商 token、查看日志。无需配置文件,无需部署 ## 快速入门 — 3 个步骤
**1. 将客户端指向 CollieAi** 注册一个免费 API 密钥并更改您的 `base_url`。无需 SDK,无需更改架构。 ``` # 修改两个配置值 base_url = "https://api.collieai.io/v1" api_key = "clai_your_project_key" # 免费:每月 15,000 次调用 ```
**2. 您的代码保持不变** CollieAi 是一个透明代理。使用标准的 OpenAI SDK — 每个请求都会自动根据您的策略规则进行过滤。 ``` from openai import OpenAI client = OpenAI( base_url="https://api.collieai.io/v1", api_key="clai_...", ) client.chat.completions.create(...) ```
**3. 威胁被拦截,完整的审计跟踪** 只有安全、合规的响应才能到达您的用户。仪表板会显示每个被拦截的请求及其触发规则和上下文。 ``` { "error": { "message": "Content blocked by policy", "type": "content_blocked", "code": 400 } } ```
或者设置环境变量 — **零代码更改**: ``` export OPENAI_BASE_URL=https://api.collieai.io/v1 export OPENAI_API_KEY=clai_your_project_key # 您现有的代码无需更改即可运行 ``` ## 工作原理 github-2 ## 安全规则 — 完全可配置 选择您想要防范的威胁。每个规则类别都可独立配置 — 选择执行模式、设置阈值、添加自定义模式,并将规则应用于入站提示、出站响应或两者兼有。从 **监控** 模式开始观察,准备就绪后切换到 **执行** 模式。 ### 提示注入 #1 LLM 威胁 使用字典、ML 模型和语言检测来检测并阻止提示注入和越狱尝试。轻量级 ML 分类器在 10-50 毫秒内运行 — 在请求到达 LLM 之前捕获越狱、角色劫持和指令覆盖。可选用基于 LLM 的二级分析来应对绕过模式匹配的复杂攻击。 ### 个人身份信息与金融数据 合规性 检测信用卡、IBAN、SSN、电子邮件和其他个人数据。三种互补方法:适用于任何格式的可配置正则表达式模式,用于结构验证的校验和验证(信用卡使用 Luhn,IBAN 使用 MOD-97),以及用于姓名和组织特定术语的 Aho-Corasick 字典匹配。 ### 亵渎性内容与敏感词 品牌安全 使用多语言字典组过滤亵渎性内容和敏感内容。按项目上传自定义词表 — 屏蔽或遮盖冒犯性词语、竞争对手名称、内部代号或任何违反您品牌政策的内容。 ### 密钥与 API 密钥 数据泄露风险 通过正则表达式模式检测 API 密钥、令牌、私钥和凭据。在泄露给第三方模型之前捕获 `sk-...`、`ghp_...`、`AKIA...`、PEM 密钥、JWT 令牌和其他密钥格式。 ### 恶意 URL 常见威胁 通过方案、域名、IP 字面量和编码模式过滤可疑 URL。阻止钓鱼链接、数据窃取端点以及试图绕过简单字符串匹配的混淆 URL。 ### 隐藏载荷 高级威胁 检测消息中隐藏的 base64 编码载荷和文件数据。自动解码并检查嵌入内容 — 捕获隐藏指令、编码的漏洞利用以及伪装成无辜文本的走私数据。 ## 兼容所有供应商 CollieAi 可以路由到任何兼容 OpenAI 的 LLM 提供商。在仪表板中配置您的供应商 token — CollieAi 会处理其余一切。 | 供应商 | 模型 | |----------|--------| | **OpenAI** | GPT-4o, GPT-4, GPT-3.5 | | **Anthropic** | Claude Sonnet, Opus, Haiku | | **Google** | Gemini Pro, Flash | | **deepseek** | deepseek-chat, deepseek-coder | | **Azure OpenAI** | 所有 Azure 托管模型 | | **AWS Bedrock** | 通过 OpenAI 兼容包装器 | | **自行托管** | vLLM, Ollama, LocalAI | 全面支持所有供应商的 SSE 流式传输。提供异步 webhook 模式用于批处理。 ## 文档 完整文档请访问 **[docs.collieai.io](https://docs.collieai.io)** | 章节 | 您将学到 | |---------|------------------| | [**快速入门**](https://docs.collieai.io/getting-started/quick-start) | 注册 → 5 分钟内完成首次安全请求 | | [**代理集成**](https://docs.collieai.io/proxy-integration) | Python, Node.js, cURL, 流式传输, 错误处理 | | [**安全规则**](https://docs.collieai.io/security-rules) | 所有规则类型,流水线排序,执行模式 | | [**异步任务**](https://docs.collieai.io/async-jobs) | Webhooks, 任务生命周期, 双钩子模式 | | [**项目与策略**](https://docs.collieai.io/projects-and-policies) | 多租户, 数据保留, 供应商 token | | [**监控**](https://docs.collieai.io/monitoring) | 日志,分析仪表板,警报 | | [**API 参考**](https://docs.collieai.io/api-reference) | 14 个 API 组的完整端点文档 | | [**自行托管**](https://docs.collieai.io/self-hosting) | Docker Compose, ML 模型配置, 本地开发 |

Secure your LLM calls in 5 minutes. Free forever, no credit card.

Get Started Free

网站 · 仪表板 · 文档 · 问题反馈

标签:AI安全, API安全, Chat Copilot, JSON输出, MITM代理, OpenAI兼容, PII保护, 云计算, 多提供商支持, 安全代理, 实时安全检查, 密钥泄露防护, 对抗性攻击防御, 提示注入防护, 数据泄露防护, 日志审计, 机器学习安全, 深度学习安全, 网络安全, 网络探测, 规则引擎, 请求响应过滤, 请求拦截, 越狱防护, 逆向工具, 防火墙, 隐私保护, 零代码集成