canthaxit/Shield

GitHub: canthaxit/Shield

Shield是一款针对LLM应用程序的AI防火墙,提供运行时防御,防止提示注入、越狱和对抗性攻击。

Stars: 0 | Forks: 0

# LLM 防火墙 LLM 应用程序的运行时防御——保护免受提示注入、越狱和对抗性攻击,可选欺骗(蜜罐)功能。 ## 功能 - **5 阶段检测管道**:输入清理 → 预过滤 → 机器学习分类器 → LLM 判决 → 会话跟踪 - **预过滤阻止**:在 LLM 调用之前 <10 毫秒捕获明显的攻击 - **机器学习分类器**:TF-IDF + LogisticRegression,F1 = 0.98,<2 毫秒推理 - **多轮会话跟踪**:检测对话中的升级 - **框架集成**:LangChain、LlamaIndex、CrewAI、Haystack、Semantic Kernel、DSPy、FastAPI、LiteLLM - **LLM 提供商**:Ollama(本地)、OpenAI、Anthropic、Azure、Bedrock、Vertex AI、Gemini、llama.cpp - **威胁情报**:IOC 提取、STIX 2.1 导出、MITRE ATT&CK 映射 - **CEF/SIEM 记录**:ArcSight 兼容的事件记录(供应商/产品可配置) - **网络欺骗**:MCP 蜜罐、网络/服务蜜罐、ICS/SCADA 诱饵 - **RBAC & 多租户**:基于角色的访问控制和租户隔离 ## 安装 ``` pip install -e . # core (library only) pip install -e ".[flask,ml,ollama,openai,anthropic]" # API service + ML classifier + providers ``` ## 运行 API 服务 ``` python app.py # dev (Flask) # 生产(waitress,跨平台 — 集成于容器中): python -m waitress --host=0.0.0.0 --port=5000 --threads=4 app:app # 生产(gunicorn,Linux/Unix — 需要 `pip install -r requirements_production.txt`): gunicorn -c gunicorn_config.py wsgi:app ``` ## 库使用 ``` from llm_firewall import Shield shield = Shield() result = shield.analyze("ignore previous instructions and...") if result.blocked: ... # reject the request ``` ## 白标配置 在 SIEM/CEF 事件和响应中发出的产品/供应商身份由环境驱动: | 环境变量 | 默认 | 目的 | |---|---|---| | `FIREWALL_PRODUCT_NAME` | `LLM Firewall` | CEF 事件中的产品名称 | | `FIREWALL_VENDOR_NAME` | `LLM Firewall` | CEF 事件中的供应商名称 | | `CEF_FILE` | `firewall_cef.log` | CEF 日志路径 | | `FIREWALL_LICENSE_KEY` | _(未设置)_ | 可选功能许可(离线,无调用) | ## 部署形式 - **库** — 将 `pip install` 安装到您的应用程序中 - **API 服务/容器** — `docker-compose up`(Flask/waitress) - **断网设备** — `Dockerfile.airgap` 打包模型以实现完全离线操作 ## 许可证 Apache-2.0.
标签:Anthropic, Apex, API服务, ArcSight, AV绕过, Azure, Bedrock, CEF, CIS基准, Cloudflare, CrewAI, DSPy, ETW劫持, FastAPI, Gemini, Haystack, LangChain, LiteLLM, llama.cpp, LlamaIndex, LLM评估, MITRE ATT&CK, Ollama, OpenAI, Semantic Kernel, STIX 2.1, Streamlit, Vertex AI, 人工智能, 内存规避, 分类器, 威胁情报, 对抗攻击, 库使用, 开发者工具, 敏感信息检测, 日志记录, 机器学习, 检测管道, 欺骗技术, 用户模式Hook绕过, 白标配置, 蜜罐, 访问控制, 证书利用, 语言模型, 请求拦截, 轻量级, 运行时保护, 逆向工具, 防火墙, 集成框架