Sarthak-bit20/intelliguard

GitHub: Sarthak-bit20/intelliguard

面向企业 RAG 系统的四层 prompt 注入检测防火墙,通过 DistilBERT 结构检测、编码解码、XLM-RoBERTa 语义分析和集成神经网络综合裁决,防御语义越狱与多模态注入攻击。

Stars: 0 | Forks: 0

## 标题: IntelliGuard Firewall emoji: 🛡️ colorFrom: blue colorTo: purple sdk: gradio sdk_version: 4.x app_file: app.py pinned: false license: mit # 🛡️ IntelliGuard | 企业级 Prompt 注入防火墙 **IntelliGuard** 是一款零信任、多层 AI 安全防火墙,旨在保护企业 LLM 和自主智能体免受深度语义越狱、零点击漏洞利用以及多模态 prompt 注入攻击。 此 Hugging Face Space 作为轻量级前端。所有繁重的推理工作均被远程路由至 **AMD Instinct MI300X** 云实例,展示了生产级的拆分堆栈部署。 ## 🚀 如何使用此 Space 1. **实时扫描器:** 导航至第一个选项卡以手动输入 payload,或使用快速插入测试向量(例如 Base64 Smuggling、Roleplay Jailbreaks)。 2. **批量演示:** 运行 20 个并发 payload 的高速测试,以评估所连接的 AMD 硬件的吞吐量。 3. **API 集成:** 如果主云服务器关闭,此前端默认为模拟的本地实例,但可以通过 `INTELLIGUARD_API` 环境变量将其配置为指向任何活动的后端。 ## 🧠 4 层架构 IntelliGuard 没有依赖单一且容易被绕过的分类器,而是强制所有输入通过一个专用的漏斗: ``` [User Prompt / Inbound Email] │ ▼ 1. SPINE (DistilBERT) ——> Catches structural syntax & hacker code (90.4% F1) │ ▼ 2. DECODER —————————————> Unpacks Base64, Hex, and hidden text smuggling │ ▼ 3. BRAIN (XLM-RoBERTa) —> Catches semantic roleplay & native languages (99.1% F1) │ ▼ 4. JUDGE (Ensemble NN) —> Final consensus evaluation │ ▼ [EXECUTOR / AGENT] ——> Payload verified safe. Allowed to process. ``` ## 📄 技术文档 详细的数学规范和架构深入解析可以在以下文档中找到: [技术规范: IntelliGuard 检测数学](./Technical%20Specification_%20IntelliGuard%20Detection%20Mathematics.pdf) ## 📊 基准测试详情 全面的性能指标、硬件加速(AMD Instinct MI300X vs. CPU)以及准确率细分可在以下文档中查阅: [BENCHMARK.md](./BENCHMARK.md) ## 🛠️ 项目结构 - `app.py`: Gradio 前端 (Hugging Face Space) - `rag_portal.py`: Streamlit 企业级 RAG 门户 - `scripts/main.py`: FastAPI 后端 (推理服务器) - `notebooks/`: 研究与模型训练 notebook - `models/`: 本地模型检查点 (Judge NN) - `datasets/`: 训练与验证数据样本
标签:AI防火墙, AMD Instinct MI300X, API安全网关, Base64走私检测, CISA项目, DistilBERT, DNS 反向解析, Gradio前端应用, HuggingFace Space, Kubernetes, LLM越狱防御, RAG安全, Red Canary, XLM-RoBERTa, 企业AI安全防护, 企业级RAG安全, 凭据扫描, 多智能体安全, 多语言安全检测, 多阶段文本分类, 大语言模型安全, 密码管理, 异构计算, 提示词注入检测, 提示词过滤, 文本分类, 机密管理, 深度学习, 深度语义越狱防御, 网络安全, 逆向工具, 隐私保护, 集成神经网络, 零信任AI架构, 零点击攻击防御