Sarthak-bit20/intelliguard
GitHub: Sarthak-bit20/intelliguard
面向企业 RAG 系统的四层 prompt 注入检测防火墙,通过 DistilBERT 结构检测、编码解码、XLM-RoBERTa 语义分析和集成神经网络综合裁决,防御语义越狱与多模态注入攻击。
Stars: 0 | Forks: 0
## 标题: IntelliGuard Firewall
emoji: 🛡️
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.x
app_file: app.py
pinned: false
license: mit
# 🛡️ IntelliGuard | 企业级 Prompt 注入防火墙
**IntelliGuard** 是一款零信任、多层 AI 安全防火墙,旨在保护企业 LLM 和自主智能体免受深度语义越狱、零点击漏洞利用以及多模态 prompt 注入攻击。
此 Hugging Face Space 作为轻量级前端。所有繁重的推理工作均被远程路由至 **AMD Instinct MI300X** 云实例,展示了生产级的拆分堆栈部署。
## 🚀 如何使用此 Space
1. **实时扫描器:** 导航至第一个选项卡以手动输入 payload,或使用快速插入测试向量(例如 Base64 Smuggling、Roleplay Jailbreaks)。
2. **批量演示:** 运行 20 个并发 payload 的高速测试,以评估所连接的 AMD 硬件的吞吐量。
3. **API 集成:** 如果主云服务器关闭,此前端默认为模拟的本地实例,但可以通过 `INTELLIGUARD_API` 环境变量将其配置为指向任何活动的后端。
## 🧠 4 层架构
IntelliGuard 没有依赖单一且容易被绕过的分类器,而是强制所有输入通过一个专用的漏斗:
```
[User Prompt / Inbound Email]
│
▼
1. SPINE (DistilBERT) ——> Catches structural syntax & hacker code (90.4% F1)
│
▼
2. DECODER —————————————> Unpacks Base64, Hex, and hidden text smuggling
│
▼
3. BRAIN (XLM-RoBERTa) —> Catches semantic roleplay & native languages (99.1% F1)
│
▼
4. JUDGE (Ensemble NN) —> Final consensus evaluation
│
▼
[EXECUTOR / AGENT] ——> Payload verified safe. Allowed to process.
```
## 📄 技术文档
详细的数学规范和架构深入解析可以在以下文档中找到:
[技术规范: IntelliGuard 检测数学](./Technical%20Specification_%20IntelliGuard%20Detection%20Mathematics.pdf)
## 📊 基准测试详情
全面的性能指标、硬件加速(AMD Instinct MI300X vs. CPU)以及准确率细分可在以下文档中查阅:
[BENCHMARK.md](./BENCHMARK.md)
## 🛠️ 项目结构
- `app.py`: Gradio 前端 (Hugging Face Space)
- `rag_portal.py`: Streamlit 企业级 RAG 门户
- `scripts/main.py`: FastAPI 后端 (推理服务器)
- `notebooks/`: 研究与模型训练 notebook
- `models/`: 本地模型检查点 (Judge NN)
- `datasets/`: 训练与验证数据样本
标签:AI防火墙, AMD Instinct MI300X, API安全网关, Base64走私检测, CISA项目, DistilBERT, DNS 反向解析, Gradio前端应用, HuggingFace Space, Kubernetes, LLM越狱防御, RAG安全, Red Canary, XLM-RoBERTa, 企业AI安全防护, 企业级RAG安全, 凭据扫描, 多智能体安全, 多语言安全检测, 多阶段文本分类, 大语言模型安全, 密码管理, 异构计算, 提示词注入检测, 提示词过滤, 文本分类, 机密管理, 深度学习, 深度语义越狱防御, 网络安全, 逆向工具, 隐私保护, 集成神经网络, 零信任AI架构, 零点击攻击防御