majd102-p/PhishGuardPro
GitHub: majd102-p/PhishGuardPro
PhishGuard Pro 是一款基于混合 AI 架构的威胁情报系统,利用 BERT 分类器和 RAG 数据库深度检测钓鱼邮件、短信诈骗及金融欺诈并提供分析解释。
Stars: 0 | Forks: 0
## title: PhishGuard Pro
emoji: 🛡️
colorFrom: red
colorTo: gray
sdk: gradio
app_file: app.py
pinned: false
license: mit
# 🛡️ PhishGuard Pro: 高级混合 AI 欺诈与钓鱼检测器




▶️ **[Hugging Face Spaces 上的实时交互演示](https://huggingface.co/spaces/Ma120/PhishGuard-Pro)**
## 📌 项目概述
**PhishGuard Pro** 是一个企业级 AI 工具,旨在检测、分析并解释网络钓鱼邮件、短信诈骗(Smishing)以及金融欺诈企图。
它利用**混合 AI 架构**,将快速、准确的序列分类(BERT)与生成式可解释性(RAG + LLM)相结合,不仅能够标记恶意内容,还能用英文提供可操作的网络安全建议。
本项目作为一个强大的作品集展示,展现了在金融科技(Fintech)与网络安全领域的高级 AI 工程技能。
## ⚠️ 基础设施与性能说明(供评审人员参考)
## 🛠️ 我构建的内容 vs. 现成工具
为了保持透明度并突显具体的工程投入,以下是关于我的定制实现与所利用的开源工具的细分说明:
### ⚙️ 我构建的内容(我的核心 AI 工程贡献)
1. **混合 AI 流水线架构**:设计了一个双阶段推理流水线,融合了基于 BERT 的快速序列分类与由 LLM 驱动的上下文推理,从而在实时延迟与深度分析精度之间取得平衡。
2. **专业金融 RAG 工程**:精心策划并嵌入了一个高保真向量知识库,重点关注复杂的攻击向量(例如 *杀猪盘*、*CEO 欺诈 / BEC*、高级 *Smishing*),使 AI 能够对抗复杂的社会工程策略。
3. **自动化 IoC 取证提取**:构建了一个利用 Regex 的确定性威胁情报层,用于解析原始输入,即时隔离威胁指标(恶意域名、一次性邮箱、伪造号码),以实现即时的取证可见性。
4. **受控提示设计**:实施了严格的、基于约束的提示架构,系统地缓解 LLM 幻觉,并强制生成标准化的、可操作的应急响应计划。
5. **企业级分析仪表盘**:利用 Gradio 和 **Plotly** 开发了一个动态响应式安全终端,以可视化方式综合分类指标、威胁概率(交互式风险仪表盘)和 LLM 推理,整合成一个直观的分析师仪表盘。
### 📦 现成的开源模型(我所依托的强大基石)
我集成了最先进的免费模型,以在零部署成本的情况下实现最高精度:
- **钓鱼分类器**:`Auguzcht/securisense-phishing-detection`(经过微调的 BERT-base)。
- **向量嵌入**:`sentence-transformers/all-MiniLM-L6-v2`(快速部署嵌入)。
- **推理引擎 (LLM)**:`HuggingFaceH4/zephyr-7b-beta`(高度强大的指令微调 7B 模型)。
- **编排**:`LangChain`(Vector DB 桥接)和 `FAISS`(内存相似度搜索)。
## 🚀 本地运行方法
1. 克隆仓库并安装依赖:
pip install -r requirements.txt
2. 运行 Gradio 应用:
python app.py
*注意:由于使用了强大的 LLM,此应用程序在本地运行以获得最佳性能可能需要大量内存(RAM/VRAM)。在 Hugging Face Spaces 上,它在可用硬件限制内高效运行.*
## 🔮 未来路线图(企业级扩展)
虽然当前的架构作为一个非常有效的**最小可行性产品(MVP)**,但将其过渡到生产级企业部署将涉及以下架构升级:
1. **模型微调(以数据为中心的优化)**
* **内容**:对包含大量上下文 Smishing(短信钓鱼)和 WhatsApp 欺诈的数据集,专门微调基础序列分类模型(例如,利用更大的 BERT 变体)。
* **原因**:诈骗者严重依赖专门针对移动平台格式化的社会工程手段。微调可以保证对零日电信欺诈的极高精度。
2. **实时威胁情报集成(动态 Vector DB)**
* **内容**:将静态内存中的 RAG 存储迁移到实时、分布式向量数据库(如 `Pinecone` 或 `Milvus`),并连接到自动化的 OSINT(开源情报)威胁源。
* **原因**:诈骗叙事每天都在演变。动态 Vector DB 确保 AI 的上下文知识库实时更新,而无需重新构建应用程序或停机。
3. **主动 URL 沙箱与 API 验证**
* **内容**:自动将提取的威胁指标通过专业的威胁聚合 API(如 `VirusTotal` 或 `Google Safe Browsing`)进行路由检查。
* **原因**:虽然当前系统在行为语言学分析方面表现出色,但将 AI 启发式分析与确定性的 IP/URL 声誉检查相结合,提供了一个万无一失的多层安全保护。
4. **自主 AI 代理(工具调用集成)**
* **内容**:将被动 RAG 流水线升级为主动的**自主代理**框架(通过 LangChain Agents),配备诸如 `SandboxBrowserTool` 和 `DomainLookupTool` 等工具。
* **原因**:代理不只是分析消息的被动文本,而是可以*调查*它。如果电子邮件包含链接,代理会自主安全地浏览该链接,观察网页(例如,检测克隆的 PayPal 登录页面),检查域名注册日期,并综合得出最终的取证报告。**这种主动调查代表了 AI 网络安全的真正最先进水平.**
## 📜 法律免责声明
本工具仅供教育咨询用途。复杂的欺诈计划演变迅速。请始终依赖授权银行或官方渠道进行最终核实。
标签:BERT分类器, DLL 劫持, ESC8, Gradio, Hugging Face, LangChain, RAG检索增强生成, Smishing检测, Zephyr-7B, 企业级安全, 反钓鱼, 向量数据库, 大语言模型, 威胁情报, 实时分析, 序列分类, 开发者工具, 欺诈检测, 混合人工智能, 社会工程学, 网络安全, 轻量级, 逆向工具, 金融科技安全, 隐私保护