majd102-p/PhishGuardPro

GitHub: majd102-p/PhishGuardPro

PhishGuard Pro 是一款基于混合 AI 架构的威胁情报系统，利用 BERT 分类器和 RAG 数据库深度检测钓鱼邮件、短信诈骗及金融欺诈并提供分析解释。

Stars: 3 | Forks: 0

## title: PhishGuard Pro emoji: 🛡️ colorFrom: red colorTo: gray sdk: gradio app_file: app.py pinned: false license: mit # 🛡️ PhishGuard Pro: 高级混合 AI 欺诈与钓鱼检测器 ![Python](https://img.shields.io/badge/Python-3.10%2B-blue) ![LangChain](https://img.shields.io/badge/LangChain-Integration-green) ![HuggingFace](https://img.shields.io/badge/HuggingFace-Spaces-yellow) ![License](https://img.shields.io/badge/License-MIT-purple) ▶️ **[Hugging Face Spaces 上的实时交互演示](https://huggingface.co/spaces/Ma120/PhishGuard-Pro)** ## 📌 项目概述 **PhishGuard Pro** 是一个企业级 AI 工具，旨在检测、分析并解释网络钓鱼邮件、短信诈骗（Smishing）以及金融欺诈企图。它利用**混合 AI 架构**，将快速、准确的序列分类（BERT）与生成式可解释性（RAG + LLM）相结合，不仅能够标记恶意内容，还能用英文提供可操作的网络安全建议。本项目作为一个强大的作品集展示，展现了在金融科技（Fintech）与网络安全领域的高级 AI 工程技能。 ## ⚠️ 基础设施与性能说明（供评审人员参考） ## 🛠️ 我构建的内容 vs. 现成工具为了保持透明度并突显具体的工程投入，以下是关于我的定制实现与所利用的开源工具的细分说明： ### ⚙️ 我构建的内容（我的核心 AI 工程贡献） 1. **混合 AI 流水线架构**：设计了一个双阶段推理流水线，融合了基于 BERT 的快速序列分类与由 LLM 驱动的上下文推理，从而在实时延迟与深度分析精度之间取得平衡。 2. **专业金融 RAG 工程**：精心策划并嵌入了一个高保真向量知识库，重点关注复杂的攻击向量（例如 *杀猪盘*、*CEO 欺诈 / BEC*、高级 *Smishing*），使 AI 能够对抗复杂的社会工程策略。 3. **自动化 IoC 取证提取**：构建了一个利用 Regex 的确定性威胁情报层，用于解析原始输入，即时隔离威胁指标（恶意域名、一次性邮箱、伪造号码），以实现即时的取证可见性。 4. **受控提示设计**：实施了严格的、基于约束的提示架构，系统地缓解 LLM 幻觉，并强制生成标准化的、可操作的应急响应计划。 5. **企业级分析仪表盘**：利用 Gradio 和 **Plotly** 开发了一个动态响应式安全终端，以可视化方式综合分类指标、威胁概率（交互式风险仪表盘）和 LLM 推理，整合成一个直观的分析师仪表盘。 ### 📦 现成的开源模型（我所依托的强大基石）我集成了最先进的免费模型，以在零部署成本的情况下实现最高精度： - **钓鱼分类器**：`Auguzcht/securisense-phishing-detection`（经过微调的 BERT-base）。 - **向量嵌入**：`sentence-transformers/all-MiniLM-L6-v2`（快速部署嵌入）。 - **推理引擎 (LLM)**：`HuggingFaceH4/zephyr-7b-beta`（高度强大的指令微调 7B 模型）。 - **编排**：`LangChain`（Vector DB 桥接）和 `FAISS`（内存相似度搜索）。 ## 🚀 本地运行方法 1. 克隆仓库并安装依赖： pip install -r requirements.txt 2. 运行 Gradio 应用： python app.py *注意：由于使用了强大的 LLM，此应用程序在本地运行以获得最佳性能可能需要大量内存（RAM/VRAM）。在 Hugging Face Spaces 上，它在可用硬件限制内高效运行.* ## 🔮 未来路线图（企业级扩展）虽然当前的架构作为一个非常有效的**最小可行性产品（MVP）**，但将其过渡到生产级企业部署将涉及以下架构升级： 1. **模型微调（以数据为中心的优化）** * **内容**：对包含大量上下文 Smishing（短信钓鱼）和 WhatsApp 欺诈的数据集，专门微调基础序列分类模型（例如，利用更大的 BERT 变体）。 * **原因**：诈骗者严重依赖专门针对移动平台格式化的社会工程手段。微调可以保证对零日电信欺诈的极高精度。 2. **实时威胁情报集成（动态 Vector DB）** * **内容**：将静态内存中的 RAG 存储迁移到实时、分布式向量数据库（如 `Pinecone` 或 `Milvus`），并连接到自动化的 OSINT（开源情报）威胁源。 * **原因**：诈骗叙事每天都在演变。动态 Vector DB 确保 AI 的上下文知识库实时更新，而无需重新构建应用程序或停机。 3. **主动 URL 沙箱与 API 验证** * **内容**：自动将提取的威胁指标通过专业的威胁聚合 API（如 `VirusTotal` 或 `Google Safe Browsing`）进行路由检查。 * **原因**：虽然当前系统在行为语言学分析方面表现出色，但将 AI 启发式分析与确定性的 IP/URL 声誉检查相结合，提供了一个万无一失的多层安全保护。 4. **自主 AI 代理（工具调用集成）** * **内容**：将被动 RAG 流水线升级为主动的**自主代理**框架（通过 LangChain Agents），配备诸如 `SandboxBrowserTool` 和 `DomainLookupTool` 等工具。 * **原因**：代理不只是分析消息的被动文本，而是可以*调查*它。如果电子邮件包含链接，代理会自主安全地浏览该链接，观察网页（例如，检测克隆的 PayPal 登录页面），检查域名注册日期，并综合得出最终的取证报告。**这种主动调查代表了 AI 网络安全的真正最先进水平.** ## 📜 法律免责声明本工具仅供教育咨询用途。复杂的欺诈计划演变迅速。请始终依赖授权银行或官方渠道进行最终核实。

标签：BERT分类器, DLL 劫持, ESC8, Gradio, Hugging Face, LangChain, RAG检索增强生成, Smishing检测, Zephyr-7B, 企业级安全, 反钓鱼, 向量数据库, 大语言模型, 威胁情报, 实时分析, 序列分类, 开发者工具, 欺诈检测, 混合人工智能, 社会工程学, 网络安全, 轻量级, 逆向工具, 金融科技安全, 隐私保护