majd102-p/PhishGuardPro

GitHub: majd102-p/PhishGuardPro

PhishGuard Pro 是一款基于混合 AI 架构的威胁情报系统,利用 BERT 分类器和 RAG 数据库深度检测钓鱼邮件、短信诈骗及金融欺诈并提供分析解释。

Stars: 0 | Forks: 0

## title: PhishGuard Pro emoji: 🛡️ colorFrom: red colorTo: gray sdk: gradio app_file: app.py pinned: false license: mit # 🛡️ PhishGuard Pro: 高级混合 AI 欺诈与钓鱼检测器 ![Python](https://img.shields.io/badge/Python-3.10%2B-blue) ![LangChain](https://img.shields.io/badge/LangChain-Integration-green) ![HuggingFace](https://img.shields.io/badge/HuggingFace-Spaces-yellow) ![License](https://img.shields.io/badge/License-MIT-purple) ▶️ **[Hugging Face Spaces 上的实时交互演示](https://huggingface.co/spaces/Ma120/PhishGuard-Pro)** ## 📌 项目概述 **PhishGuard Pro** 是一个企业级 AI 工具,旨在检测、分析并解释网络钓鱼邮件、短信诈骗(Smishing)以及金融欺诈企图。 它利用**混合 AI 架构**,将快速、准确的序列分类(BERT)与生成式可解释性(RAG + LLM)相结合,不仅能够标记恶意内容,还能用英文提供可操作的网络安全建议。 本项目作为一个强大的作品集展示,展现了在金融科技(Fintech)与网络安全领域的高级 AI 工程技能。 ## ⚠️ 基础设施与性能说明(供评审人员参考) ## 🛠️ 我构建的内容 vs. 现成工具 为了保持透明度并突显具体的工程投入,以下是关于我的定制实现与所利用的开源工具的细分说明: ### ⚙️ 我构建的内容(我的核心 AI 工程贡献) 1. **混合 AI 流水线架构**:设计了一个双阶段推理流水线,融合了基于 BERT 的快速序列分类与由 LLM 驱动的上下文推理,从而在实时延迟与深度分析精度之间取得平衡。 2. **专业金融 RAG 工程**:精心策划并嵌入了一个高保真向量知识库,重点关注复杂的攻击向量(例如 *杀猪盘*、*CEO 欺诈 / BEC*、高级 *Smishing*),使 AI 能够对抗复杂的社会工程策略。 3. **自动化 IoC 取证提取**:构建了一个利用 Regex 的确定性威胁情报层,用于解析原始输入,即时隔离威胁指标(恶意域名、一次性邮箱、伪造号码),以实现即时的取证可见性。 4. **受控提示设计**:实施了严格的、基于约束的提示架构,系统地缓解 LLM 幻觉,并强制生成标准化的、可操作的应急响应计划。 5. **企业级分析仪表盘**:利用 Gradio 和 **Plotly** 开发了一个动态响应式安全终端,以可视化方式综合分类指标、威胁概率(交互式风险仪表盘)和 LLM 推理,整合成一个直观的分析师仪表盘。 ### 📦 现成的开源模型(我所依托的强大基石) 我集成了最先进的免费模型,以在零部署成本的情况下实现最高精度: - **钓鱼分类器**:`Auguzcht/securisense-phishing-detection`(经过微调的 BERT-base)。 - **向量嵌入**:`sentence-transformers/all-MiniLM-L6-v2`(快速部署嵌入)。 - **推理引擎 (LLM)**:`HuggingFaceH4/zephyr-7b-beta`(高度强大的指令微调 7B 模型)。 - **编排**:`LangChain`(Vector DB 桥接)和 `FAISS`(内存相似度搜索)。 ## 🚀 本地运行方法 1. 克隆仓库并安装依赖: pip install -r requirements.txt 2. 运行 Gradio 应用: python app.py *注意:由于使用了强大的 LLM,此应用程序在本地运行以获得最佳性能可能需要大量内存(RAM/VRAM)。在 Hugging Face Spaces 上,它在可用硬件限制内高效运行.* ## 🔮 未来路线图(企业级扩展) 虽然当前的架构作为一个非常有效的**最小可行性产品(MVP)**,但将其过渡到生产级企业部署将涉及以下架构升级: 1. **模型微调(以数据为中心的优化)** * **内容**:对包含大量上下文 Smishing(短信钓鱼)和 WhatsApp 欺诈的数据集,专门微调基础序列分类模型(例如,利用更大的 BERT 变体)。 * **原因**:诈骗者严重依赖专门针对移动平台格式化的社会工程手段。微调可以保证对零日电信欺诈的极高精度。 2. **实时威胁情报集成(动态 Vector DB)** * **内容**:将静态内存中的 RAG 存储迁移到实时、分布式向量数据库(如 `Pinecone` 或 `Milvus`),并连接到自动化的 OSINT(开源情报)威胁源。 * **原因**:诈骗叙事每天都在演变。动态 Vector DB 确保 AI 的上下文知识库实时更新,而无需重新构建应用程序或停机。 3. **主动 URL 沙箱与 API 验证** * **内容**:自动将提取的威胁指标通过专业的威胁聚合 API(如 `VirusTotal` 或 `Google Safe Browsing`)进行路由检查。 * **原因**:虽然当前系统在行为语言学分析方面表现出色,但将 AI 启发式分析与确定性的 IP/URL 声誉检查相结合,提供了一个万无一失的多层安全保护。 4. **自主 AI 代理(工具调用集成)** * **内容**:将被动 RAG 流水线升级为主动的**自主代理**框架(通过 LangChain Agents),配备诸如 `SandboxBrowserTool` 和 `DomainLookupTool` 等工具。 * **原因**:代理不只是分析消息的被动文本,而是可以*调查*它。如果电子邮件包含链接,代理会自主安全地浏览该链接,观察网页(例如,检测克隆的 PayPal 登录页面),检查域名注册日期,并综合得出最终的取证报告。**这种主动调查代表了 AI 网络安全的真正最先进水平.** ## 📜 法律免责声明 本工具仅供教育咨询用途。复杂的欺诈计划演变迅速。请始终依赖授权银行或官方渠道进行最终核实。
标签:BERT分类器, DLL 劫持, ESC8, Gradio, Hugging Face, LangChain, RAG检索增强生成, Smishing检测, Zephyr-7B, 企业级安全, 反钓鱼, 向量数据库, 大语言模型, 威胁情报, 实时分析, 序列分类, 开发者工具, 欺诈检测, 混合人工智能, 社会工程学, 网络安全, 轻量级, 逆向工具, 金融科技安全, 隐私保护