engrarslan99/Email-Sentinel-AI-Powered-Phishing-Detection-Browser-Extension-
GitHub: engrarslan99/Email-Sentinel-AI-Powered-Phishing-Detection-Browser-Extension-
一个AI驱动的浏览器扩展,用于实时检测Gmail和Outlook中的钓鱼邮件,通过多层检测提供信任评分和风险等级。
Stars: 0 | Forks: 0
# 🛡️ MailSentinel — 用于电子邮件安全的浏览器扩展
## 📖 概述
MailSentinel 是一款浏览器扩展,用于分析 Gmail 和 Outlook 网页版上的电子邮件,以确定它们是安全的还是潜在的网络钓鱼尝试。它不仅仅提供简单的垃圾邮件标签,而是生成一个**信任评分(0–100)**,该评分基于三个互补的检测层,为用户提供在交互时刻透明、可操作的洞察。
## ✨ 功能特点
- **多层检测**:结合 NLP 分类、基于规则的启发式方法和实时 URL 威胁情报
- **信任评分框架**:使用加权评分,而非简单的安全/不安全二元判定
- **颜色编码的风险等级**:为每封分析的邮件提供即时的视觉反馈
- **URL 安全分析**:扫描并高亮显示每封邮件中的嵌入链接(安全 = 绿色,可疑 = 红色,被 Google SB 标记 = `SB` 徽章)
- **情境化解释**:告知您邮件被标记的*原因*(例如,语法错误、紧急语言、可疑域名)
- **支持 Gmail 和 Outlook**:兼容两大主流网络邮件平台
## 🎯 信任评分等级
| 评分 | 等级 | 颜色 |
|------|------|------|
| 85–100 | 安全 | 🟢 绿色 |
| 70–84 | 可能安全 | 🟩 浅绿色 |
| 55–69 | 可疑 | 🟡 黄色 |
| 40–54 | 有风险 | 🟠 橙色 |
| 20–39 | 高风险 | 🔴 红色 |
| 0–19 | 危险 | 🟥 深红色 |
## 🏗️ 架构
该系统采用三层架构:
```
Browser Extension (Manifest V3)
└── content.js — Extracts sender, subject, body, URLs from Gmail/Outlook DOM
└── popup.js — Displays Trust Score, URL analysis, and threat explanations
│
▼ JSON (sender, subject, body, URLs)
FastAPI Backend (Python)
├── Rule-Based Analyzer (weight: 20%)
├── NLP Classifier (weight: 50%)
└── Google Safe Browsing (weight: 30%)
│
▼ Trust Score + Threat Breakdown
Popup UI — Color-coded results rendered in the browser
```
### 信任评分公式
```
Combined Risk = (ML Score × 0.50) + (API Score × 0.30) + (Rules Score × 0.20)
Final Score = 100 − Combined Risk
```
## 🧠 检测层
### 1. NLP 分类器(50%)
- 基于**42,000+ 封已标记邮件**(SpamAssassin + CEAS_08 数据集)训练
- 使用 TF-IDF 向量化 + 监督分类器
- 输出垃圾邮件概率,并转换为 0–100 的风险评分
### 2. Google Safe Browsing API(30%)
- 所有嵌入的 URL 均会对照 Google 的实时威胁数据库进行检查
- 实时检测恶意域名,包括零日钓鱼 URL
- API 评分 = `(恶意 URL 数 ÷ 总 URL 数) × 100`
### 3. 基于规则的分析(20%)
- 轻量级 Python 启发式评估:
| 组件 | 触发条件 | 权重 |
|------|----------|------|
| 主题 | 紧急关键词、全大写、过多标点符号 | 20% |
| 发件人 | 域名欺骗、可疑 TLD、数字域名 | 30% |
| 正文 | 凭据请求、语法错误、通用问候语 | 35% |
| URL | 短链接服务、混淆链接、域名不匹配 | 15% |
## 🛠️ 技术栈
| 层级 | 技术 |
|------|------|
| 浏览器扩展 | JavaScript (ES6), Manifest V3 |
| 后端 | Python 3.10, FastAPI 0.95.0 |
| 机器学习 | Scikit-learn, TF-IDF 向量化器 |
| 外部 API | Google Safe Browsing API v4 |
| 前端 | HTML, CSS, JavaScript |
## 🚀 快速入门
### 前置条件
- Python 3.10+
- Google Chrome
- 一个 [Google Safe Browsing API 密钥](https://developers.google.com/safe-browsing/)
### 1. 克隆仓库
```
git clone https://github.com/engrarslan99/email-sentinel.git
cd mailsentinel
```
### 2. 设置后端
```
cd backend
pip install -r requirements.txt
```
将你的 Google Safe Browsing API 密钥添加到环境变量中:
```
export SAFE_BROWSING_API_KEY=your_api_key_here
```
启动 FastAPI 服务器:
```
uvicorn main:app --reload
```
后端将运行在 `http://127.0.0.1:8000`。你可以在 `/health` 路径验证其是否正常工作。
### 3. 加载 Chrome 扩展
1. 打开 Chrome 并导航至 `chrome://extensions/`
2. 启用**开发者模式**(右上角开关)
3. 点击**加载已解压的扩展程序**,然后选择 `extension/` 文件夹
4. MailSentinel 图标将出现在你的工具栏中
### 4. 使用
1. 在 Chrome 中打开 Gmail 或 Outlook
2. 点击任意一封邮件
3. 点击 MailSentinel 扩展图标
4. 查看信任评分、风险等级和 URL 分析结果
## 🧪 测试结果
| 组件 | 准确率 |
|------|--------|
| 机器学习分类器 | 在测试数据集上 85% |
| Google Safe Browsing | 对已知恶意 URL 100% |
| 基于规则的分析 | 对可疑模式 92% 有效性 |
| 标准 URL 检测 | 98% 准确率 |
## ⚠️ 局限性
- 扩展程序需要本地运行(或部署)的后端才能工作
- 由于动态渲染,Outlook 的 DOM 提取比 Gmail 更复杂
- Google Safe Browsing API 有速率限制,可能会影响大规模使用
- NLP 模型偶尔会将合法的营销邮件误判为可疑邮件
- 主要在 Google Chrome 上测试;Firefox 和 Edge 支持可能需要额外测试
- 由于文件大小,此仓库中未包含 `data/` 文件夹(训练数据集)。请从下方参考部分的链接下载数据集
## 🔮 未来工作
- 支持 Firefox、Edge 和 Safari
- 基于 BERT / Transformer 的 NLP 模型以获得更高的检测准确率
- 云端部署后端以消除本地依赖
- 主动式网络安全教育通知
- Microsoft Graph API 集成作为可选的 Outlook 备用方案
## 📚 参考资料
本项目使用的关键数据集和 API:
- [SpamAssassin 公开语料库](https://spamassassin.apache.org/old/publiccorpus/)
- [CEAS 2008 垃圾邮件数据集](http://www.ceas.cc/2008/)
- [Google Safe Browsing API](https://developers.google.com/safe-browsing/)
- Verizon 2023 年数据泄露调查报告
## 👤 作者
**Muhammad Arslan Ashfaq**
计算学硕士 — 都柏林格里菲斯学院
指导老师:Ahmed Olalekan
2025年9月
## 📄 许可证
本项目作为学术论文开发。在重复使用或重新分发本作品的任何部分之前,请联系作者。
标签:AI安全检测, Apex, API, AV绕过, Edge扩展, FastAPI, Firefox扩展, Gmail支持, Manifest V3, Outlook支持, Python, URL安全分析, 上下文解释, 信任评分, 反钓鱼, 多层检测, 多模态安全, 实时检测, 无后门, 机器学习, 浏览器扩展, 电子邮件安全, 网络安全, 自定义脚本, 规则启发式, 谷歌安全浏览, 邮件安全工具, 钓鱼邮件检测, 钓鱼防护, 隐私保护, 颜色编码, 风险等级