Hayrapetyan-Anri/smart-email-crawler
GitHub: Hayrapetyan-Anri/smart-email-crawler
一个结合Google搜索与多策略抓取的智能邮件爬虫,旨在从网页中准确提取并去重邮箱地址。
Stars: 0 | Forks: 0
📧 智能邮件爬虫
一个智能邮件爬虫,结合 Google 搜索与多策略抓取,从网页中准确提取电子邮件。
## ✨ 功能
- 🔍 **Google 驱动发现** — 通过目标搜索查询查找候选页面
- 🕸️ **多方法抓取** — 结合 requests、BeautifulSoup 与动态回退
- 🧠 **智能过滤** — 使用正则与启发式规则去除噪声、重复与伪造邮件
- ⚡ **快速并发** — 批量请求以提升吞吐量
- 📄 **简洁输出** — 去重并验证后的邮件,可直接导出
## 🚀 快速开始
```
git clone https://github.com/Hayrapetyan-Anri/smart-email-crawler.git
cd smart-email-crawler
pip install -r requirements.txt
python main.py
```
## 🧩 工作原理
```
┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Google │───▶│ Fetch & │───▶│ Extract & │───▶│ Dedupe & │
│ Search │ │ Parse HTML │ │ Validate │ │ Export │
└──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘
```
## ⚙️ 配置
直接在 `main.py` 中设置搜索查询、深度与输出文件(如需适配 CLI 参数请自行调整)。
## 📌 使用场景
- 销售与营销团队的潜在客户生成
- 外联名单构建
- OSINT 与研究工作流
## 📝 许可证
MIT © [Anri Hayrapetyan](https://anridev.com)
标签:BeautifulSoup, BSD, ESC4, OSINT, Python, Requests, SEO, Splunk, Web爬虫, 去重, 多策略抓取, 并发, 数据挖掘, 无后门, 智能邮件爬虫, 线索生成, 谷歌搜索, 逆向工具, 邮件提取, 邮件验证, 销售线索, 高速采集