Hayrapetyan-Anri/smart-email-crawler

GitHub: Hayrapetyan-Anri/smart-email-crawler

一个结合Google搜索与多策略抓取的智能邮件爬虫,旨在从网页中准确提取并去重邮箱地址。

Stars: 0 | Forks: 0

📧 智能邮件爬虫

一个智能邮件爬虫,结合 Google 搜索与多策略抓取,从网页中准确提取电子邮件。

## ✨ 功能 - 🔍 **Google 驱动发现** — 通过目标搜索查询查找候选页面 - 🕸️ **多方法抓取** — 结合 requests、BeautifulSoup 与动态回退 - 🧠 **智能过滤** — 使用正则与启发式规则去除噪声、重复与伪造邮件 - ⚡ **快速并发** — 批量请求以提升吞吐量 - 📄 **简洁输出** — 去重并验证后的邮件,可直接导出 ## 🚀 快速开始 ``` git clone https://github.com/Hayrapetyan-Anri/smart-email-crawler.git cd smart-email-crawler pip install -r requirements.txt python main.py ``` ## 🧩 工作原理 ``` ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ Google │───▶│ Fetch & │───▶│ Extract & │───▶│ Dedupe & │ │ Search │ │ Parse HTML │ │ Validate │ │ Export │ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ ``` ## ⚙️ 配置 直接在 `main.py` 中设置搜索查询、深度与输出文件(如需适配 CLI 参数请自行调整)。 ## 📌 使用场景 - 销售与营销团队的潜在客户生成 - 外联名单构建 - OSINT 与研究工作流 ## 📝 许可证 MIT © [Anri Hayrapetyan](https://anridev.com)
标签:BeautifulSoup, BSD, ESC4, OSINT, Python, Requests, SEO, Splunk, Web爬虫, 去重, 多策略抓取, 并发, 数据挖掘, 无后门, 智能邮件爬虫, 线索生成, 谷歌搜索, 逆向工具, 邮件提取, 邮件验证, 销售线索, 高速采集