AnshumanAtrey/linkedin-harvester
GitHub: AnshumanAtrey/linkedin-harvester
通过邮箱地址查找公开 LinkedIn 个人资料 URL 的 OSINT 工具,结合搜索引擎检索与名称匹配算法,无需登录即可返回带置信度的结果。
Stars: 0 | Forks: 0
# LinkedIn 个人资料查找器 - 邮箱转 LinkedIn URL 查询
仅需邮箱地址即可查找某人的公开 LinkedIn 个人资料。无需 cookie,无需登录 LinkedIn,无需第三方数据代理商。只需使用你自己的免费搜索 + AI 密钥。
可作为 [Apify Actor](https://apify.com/anshumanatrey/linkedin-harvester) 使用,也可作为 CLI 在本地运行。
## 它是做什么的?
你提供一个邮箱,它会返回最可能的公开 LinkedIn URL 以及置信度分数。它的工作原理与所有正规的邮箱转 LinkedIn 工具在底层的运作方式相同:从邮箱中提取此人的姓名和公司,在公开网络上搜索他们的 `linkedin.com/in` 个人资料,然后对结果的匹配程度进行评分。对于那些留下了其他公开痕迹(如 GitHub 提交记录、Gravatar)的人,它也会提取这些信息以恢复真实姓名。
它是个人资料抓取工具的逆向操作。抓取工具是从 LinkedIn URL 获取数据;而此工具是从邮箱找到 LinkedIn URL。
## 它是如何工作的?(提取 -> 检索 -> 排名)
1. **提取** - 从邮箱中解析出姓名和公司。可选择通过 GitHub / Gravatar / 社交媒体账号进行扩充,以恢复邮箱本身不包含的姓名。
2. **检索** - 搜索 `site:linkedin.com/in "姓名" "公司"`(使用 Brave 或 Google CSE)来查找候选个人资料。
3. **排名** - 使用经典的名称匹配器(Jaro-Winkler + 昵称表 + 跨来源印证)对每个候选项进行评分。AI 是可选的,仅在遇到真正模糊的匹配时才会介入。
## 我应该选择哪种 AI 流程?
一个简单的选择:
| 流程 | 功能 | 成本 |
|---|---|---|
| **无 AI** | 仅使用确定性匹配。速度最快,免费。明确的匹配会直接解析,不确定的会暂存。 | $0 |
| **均衡**(默认) | 仅在确定性分数不确定时 AI 才会介入。 | 极低 |
| **全 AI** | AI 判断一切。匹配率最高。 | 较高 |
大多数工作邮箱(`first.last@company.com`)在这三种流程中的解析结果都是一样的,因为确定性路径已经能够完美解决它们。
## 本地运行(2 分钟)
```
git clone https://github.com/AnshumanAtrey/linkedin-harvester.git
cd linkedin-harvester
pip3 install requests openai httpx
# 自带你的 keys(免费层级):Groq -> console.groq.com/keys, Brave -> brave.com/search/api
GROQ_API_KEY=your_groq_key BRAVE_API_KEY=your_brave_key \
python3 -m harvester.find "satya.nadella@microsoft.com" --flow balanced
```
替换为任意工作邮箱。输出为 JSON 记录:
```
{
"email": "satya.nadella@microsoft.com",
"derived_name": "Satya Nadella",
"company": "microsoft",
"linkedin_url": "https://www.linkedin.com/in/satyanadella",
"confidence": 0.97,
"passes_gate": true,
"source": "dork:brave"
}
```
Flags:`--flow regex|balanced|full`,`--name "全名"`(跳过名称推导),`--mode incremental|backfill`。
## 在 Apify 上运行
打开 actor,粘贴一个或多个邮箱,选择一个流程,添加你的 Groq + Brave 密钥,点击 Start(开始)。结果会保存在数据集中,每个邮箱一行。
## 费用是多少(在 Apify 上)?
按事件付费:收取少量单封邮箱费用,并且仅在找到高置信度匹配时才产生额外费用。一次高置信度查询的费用远低于一美分。搜索和 AI 运行在你自己的免费层级密钥上,因此 actor 费用仅包含编排费用。
## 准确度如何?
设计上保持诚实。当存在公开锚点时,它会自信地解析:
- **企业邮箱**(`first.last@company.com`)解析得很好 - 姓名 + 公司 + 搜索是一个强有力的信号。
- **开发者 / 公众人物** 甚至可以通过 GitHub/Gravatar 的扩充步骤,从纯 gmail 邮箱中解析出来。
- **没有名称模式的纯 gmail**(`coolguy@gmail.com`)是诚实的未命中 - 因为没有公开锚点,工具会返回 `found: false` 而不是盲目猜测。
仅凭姓名的匹配必须有第二个独立信号的印证,才能通过置信度门槛,因此常见的姓名不会产生误报。
## 限制
- 属于公开的 OSINT(开源情报),而不是私人联系人数据库。没有公开足迹就意味着没有匹配。
- 搜索需要一个密钥(Brave 或 Google CSE)才能解析非开发者邮箱。
- 本地部分晦涩难懂的免费提供商邮箱,任何人在不使用付费数据代理商的情况下都无法解析。
## 伦理使用
仅用于合法的研究、销售扩充和验证。请遵守适用于你所在地区的隐私法律(GDPR、CCPA 及当地类似法规)。请勿使用此工具联系那些已明确要求不要被打扰的人。
## 许可证
MIT(请参阅 LICENSE)。
标签:Apify, ESC4, OSINT, Petitpotam, URL抓取, 人物画像, 数据抓取, 数据泄露, 逆向工具, 邮箱查询