AnshumanAtrey/linkedin-harvester

GitHub: AnshumanAtrey/linkedin-harvester

通过邮箱地址查找公开 LinkedIn 个人资料 URL 的 OSINT 工具，结合搜索引擎检索与名称匹配算法，无需登录即可返回带置信度的结果。

Stars: 0 | Forks: 0

# LinkedIn 个人资料查找器 - 邮箱转 LinkedIn URL 查询仅需邮箱地址即可查找某人的公开 LinkedIn 个人资料。无需 cookie，无需登录 LinkedIn，无需第三方数据代理商。只需使用你自己的免费搜索 + AI 密钥。可作为 [Apify Actor](https://apify.com/anshumanatrey/linkedin-harvester) 使用，也可作为 CLI 在本地运行。 ## 它是做什么的？你提供一个邮箱，它会返回最可能的公开 LinkedIn URL 以及置信度分数。它的工作原理与所有正规的邮箱转 LinkedIn 工具在底层的运作方式相同：从邮箱中提取此人的姓名和公司，在公开网络上搜索他们的 `linkedin.com/in` 个人资料，然后对结果的匹配程度进行评分。对于那些留下了其他公开痕迹（如 GitHub 提交记录、Gravatar）的人，它也会提取这些信息以恢复真实姓名。它是个人资料抓取工具的逆向操作。抓取工具是从 LinkedIn URL 获取数据；而此工具是从邮箱找到 LinkedIn URL。 ## 它是如何工作的？（提取 -> 检索 -> 排名） 1. **提取** - 从邮箱中解析出姓名和公司。可选择通过 GitHub / Gravatar / 社交媒体账号进行扩充，以恢复邮箱本身不包含的姓名。 2. **检索** - 搜索 `site:linkedin.com/in "姓名" "公司"`（使用 Brave 或 Google CSE）来查找候选个人资料。 3. **排名** - 使用经典的名称匹配器（Jaro-Winkler + 昵称表 + 跨来源印证）对每个候选项进行评分。AI 是可选的，仅在遇到真正模糊的匹配时才会介入。 ## 我应该选择哪种 AI 流程？一个简单的选择： | 流程 | 功能 | 成本 | |---|---|---| | **无 AI** | 仅使用确定性匹配。速度最快，免费。明确的匹配会直接解析，不确定的会暂存。 | $0 | | **均衡**（默认） | 仅在确定性分数不确定时 AI 才会介入。 | 极低 | | **全 AI** | AI 判断一切。匹配率最高。 | 较高 | 大多数工作邮箱（`first.last@company.com`）在这三种流程中的解析结果都是一样的，因为确定性路径已经能够完美解决它们。 ## 本地运行（2 分钟） ``` git clone https://github.com/AnshumanAtrey/linkedin-harvester.git cd linkedin-harvester pip3 install requests openai httpx # 自带你的 keys（免费层级）：Groq -> console.groq.com/keys, Brave -> brave.com/search/api GROQ_API_KEY=your_groq_key BRAVE_API_KEY=your_brave_key \ python3 -m harvester.find "satya.nadella@microsoft.com" --flow balanced ``` 替换为任意工作邮箱。输出为 JSON 记录： ``` { "email": "satya.nadella@microsoft.com", "derived_name": "Satya Nadella", "company": "microsoft", "linkedin_url": "https://www.linkedin.com/in/satyanadella", "confidence": 0.97, "passes_gate": true, "source": "dork:brave" } ``` Flags：`--flow regex|balanced|full`，`--name "全名"`（跳过名称推导），`--mode incremental|backfill`。 ## 在 Apify 上运行打开 actor，粘贴一个或多个邮箱，选择一个流程，添加你的 Groq + Brave 密钥，点击 Start（开始）。结果会保存在数据集中，每个邮箱一行。 ## 费用是多少（在 Apify 上）？按事件付费：收取少量单封邮箱费用，并且仅在找到高置信度匹配时才产生额外费用。一次高置信度查询的费用远低于一美分。搜索和 AI 运行在你自己的免费层级密钥上，因此 actor 费用仅包含编排费用。 ## 准确度如何？设计上保持诚实。当存在公开锚点时，它会自信地解析： - **企业邮箱**（`first.last@company.com`）解析得很好 - 姓名 + 公司 + 搜索是一个强有力的信号。 - **开发者 / 公众人物** 甚至可以通过 GitHub/Gravatar 的扩充步骤，从纯 gmail 邮箱中解析出来。 - **没有名称模式的纯 gmail**（`coolguy@gmail.com`）是诚实的未命中 - 因为没有公开锚点，工具会返回 `found: false` 而不是盲目猜测。仅凭姓名的匹配必须有第二个独立信号的印证，才能通过置信度门槛，因此常见的姓名不会产生误报。 ## 限制 - 属于公开的 OSINT（开源情报），而不是私人联系人数据库。没有公开足迹就意味着没有匹配。 - 搜索需要一个密钥（Brave 或 Google CSE）才能解析非开发者邮箱。 - 本地部分晦涩难懂的免费提供商邮箱，任何人在不使用付费数据代理商的情况下都无法解析。 ## 伦理使用仅用于合法的研究、销售扩充和验证。请遵守适用于你所在地区的隐私法律（GDPR、CCPA 及当地类似法规）。请勿使用此工具联系那些已明确要求不要被打扰的人。 ## 许可证 MIT（请参阅 LICENSE）。

标签：Apify, ESC4, OSINT, Petitpotam, URL抓取, 人物画像, 数据抓取, 数据泄露, 逆向工具, 邮箱查询