AnshumanAtrey/linkedin-harvester

GitHub: AnshumanAtrey/linkedin-harvester

通过邮箱地址查找公开 LinkedIn 个人资料 URL 的 OSINT 工具,结合搜索引擎检索与名称匹配算法,无需登录即可返回带置信度的结果。

Stars: 0 | Forks: 0

# LinkedIn 个人资料查找器 - 邮箱转 LinkedIn URL 查询 仅需邮箱地址即可查找某人的公开 LinkedIn 个人资料。无需 cookie,无需登录 LinkedIn,无需第三方数据代理商。只需使用你自己的免费搜索 + AI 密钥。 可作为 [Apify Actor](https://apify.com/anshumanatrey/linkedin-harvester) 使用,也可作为 CLI 在本地运行。 ## 它是做什么的? 你提供一个邮箱,它会返回最可能的公开 LinkedIn URL 以及置信度分数。它的工作原理与所有正规的邮箱转 LinkedIn 工具在底层的运作方式相同:从邮箱中提取此人的姓名和公司,在公开网络上搜索他们的 `linkedin.com/in` 个人资料,然后对结果的匹配程度进行评分。对于那些留下了其他公开痕迹(如 GitHub 提交记录、Gravatar)的人,它也会提取这些信息以恢复真实姓名。 它是个人资料抓取工具的逆向操作。抓取工具是从 LinkedIn URL 获取数据;而此工具是从邮箱找到 LinkedIn URL。 ## 它是如何工作的?(提取 -> 检索 -> 排名) 1. **提取** - 从邮箱中解析出姓名和公司。可选择通过 GitHub / Gravatar / 社交媒体账号进行扩充,以恢复邮箱本身不包含的姓名。 2. **检索** - 搜索 `site:linkedin.com/in "姓名" "公司"`(使用 Brave 或 Google CSE)来查找候选个人资料。 3. **排名** - 使用经典的名称匹配器(Jaro-Winkler + 昵称表 + 跨来源印证)对每个候选项进行评分。AI 是可选的,仅在遇到真正模糊的匹配时才会介入。 ## 我应该选择哪种 AI 流程? 一个简单的选择: | 流程 | 功能 | 成本 | |---|---|---| | **无 AI** | 仅使用确定性匹配。速度最快,免费。明确的匹配会直接解析,不确定的会暂存。 | $0 | | **均衡**(默认) | 仅在确定性分数不确定时 AI 才会介入。 | 极低 | | **全 AI** | AI 判断一切。匹配率最高。 | 较高 | 大多数工作邮箱(`first.last@company.com`)在这三种流程中的解析结果都是一样的,因为确定性路径已经能够完美解决它们。 ## 本地运行(2 分钟) ``` git clone https://github.com/AnshumanAtrey/linkedin-harvester.git cd linkedin-harvester pip3 install requests openai httpx # 自带你的 keys(免费层级):Groq -> console.groq.com/keys, Brave -> brave.com/search/api GROQ_API_KEY=your_groq_key BRAVE_API_KEY=your_brave_key \ python3 -m harvester.find "satya.nadella@microsoft.com" --flow balanced ``` 替换为任意工作邮箱。输出为 JSON 记录: ``` { "email": "satya.nadella@microsoft.com", "derived_name": "Satya Nadella", "company": "microsoft", "linkedin_url": "https://www.linkedin.com/in/satyanadella", "confidence": 0.97, "passes_gate": true, "source": "dork:brave" } ``` Flags:`--flow regex|balanced|full`,`--name "全名"`(跳过名称推导),`--mode incremental|backfill`。 ## 在 Apify 上运行 打开 actor,粘贴一个或多个邮箱,选择一个流程,添加你的 Groq + Brave 密钥,点击 Start(开始)。结果会保存在数据集中,每个邮箱一行。 ## 费用是多少(在 Apify 上)? 按事件付费:收取少量单封邮箱费用,并且仅在找到高置信度匹配时才产生额外费用。一次高置信度查询的费用远低于一美分。搜索和 AI 运行在你自己的免费层级密钥上,因此 actor 费用仅包含编排费用。 ## 准确度如何? 设计上保持诚实。当存在公开锚点时,它会自信地解析: - **企业邮箱**(`first.last@company.com`)解析得很好 - 姓名 + 公司 + 搜索是一个强有力的信号。 - **开发者 / 公众人物** 甚至可以通过 GitHub/Gravatar 的扩充步骤,从纯 gmail 邮箱中解析出来。 - **没有名称模式的纯 gmail**(`coolguy@gmail.com`)是诚实的未命中 - 因为没有公开锚点,工具会返回 `found: false` 而不是盲目猜测。 仅凭姓名的匹配必须有第二个独立信号的印证,才能通过置信度门槛,因此常见的姓名不会产生误报。 ## 限制 - 属于公开的 OSINT(开源情报),而不是私人联系人数据库。没有公开足迹就意味着没有匹配。 - 搜索需要一个密钥(Brave 或 Google CSE)才能解析非开发者邮箱。 - 本地部分晦涩难懂的免费提供商邮箱,任何人在不使用付费数据代理商的情况下都无法解析。 ## 伦理使用 仅用于合法的研究、销售扩充和验证。请遵守适用于你所在地区的隐私法律(GDPR、CCPA 及当地类似法规)。请勿使用此工具联系那些已明确要求不要被打扰的人。 ## 许可证 MIT(请参阅 LICENSE)。
标签:Apify, ESC4, OSINT, Petitpotam, URL抓取, 人物画像, 数据抓取, 数据泄露, 逆向工具, 邮箱查询