soxoj/socid-extractor

GitHub: soxoj/socid-extractor

从 130 多个网站和平台的个人资料页与 API 响应中批量提取用户账号信息并以结构化格式输出,专为 OSINT 调查设计。

Stars: 928 | Forks: 94

# socd_extractor 从个人资料网页/API 响应中提取用户信息,并以机器可读的格式保存。支持针对各种网站和平台的 130 多种方法。 ## 用法 作为命令行工具: ``` $ socid_extractor --url https://www.deviantart.com/muse1908 country: France created_at: 2005-06-16 18:17:41 gender: female username: Muse1908 website: www.patreon.com/musemercier links: ['https://www.facebook.com/musemercier', 'https://www.instagram.com/muse.mercier/', 'https://www.patreon.com/musemercier'] tagline: Nothing worth having is easy... ``` 无需安装: ``` $ ./run.py --url https://www.deviantart.com/muse1908 ``` 当 URL 字符串不匹配任何已知站点提示时跳过 HTTP 请求(用于更快的批量运行;可选,可能会跳过如论坛模板之类的通用引擎): ``` $ socid_extractor --url https://example.com/foo --skip-fetch-if-no-url-hint ``` 作为 Python 库: ``` >>> import socid_extractor, requests >>> r = requests.get('https://www.patreon.com/annetlovart') >>> socid_extractor.extract(r.text) {'patreon_id': '33913189', 'patreon_username': 'annetlovart', 'fullname': 'Annet Lovart', 'links': "['https://www.facebook.com/322598031832479', 'https://www.instagram.com/annet_lovart', 'https://twitter.com/annet_lovart', 'https://youtube.com/channel/UClDg4ntlOW_1j73zqSJxHHQ']"} ``` ## 安装说明 ``` $ pip3 install socid-extractor ``` 最新的开发版本可以直接从 GitHub 安装: ``` $ pip3 install -U git+https://github.com/soxoj/socid_extractor.git ``` ## 站点和方法 支持针对不同网站和平台的[130+ 种方法](https://github.com/soxoj/socid-extractor/blob/master/METHODS.md)! - Google(所有文档页面、地图贡献),需要 cookies - Yandex(disk、albums、znatoki、music、realty、collections),需要 cookies 以防止被验证码阻止 - Mail.ru(my.mail.ru 用户主页、照片、视频、游戏、社区) - Facebook(用户和群组页面) - VK.com(用户页面) - OK.ru(用户页面) - Instagram - Reddit - Medium - Flickr - Tumblr - TikTok - GitHub - Chess.com - Roblox - MyAnimeList - Substack - Hashnode - Fandom wikis(MediaWiki API) - Rarible - CSSBattle - Max (max.ru) - TwitchTracker - lnk.bio - Bluesky - Scratch - Wikipedia - DailyMotion - SlideShare - WordPress.org - Weebly - Calendly - Google Play - Amazon Author ……以及许多其他站点。 你还可以查看[测试文件](https://github.com/soxoj/socid-extractor/blob/master/tests/test_e2e.py)以获取数据示例,或查看 [schemes 文件](https://github.com/soxoj/socid-extractor/blob/master/socid_extractor/schemes.py)来浏览所有方法。 ## 适用场景 - 通过用户名和/或账户 UID 获取所有可用信息。示例:[Week in OSINT](https://medium.com/week-in-osint/getting-a-grasp-on-googleids-77a8ab707e43),[OSINTCurious](https://osintcurio.us/2019/10/01/searching-instagram-part-2/) - 用户追踪,检查账户(通过 ID)是否曾被记录过,即使所有公开信息都已更改。示例:[Aware Online](https://www.aware-online.com/en/importance-of-user-ids-in-social-media-investigations/) - 通过常用的跨服务 UID 进行搜索(GAIA ID、Facebook UID、Yandex Public ID 等) - SQL 格式的论坛和平台数据库泄露 - 包含目标个人资料 ID 的已索引链接 - 通过与其他 ID 比较来搜索追踪数据 - [工作原理](https://www.eff.org/wp/behind-the-one-way-mirror),[如何使用](https://www.nytimes.com/interactive/2019/12/19/opinion/location-tracking-cell-phone.html)。 - 执法调查 ## SOWEL 分类 本工具使用了以下 OSINT 技术: - [SOTL-1.4. 分析内部标识符](https://sowel.soxoj.com/internal-identifiers) - [SOTL-11.1. 检查过时和未使用的功能](https://sowel.soxoj.com/outdated-unused-functionality) ## 使用 socid_extractor 的工具 - [Maigret](https://github.com/soxoj/maigret) - 强大的用户名检查工具,可根据找到的账户生成包含所有可用信息的报告。 - [TheScrapper](https://github.com/champmq/TheScrapper) - 从网站抓取电子邮件、电话号码和社交媒体账户。 - [InfoHunter](https://github.com/sweetnight19/InfoHunter) - 一款开源 OSINT 工具,允许你在网上搜索、收集和分析信息,以全面了解你感兴趣的个人或公司。 - [YaSeeker](https://github.com/HowToFind-bot/YaSeeker) - 通过登录名/电子邮件收集有关 Yandex 账户所有可用信息的工具。 - [Marple](https://github.com/soxoj/marple) - 抓取给定用户名的搜索引擎结果。 ## 测试 ``` python3 -m pytest tests/test_e2e.py -n 10 -k 'not cookies' -m 'not github_failed and not rate_limited' ``` 开发者文档(架构、模块、CI):[docs/](docs/)。 ## 贡献 如果你想添加新方法或修复任何问题,请查看[单独页面](https://github.com/soxoj/socid-extractor/blob/master/CONTRIBUTING.md)。
标签:API响应解析, ESC4, ESC8, OSINT, Python, Web Scraping, 个人主页, 安全规则引擎, 情报收集, 数据提取, 数据泄露, 数据解析, 无后门, 漏洞研究, 用户画像, 社交账号, 社会工程学, 网络痕迹分析, 跨平台关联, 身份追踪, 逆向工具