soxoj/socid-extractor
GitHub: soxoj/socid-extractor
从 130 多个网站和平台的个人资料页与 API 响应中批量提取用户账号信息并以结构化格式输出,专为 OSINT 调查设计。
Stars: 928 | Forks: 94
# socd_extractor
从个人资料网页/API 响应中提取用户信息,并以机器可读的格式保存。支持针对各种网站和平台的 130 多种方法。
## 用法
作为命令行工具:
```
$ socid_extractor --url https://www.deviantart.com/muse1908
country: France
created_at: 2005-06-16 18:17:41
gender: female
username: Muse1908
website: www.patreon.com/musemercier
links: ['https://www.facebook.com/musemercier', 'https://www.instagram.com/muse.mercier/', 'https://www.patreon.com/musemercier']
tagline: Nothing worth having is easy...
```
无需安装:
```
$ ./run.py --url https://www.deviantart.com/muse1908
```
当 URL 字符串不匹配任何已知站点提示时跳过 HTTP 请求(用于更快的批量运行;可选,可能会跳过如论坛模板之类的通用引擎):
```
$ socid_extractor --url https://example.com/foo --skip-fetch-if-no-url-hint
```
作为 Python 库:
```
>>> import socid_extractor, requests
>>> r = requests.get('https://www.patreon.com/annetlovart')
>>> socid_extractor.extract(r.text)
{'patreon_id': '33913189', 'patreon_username': 'annetlovart', 'fullname': 'Annet Lovart', 'links': "['https://www.facebook.com/322598031832479', 'https://www.instagram.com/annet_lovart', 'https://twitter.com/annet_lovart', 'https://youtube.com/channel/UClDg4ntlOW_1j73zqSJxHHQ']"}
```
## 安装说明
```
$ pip3 install socid-extractor
```
最新的开发版本可以直接从 GitHub 安装:
```
$ pip3 install -U git+https://github.com/soxoj/socid_extractor.git
```
## 站点和方法
支持针对不同网站和平台的[130+ 种方法](https://github.com/soxoj/socid-extractor/blob/master/METHODS.md)!
- Google(所有文档页面、地图贡献),需要 cookies
- Yandex(disk、albums、znatoki、music、realty、collections),需要 cookies 以防止被验证码阻止
- Mail.ru(my.mail.ru 用户主页、照片、视频、游戏、社区)
- Facebook(用户和群组页面)
- VK.com(用户页面)
- OK.ru(用户页面)
- Instagram
- Reddit
- Medium
- Flickr
- Tumblr
- TikTok
- GitHub
- Chess.com
- Roblox
- MyAnimeList
- Substack
- Hashnode
- Fandom wikis(MediaWiki API)
- Rarible
- CSSBattle
- Max (max.ru)
- TwitchTracker
- lnk.bio
- Bluesky
- Scratch
- Wikipedia
- DailyMotion
- SlideShare
- WordPress.org
- Weebly
- Calendly
- Google Play
- Amazon Author
……以及许多其他站点。
你还可以查看[测试文件](https://github.com/soxoj/socid-extractor/blob/master/tests/test_e2e.py)以获取数据示例,或查看 [schemes 文件](https://github.com/soxoj/socid-extractor/blob/master/socid_extractor/schemes.py)来浏览所有方法。
## 适用场景
- 通过用户名和/或账户 UID 获取所有可用信息。示例:[Week in OSINT](https://medium.com/week-in-osint/getting-a-grasp-on-googleids-77a8ab707e43),[OSINTCurious](https://osintcurio.us/2019/10/01/searching-instagram-part-2/)
- 用户追踪,检查账户(通过 ID)是否曾被记录过,即使所有公开信息都已更改。示例:[Aware Online](https://www.aware-online.com/en/importance-of-user-ids-in-social-media-investigations/)
- 通过常用的跨服务 UID 进行搜索(GAIA ID、Facebook UID、Yandex Public ID 等)
- SQL 格式的论坛和平台数据库泄露
- 包含目标个人资料 ID 的已索引链接
- 通过与其他 ID 比较来搜索追踪数据 - [工作原理](https://www.eff.org/wp/behind-the-one-way-mirror),[如何使用](https://www.nytimes.com/interactive/2019/12/19/opinion/location-tracking-cell-phone.html)。
- 执法调查
## SOWEL 分类
本工具使用了以下 OSINT 技术:
- [SOTL-1.4. 分析内部标识符](https://sowel.soxoj.com/internal-identifiers)
- [SOTL-11.1. 检查过时和未使用的功能](https://sowel.soxoj.com/outdated-unused-functionality)
## 使用 socid_extractor 的工具
- [Maigret](https://github.com/soxoj/maigret) - 强大的用户名检查工具,可根据找到的账户生成包含所有可用信息的报告。
- [TheScrapper](https://github.com/champmq/TheScrapper) - 从网站抓取电子邮件、电话号码和社交媒体账户。
- [InfoHunter](https://github.com/sweetnight19/InfoHunter) - 一款开源 OSINT 工具,允许你在网上搜索、收集和分析信息,以全面了解你感兴趣的个人或公司。
- [YaSeeker](https://github.com/HowToFind-bot/YaSeeker) - 通过登录名/电子邮件收集有关 Yandex 账户所有可用信息的工具。
- [Marple](https://github.com/soxoj/marple) - 抓取给定用户名的搜索引擎结果。
## 测试
```
python3 -m pytest tests/test_e2e.py -n 10 -k 'not cookies' -m 'not github_failed and not rate_limited'
```
开发者文档(架构、模块、CI):[docs/](docs/)。
## 贡献
如果你想添加新方法或修复任何问题,请查看[单独页面](https://github.com/soxoj/socid-extractor/blob/master/CONTRIBUTING.md)。
标签:API响应解析, ESC4, ESC8, OSINT, Python, Web Scraping, 个人主页, 安全规则引擎, 情报收集, 数据提取, 数据泄露, 数据解析, 无后门, 漏洞研究, 用户画像, 社交账号, 社会工程学, 网络痕迹分析, 跨平台关联, 身份追踪, 逆向工具