B0bTheSkull/darkdump_crawl

GitHub: B0bTheSkull/darkdump_crawl

一款面向公开粘贴板泄露数据的OSINT提取工具,能从Pastebin等来源自动识别并分类提取凭据、邮箱、API密钥、加密钱包地址等敏感信息。

Stars: 0 | Forks: 0

# darkdump_crawl ![Python](https://img.shields.io/badge/python-3.8%2B-blue?style=flat-square&logo=python) ![License](https://img.shields.io/badge/license-MIT-green?style=flat-square) ![OSINT](https://img.shields.io/badge/use-OSINT%20%2F%20threat--intel-orange?style=flat-square) ## 提取内容 | 类别 | 详情 | |----------|--------| | **Emails** | 正则表达式验证的电子邮件地址 | | **Credentials** | `user:pass` 和 `email:pass` 对 | | **IP Addresses** | IPv4 地址 | | **URLs** | HTTP/HTTPS 链接 | | **Phone Numbers** | 美国格式的电话号码 | | **API Keys** | 密钥上下文中的高熵字符串 + AWS AKIA 密钥 | | **Crypto Wallets** | Bitcoin 和 Ethereum 地址 | | **Private Keys** | PEM 私钥块检测 | | **Keyword Hits** | 匹配可配置敏感关键词的行及其行号 | ## 安装 ``` git clone https://github.com/B0bTheSkull/darkdump_crawl.git cd darkdump_crawl pip install -r requirements.txt ``` ## 用法 ``` # 分析单个 paste URL python main.py --url https://pastebin.com/raw/XXXXXXXX # 使用 JSON output 保存 python main.py --url https://pastebin.com/raw/XXXXXXXX --output results/ --json # Batch process URL 列表 python main.py --file urls.txt --output results/ # 分析本地文本文件 (无 HTTP) python main.py --text dump.txt # 通过 stdin 传入文本 cat leak.txt | python main.py --stdin # 添加自定义关键词进行标记 python main.py --text dump.txt --keyword "stripe" --keyword "twilio" # Quiet mode (无 banner,仅输出结果) python main.py --url https://pastebin.com/raw/XXXXXXXX --quiet --json ``` ## 示例输出 ``` ╔══════════════════════════════════════════╗ ║ darkdump_crawl v2.0 ║ ║ Paste & Leak Intelligence Extractor ║ ╚══════════════════════════════════════════╝ [*] Output directory: output/20241015_143201 [*] Fetching: https://pastebin.com/raw/XXXXXXXX ─────────────────────────────────────────────────────── Source: https://pastebin.com/raw/XXXXXXXX [!] Credentials: 47 [!] API keys: 2 [*] Crypto BTC/ETH: 3/1 [*] Emails: 89 [*] IPs: 12 [*] Keyword hits: 34 URLs: 23 Phones: 4 [✓] Done. Results in: output/20241015_143201 ``` ## 输出结构 ``` output/ └── 20241015_143201/ ├── pastebin_com_raw_XXXXXX_emails.txt ├── pastebin_com_raw_XXXXXX_credentials.txt ├── pastebin_com_raw_XXXXXX_api_keys.txt ├── pastebin_com_raw_XXXXXX_ips.txt ├── pastebin_com_raw_XXXXXX_urls.txt ├── pastebin_com_raw_XXXXXX_keyword_hits.txt ├── pastebin_com_raw_XXXXXX_crypto_bitcoin.txt └── pastebin_com_raw_XXXXXX_results.json ← with --json ``` 每次运行都会生成一个带有时间戳的目录,因此结果永远不会相互覆盖。 ## URL 文件格式 ``` # urls.txt https://pastebin.com/raw/AAAA https://pastebin.com/raw/BBBB # 以 # 开头的行将被跳过 ``` ## v2.0 新特性 - **规范的 CLI** — 不再有硬编码的 URL 或 `input()` 提示 - **批处理** — 通过 `--file urls.txt` 实现 - **stdin 支持** — 直接管道原始文本 - **本地文件分析** — 无需 HTTP 请求 - **重试 + 频率限制处理** — 遇到 429 状态码时进行指数退避 - **User-agent 轮换** 以减少被封禁 - **API key 检测** — 上下文感知 + Shannon 熵过滤 - **Crypto wallet 提取** — Bitcoin + Ethereum 地址 - **Private key 检测** — 立即标记 PEM 块(CRITICAL 警报) - **Keyword 上下文** — 显示每次匹配的行号和片段 - **JSON 输出** 伴随分类的文本文件 - **带时间戳的输出目录** — 运行结果不会相互覆盖 - **默认去重** ## 路线图 - [ ] Tor/SOCKS 代理支持 - [ ] HIBP k-匿名哈希查找用于已发现的凭据 - [ ] YAML 配置文件 - [ ] MISP 导出格式 ## 许可证 MIT
标签:API安全, API密钥检测, AWS密钥, DNS枚举, ESC4, IOC提取, IP 地址批量处理, JSON输出, OSINT, Pastebin监控, Python, 以太坊钱包, 凭证提取, 威胁情报, 开发者工具, 情报提取, 批量处理, 数字取证, 数据泄露, 数据泄露分析, 数据解析, 文本分析, 无后门, 暗网数据, 暗网爬虫, 比特币钱包, 私钥提取, 网络安全, 网络安全工具, 自动化脚本, 输入验证, 逆向工具, 隐私保护