B0bTheSkull/darkdump_crawl
GitHub: B0bTheSkull/darkdump_crawl
一款面向公开粘贴板泄露数据的OSINT提取工具,能从Pastebin等来源自动识别并分类提取凭据、邮箱、API密钥、加密钱包地址等敏感信息。
Stars: 0 | Forks: 0
# darkdump_crawl



## 提取内容
| 类别 | 详情 |
|----------|--------|
| **Emails** | 正则表达式验证的电子邮件地址 |
| **Credentials** | `user:pass` 和 `email:pass` 对 |
| **IP Addresses** | IPv4 地址 |
| **URLs** | HTTP/HTTPS 链接 |
| **Phone Numbers** | 美国格式的电话号码 |
| **API Keys** | 密钥上下文中的高熵字符串 + AWS AKIA 密钥 |
| **Crypto Wallets** | Bitcoin 和 Ethereum 地址 |
| **Private Keys** | PEM 私钥块检测 |
| **Keyword Hits** | 匹配可配置敏感关键词的行及其行号 |
## 安装
```
git clone https://github.com/B0bTheSkull/darkdump_crawl.git
cd darkdump_crawl
pip install -r requirements.txt
```
## 用法
```
# 分析单个 paste URL
python main.py --url https://pastebin.com/raw/XXXXXXXX
# 使用 JSON output 保存
python main.py --url https://pastebin.com/raw/XXXXXXXX --output results/ --json
# Batch process URL 列表
python main.py --file urls.txt --output results/
# 分析本地文本文件 (无 HTTP)
python main.py --text dump.txt
# 通过 stdin 传入文本
cat leak.txt | python main.py --stdin
# 添加自定义关键词进行标记
python main.py --text dump.txt --keyword "stripe" --keyword "twilio"
# Quiet mode (无 banner,仅输出结果)
python main.py --url https://pastebin.com/raw/XXXXXXXX --quiet --json
```
## 示例输出
```
╔══════════════════════════════════════════╗
║ darkdump_crawl v2.0 ║
║ Paste & Leak Intelligence Extractor ║
╚══════════════════════════════════════════╝
[*] Output directory: output/20241015_143201
[*] Fetching: https://pastebin.com/raw/XXXXXXXX
───────────────────────────────────────────────────────
Source: https://pastebin.com/raw/XXXXXXXX
[!] Credentials: 47
[!] API keys: 2
[*] Crypto BTC/ETH: 3/1
[*] Emails: 89
[*] IPs: 12
[*] Keyword hits: 34
URLs: 23
Phones: 4
[✓] Done. Results in: output/20241015_143201
```
## 输出结构
```
output/
└── 20241015_143201/
├── pastebin_com_raw_XXXXXX_emails.txt
├── pastebin_com_raw_XXXXXX_credentials.txt
├── pastebin_com_raw_XXXXXX_api_keys.txt
├── pastebin_com_raw_XXXXXX_ips.txt
├── pastebin_com_raw_XXXXXX_urls.txt
├── pastebin_com_raw_XXXXXX_keyword_hits.txt
├── pastebin_com_raw_XXXXXX_crypto_bitcoin.txt
└── pastebin_com_raw_XXXXXX_results.json ← with --json
```
每次运行都会生成一个带有时间戳的目录,因此结果永远不会相互覆盖。
## URL 文件格式
```
# urls.txt
https://pastebin.com/raw/AAAA
https://pastebin.com/raw/BBBB
# 以 # 开头的行将被跳过
```
## v2.0 新特性
- **规范的 CLI** — 不再有硬编码的 URL 或 `input()` 提示
- **批处理** — 通过 `--file urls.txt` 实现
- **stdin 支持** — 直接管道原始文本
- **本地文件分析** — 无需 HTTP 请求
- **重试 + 频率限制处理** — 遇到 429 状态码时进行指数退避
- **User-agent 轮换** 以减少被封禁
- **API key 检测** — 上下文感知 + Shannon 熵过滤
- **Crypto wallet 提取** — Bitcoin + Ethereum 地址
- **Private key 检测** — 立即标记 PEM 块(CRITICAL 警报)
- **Keyword 上下文** — 显示每次匹配的行号和片段
- **JSON 输出** 伴随分类的文本文件
- **带时间戳的输出目录** — 运行结果不会相互覆盖
- **默认去重**
## 路线图
- [ ] Tor/SOCKS 代理支持
- [ ] HIBP k-匿名哈希查找用于已发现的凭据
- [ ] YAML 配置文件
- [ ] MISP 导出格式
## 许可证
MIT
标签:API安全, API密钥检测, AWS密钥, DNS枚举, ESC4, IOC提取, IP 地址批量处理, JSON输出, OSINT, Pastebin监控, Python, 以太坊钱包, 凭证提取, 威胁情报, 开发者工具, 情报提取, 批量处理, 数字取证, 数据泄露, 数据泄露分析, 数据解析, 文本分析, 无后门, 暗网数据, 暗网爬虫, 比特币钱包, 私钥提取, 网络安全, 网络安全工具, 自动化脚本, 输入验证, 逆向工具, 隐私保护