purrfectwarrior/busqueda_osint
GitHub: purrfectwarrior/busqueda_osint
结合 HuggingFace 和 Claude AI 的被动 OSINT 自动化管线,用于一键收集目标域名的攻击面信息并生成带风险分级的安全报告。
Stars: 0 | Forks: 0
# 🔍 结合 AI 的 OSINT Pipeline
**自动化开源情报收集 + 使用 HuggingFace 进行智能分析**
这是一款专为安全研究员、审计员和防御者设计的工具,旨在通过仅使用**合法且被动**的技术,映射出组织的**数字攻击面**。
## 📋 它能做什么?
此脚本通过 12 个模块执行**全面的 OSINT 分析**:
| # | 模块 | 查找内容 | 来源 |
|---|--------|-----------|--------|
| 1 | DNS Recon | A、MX、TXT、NS 记录 | Google DNS |
| 2 | Email Harvesting | 暴露的企业员工信息 | Hunter.io API |
| 3 | Wayback Machine | 旧 URL、暴露的 API、.env 文件 | Web Archive CDX |
| 4 | Cloud Storage | 可访问的 S3、GCS、Azure Buckets | AWS, Google Cloud, Azure |
| 5 | GitHub Dorks | 公共仓库中的凭证 | GitHub API |
| 6 | VirusTotal | 域名声誉、CVE | VirusTotal API |
| 7 | AI 分析 (NER) | 人员、技术、位置 | HuggingFace BERT |
| 8 | AI 分类 | 风险:“credential leak”、“shadow IT” 等 | HuggingFace BART |
| 9 | AI 综合 | 交叉分析发现的成果 | Claude API |
| 10 | Shadow IT | 非生产环境的 dev/staging 环境 | 以上所有的来源 |
| 11 | 最终报告 | 包含发现的 Markdown + JSON | 本地生成 |
## ⚡ Quick Start (2 分钟)
### 1. 安装依赖
```
pip install requests beautifulsoup4 dnspython colorama tqdm python-dotenv
```
### 2. 配置 API keys
复制并配置 `.env` 文件:
```
cp env.example .env
# 编辑 .env 并填写你拥有的 keys
```
必填项:
```
target_domain=tudominio.com
```
可选项(用于获取更多数据):
```
HF_TOKEN=hf_xxxxx # HuggingFace (IA) → huggingface.co/settings/tokens
HUNTER_KEY=xxxxx # Email harvesting → hunter.io/api-keys
SHODAN_KEY=xxxxx # Infraestructura → shodan.io/account
VIRUSTOTAL_KEY=xxxxx # Reputación → virustotal.com/gui/my-apikey
GITHUB_TOKEN=github_pat_xxxxx # Búsqueda de código → github.com/settings/tokens
```
### 3. 运行
```
python busqueda_osint.py
```
脚本将在以下路径生成报告:
```
reportes/osint_report_DOMINIO_FECHA.md
reportes/osint_report_DOMINIO_FECHA.json
```
## 📊 输出示例
```
[+] IP: 203.0.113.45
[+] Puertos abiertos: [80, 443, 8080]
[!] CVEs detectados: ['CVE-2021-44228']
[+] Patrón de email corporativo: firstname.lastname@empresa.com
[+] john.smith@empresa.com — Senior Manager (conf: 98%)
[+] EXPUESTO PÚBLICAMENTE: [AWS S3] https://empresa-docs.s3.amazonaws.com
[-] Panel de administración: https://web.archive.org/web/*/ejemplo.com/admin
...
CRÍTICOS: 2 | ALTOS: 5 | MEDIOS: 8 | BAJOS: 12
```
## 🏗️ 文件夹结构
```
busqueda_osint/
├── busqueda_osint.py # Script principal
├── osint_pipeline_*.py # Alternativas (con Shodan, etc.)
├── env.example # Plantilla de configuración
├── .env # Tu archivo de secrets (NO subir a git)
├── README.md # Este archivo
├── reportes/ # 📁 Aquí se guardan los resultados
│ ├── osint_report_empresa_20260422_1523.md
│ └── osint_report_empresa_20260422_1523.json
└── osint_run.log # Log de ejecución
```
## 🧠 AI 是如何工作的
### 实体提取 (NER)
- **模型:** `dslim/bert-base-NER`
- **输入:** 收集到的所有 OSINT 文本
- **输出:** 人员、组织、位置
- **用途:** 映射企业结构
### 风险分类 (Zero-Shot)
- **模型:** `facebook/bart-large-mnli`
- **输入:** 每一项发现
- **输出:** 风险类别 + 置信度
- **用途:** 优先处理最关键的发现
### 智能综合
- **模型:** Claude API (Anthropic)
- **输入:** 所有的发现总结
- **输出:** 带有建议的执行分析
- **用途:** 生成易读的最终报告
## ⚖️ 法律注意事项
✅ **合法** — 整个脚本使用:
- 公共来源 (Wayback、GitHub、公共 DNS)
- 免费或付费 API (经过您的授权)
- **100% 被动**的技术 (无真实端口扫描,无漏洞利用)
❌ **不合法** — 请勿进行以下操作:
- 未经授权访问系统
- 将数据用于恶意软件或网络钓鱼
- 在未经书面授权的情况下对目标进行探测
💡 **最佳实践:**
- 仅在您拥有或被授权的域上使用
- 安全保存报告
- 利用发现来提升安全性
## 🔑 API Keys 配置
### 免费但需要注册
- **Hunter.io** — 每月 50 次免费搜索 → [hunter.io](https://hunter.io)
- **Shodan** — 每月 1 次免费搜索 → [shodan.io](https://shodan.io)
- **VirusTotal** — 每天 500 次免费搜索 → [virustotal.com](https://www.virustotal.com)
- **HuggingFace** — 免费令牌 → [huggingface.co](https://huggingface.co/settings/tokens)
- **GitHub** — 免费 PAT → [github.com/settings/tokens](https://github.com/settings/tokens)
### 完全免费(无需 key)
- Wayback Machine (Archive.org)
- Google DNS-over-HTTPS
- Shodan InternetDB (无高级过滤)
## 🛠️ 常见问题排查
### 错误: "target_domain no está definido"
```
Solución: Edita .env y agrega:
target_domain=tudominio.com
```
### Shodan 报错 403
```
Solución: Tu API key está expirada o sin créditos.
El script usa Shodan InternetDB gratis como fallback.
```
### 错误 "HuggingFace token no válido"
```
Solución:
1. Verifica el token en .env
2. Crea uno nuevo en: https://huggingface.co/settings/tokens
3. Recarga el script
```
### 运行缓慢
```
Razón: Rate limiting de las APIs (esperado).
El script duerme entre requests para ser respetuoso.
Usa -h o --help si está implementado.
```
## 📈 预期输出
一份完整的报告包括:
✅ **摘要表格** — 发现了多少子域、电子邮件、buckets
✅ **优先级发现** — 严重、高、中、低
✅ **活跃子域** — IP 和 DNS 状态
✅ **DNS 记录** — A、MX、TXT、NS (检测到的技术)
✅ **企业电子邮件** — 姓名、职位、置信度
✅ **Shadow IT** — 暴露的 dev/staging 环境
✅ **CVE 与基础设施** — 端口、服务、漏洞
✅ **AI 分析** — 检测到的人员、组织
✅ **建议** — Top 10 修复操作
## ⚠️ 免责声明
此代码仅作**教学用途**。用户需对以下行为负责:
- 遵守当地法律和隐私规定
- 获得审计目标的授权
- 保守秘密(不分享报告)
- 遵守相关法规 (GDPR, CCPA 等)
**负责任的使用 = OSINT;不负责任的使用 = 违法**
*最后更新:2026 年 4 月 | v1.0*
标签:API集成, Ask搜索, ASM, AWS S3, DLL 劫持, DNS侦查, ESC4, GitHub, GitHub Dorks, HuggingFace, Hunter.io, LLM, NER命名实体识别, OSINT, Python, Shadow IT, Sigma 规则, Unix, Unmanaged PE, VirusTotal, Wayback Machine, 云存储安全, 人工智能安全, 凭证泄露, 反汇编, 可观测性, 合规性, 域名分析, 大语言模型, 实时处理, 影子IT, 情报报告生成, 数字足迹, 数据泄露, 文本分类, 无后门, 网络安全, 网络扫描, 自动化信息收集, 被动信息收集, 逆向工具, 隐私保护