carlostkd/open_intel
GitHub: carlostkd/open_intel
开源自托管 OSINT 平台,聚合暗网与表层网络多源情报,借助 LLM 与实体图谱为安全研究人员提供从数据收集到结构化简报的一站式调查能力。
Stars: 0 | Forks: 0
# OSINT 平台对比
| 工具 | 类型 | 定价 | 核心功能 | 与 open_intel 的差异 |
|------|------|---------|--------------|-----------------------------|
| **open_intel** | 开源 | 免费 | 多源聚合、实体提取、图谱分析、爬虫、暗网 (Ahmia)、泄露数据库 (IntelX)、API、CLI、监控 | — |
| **Maltego** | 付费 | ~€999/年 (CT) | 可视化关联分析、40+ 转换、图谱映射 | 需要订阅才能使用完整转换;无内置爬虫或暗网搜索 |
| **Lampyre** | 付费 | ~€49/月 | 自动化多源数据富化、支付/加密货币/社交查询 | 无图谱分析或自托管;仅限于供应商的数据源 |
| **SpiderFoot HX** | 付费 | ~$129/年 | 200+ 模块、攻击面映射、定时扫描 | 支持自托管但闭源;专注于基础设施,而非社会工程学侧写 |
| **Recorded Future** | 企业级 | 定制 ($$$) | 实时威胁情报、AI 分析、API、TIP 集成 | 仅限企业级;无自托管;对个人/小型团队侧写而言大材小用 |
| **Social Links** | 付费 | ~$300/月 | 社交媒体侧写、人脸识别、跨平台匹配 | 无暗网/爬虫;社交 API 的订阅锁定 |
| **Skopenow** | 付费 | 定制 ($$) | 社交媒体监控、位置追踪、威胁检测 | 无图谱或实体提取;黑盒评分 |
| **Videris** | 付费 | 定制 ($$$) | AI 辅助调查工作流、自动化、可视化映射 | 无自托管;闭源;定制价格 |
| **Shodan** | 免费增值 | ~$49/月 (专业版) | 设备/iot 发现、暴露服务、端口扫描 | 单一用途(基础设施);无社交/泄露侧写 |
## 为什么 open_intel 脱颖而出
- **无需订阅** — 完全免费且自托管
- **数据完全由您掌控** — 不经过第三方服务器
- **多效合一** — 爬虫、社交抓取器、暗网、泄露数据库、实体图谱、CLI、API、GUI
- **模块化与可扩展** — 可替换为您自己的数据源、LLM 或存储
- **无 API 速率限制瓶颈** — 基础设施由您控制
## 关于本项目
**Open_Intel** 是 [VoidAccess](https://github.com/KatrielMoses/voidaccess)(自托管的暗网 OSINT 平台)的一个分支。此分支在原项目基础上扩展了表层网络情报源,并增加了对更多 LLM 提供商的支持。
### 与 VoidAccess 的不同之处
| 变更 | 描述 |
|---------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **更名为 Open_Intel** | 反映了对暗网和表层网络数据源的扩展关注 |
| **IntelX 集成** | 添加了 [Intelligence X](https://intelx.io) 作为表层网络搜索源,通过其免费 API 层级 (`sources/intelx_scraper.py`) 搜索暗网市场、粘贴网站、泄露数据库和论坛内容 |
| **Lumo LLM 提供商** | 在 OpenAI、Anthropic、Google、Groq 和 Ollama 之外,添加了 [Proton Lumo](https://lumo.proton.me) |
| **`--no-refine` 标志** | 跳过 LLM 查询优化,但保留 LLM 用于过滤和总结;在原样使用初始查询时非常有用 |
| **移除内容安全过滤**| 原版 VoidAccess 中的强制性内容安全过滤器已被移除。不受限制的操作范围保证了数据获取和分析的零障碍——没有查询、URL 或内容会被拦截 |
| **更新品牌形象** | Logo、横幅和标语已更新为“Dark and Clear WEB OSINT Intelligence” |
## 快速开始
### CLI(无 Docker,30秒)
git clone https://github.com/carlostkd/open_intel.git
cd open_intel
```
pip install -r requirements.txt
```
```
python -m spacy download en_core_web_sm
```
```
cp .env.example .env
```
```
python -m open_intel_cli configure
```
```
python -m open_intel_cli investigate "Android 16 CVE"
```
暗网数据源需要本地 Tor:
- 从 https://torproject.org 安装
- 使用 `--no-tor` 进行仅针对表层网络的调查
CLI 将配置存储在 ~/.open_intel/config.json 中,并将结果写入 ~/.open_intel/results/。
### CLI 命令
| 命令 | 描述 |
|--------------------------|----------------------------------|
| `open_intel investigate` | 运行调查 |
| `open_intel show` | 交互式实体浏览器 |
| `open_intel export` | 导出 STIX/MISP/Sigma/CSV/MD |
| `open_intel enrich` | 重新富化已保存结果 |
| `open_intel list` | 列出已保存的调查 |
| `open_intel status` | 配置和 API 密钥状态 |
| `open_intel configure` | 设置向导 |
### 常用标志
| 标志 | 描述 |
|---------------|----------------------------------------------------|
| `--no-refine` | 跳过 LLM 查询优化,保留 LLM 用于过滤/总结 |
| `--no-llm` | 跳过所有 LLM 功能(优化、过滤、总结) |
| `--no-tor` | 仅表层网络模式(跳过 Tor 引擎) |
| `--depth` | 可选值:shallow, normal, deep |
| `--format` | 可选值:json, md, both |
| `--quiet` | 禁用实时显示 |
## 工作原理(13步流水线)
1. **LLM 查询优化**:为 `.onion` 引擎索引优化搜索词(可通过 `--no-refine` 跳过)。
2. **并行收集**:在查询 IntelX、粘贴网站(Pastebin、dpaste、paste.ee)、GitHub、GitLab 和精选的 RSS 安全推送的同时,同步查询 16+ 个 Tor 搜索引擎。
3. **情报过滤**:LLM 过滤噪音,仅保留相关的情报页面。
4. **多源富化**:从 AlienVault OTX、abuse.ch、ransomware.live、CISA KEV、Shodan、GreyNoise、AbuseIPDB、Feodo Tracker、C2IntelFeeds 等提取数据——与收集过程并行运行。
5. **递归 `.onion` 发现**:通过种子 URL 爬取发现隐藏链接。
6. **向量缓存检查**:避免对最近访问过的页面进行重复抓取(24小时 TTL)。
7. **Tor 路由抓取**:在 1MB 安全上限内安全获取页面内容。
8. **持久化**:将新内容存储在本地向量缓存中。
9. **情报合并**:将抓取和富化的数据结合起来以供处理。
10. **高级提取**:正则表达式、NER 和基于 LLM 的实体识别。
11. **历史交叉引用**:根据种子数据集验证数据。
12. **图谱构建**:基于共现构建关系节点。
13. **最终情报总结**:LLM 生成结构化的技术简报。
## 收集数据源
| 数据源 | 类型 | 是否需要密钥 |
|------------------------------------------|----------------------------------|--------------------------------|
| **Tor 搜索引擎** (16+) | 暗网 | 否 |
| **IntelX** | 表层网络 + 暗网/粘贴/泄露 | 免费 API 密钥 |
| **粘贴网站** (Pastebin, dpaste 等) | 表层网络 | 否 |
| **GitHub** (代码 + 仓库) | 表层网络 | 可选(更高的速率限制) |
| **GitLab** (代码 + 项目) | 表层网络 | 可选(更高的速率限制) |
| **RSS 推送** (20个精选博客) | 表层网络 | 否 |
## 提取内容
| 类别 | 示例 |
|---------------------|-------------------------------------------------------------|
| **加密货币** | Bitcoin、Ethereum、Monero 钱包地址 |
| **网络指标** | IPv4 地址、`.onion` URL、域名、电子邮件、PGP 密钥 |
| **文件指标** | MD5、SHA1、SHA256 哈希值 |
| **漏洞** | CVE 编号、MITRE ATT&CK 技术 |
| **威胁行为者** | 行为者代号、恶意软件家族、勒索软件集团名称 |
| **粘贴网站** | Pastebin、Ghostbin、Rentry 及类似链接 |
| **人员/组织** | 具名人物、组织名称、位置 |
## LLM 与富化生态系统
### 支持的 LLM 提供商
| 提供商 | 模型 | 备注 |
|------------------|-------------------------------|------------------------------------------|
| **OpenRouter** | DeepSeek、Llama 3.3、Claude Haiku | 推荐默认选项;提供免费模型 |
| **Groq** | Llama 3.3、Llama 3.1 | 快速推理;提供免费层级 |
| **OpenAI** | GPT-4o Mini | 需要 API 密钥 |
| **Anthropic** | Claude Haiku | Haiku 是已测试的默认选项 |
| **Google Gemini**| Gemini 1.5 Flash、2.5 Pro | 通过 AI Studio 提供免费层级 |
| **Ollama** | 任何本地模型 | 物理隔离;无需 API 密钥 |
| **Lumo** (Proton)| Auto | 提供免费层级;注重隐私 |
### 可选富化 API 密钥
| 密钥 | 功能 | 是否免费 | 注册链接 |
|------------------------------|--------------------------------------|----------------------------|-----------------------------|
| `INTELX_API_KEY` | IntelX 暗网/粘贴/泄露搜索 | 是(50次查询/天) | intelx.io |
| `OTX_API_KEY` | AlienVault OTX 威胁脉冲 | 是 | otx.alienvault.com |
| `VT_API_KEY` | VirusTotal 文件哈希 AV 检测 | 是(4次请求/分钟) | virustotal.com |
| `ABUSECH_API_KEY` | MalwareBazaar、ThreatFox、URLhaus | 是 | abuse.ch |
| `ABUSEIPDB_API_KEY` | IP 滥用报告,1000次检查/天 | 是 | abuseipdb.com/register |
| `GREYNOISE_API_KEY` | 屏蔽已知扫描器 IP | 免费层级 | greynoise.io/pricing |
| `URLSCAN_API_KEY` | 域名扫描数据 | 是(无密钥公开访问) | urlscan.io/user/signup |
| `HYBRID_ANALYSIS_API_KEY` | 文件哈希沙盒分析 | 是 | hybrid-analysis.com/signup |
| `HIBP_API_KEY` | 电子邮件泄露历史 | 否($3.50/月) | haveibeenpwned.com/API/Key |
##
MIT 许可证
版权所有 (c) 2026 KatrielMoses (VoidAccess)
版权所有 (c) 2026 CarlosTkd (Open_Intel Fork)
标签:ESC4, OSINT, 代码示例, 威胁情报, 实时处理, 开发者工具, 数据分析, 文档结构分析, 请求拦截, 逆向工具