thunderstornX/osint-methodology-vault
GitHub: thunderstornX/osint-methodology-vault
基于六阶段情报周期的 OSINT 方法论知识库,集成多司法辖区法律合规矩阵和高精度规则实体提取器,为情报分析师提供从需求到发布的完整结构化参考。
Stars: 0 | Forks: 0
```
██████╗ ███████╗██╗███╗ ██╗████████╗
██╔═══██╗██╔════╝██║████╗ ██║╚══██╔══╝ osint-methodology-vault
██║ ██║███████╗██║██╔██╗ ██║ ██║
██║ ██║╚════██║██║██║╚██╗██║ ██║ ─── tradecraft · legal · NER ───
╚██████╔╝███████║██║██║ ╚████║ ██║
╚═════╝ ╚══════╝╚═╝╚═╝ ╚═══╝ ╚═╝
```
[](https://github.com/thunderstornX/osint-methodology-vault/actions/workflows/tests.yml)
[](results/security_scan.md)
[](results/security_scan.md)
[](results/security_scan.md)
[](results/README.md)
[](https://doi.org/10.5281/zenodo.20480456)
[](LICENSE)
一个结构化的**开源情报 (OSINT)** 方法论参考,
围绕六阶段情报周期组织,包含:
- **44 页 Markdown 技术模板**,涵盖
需求、收集、处理、分析、发布,
以及法律合规。
- 一个**十二司法管辖区的法律合规矩阵**(美国、英国、欧盟、
巴基斯坦、法国、意大利、瑞士、德国、阿联酋、加拿大、
澳大利亚、印度)。
- 一份可用于实践的 **GDPR 逐条检查清单**,适用于
会附带处理欧盟个人数据的 OSINT
收集活动。
- 一个**基于规则的实体提取器**(13 种实体类型),其在已标注语料库上的
精确率和召回率均已报告 —
$F_{1}=0.9927$。
- 一个 MkDocs 静态站点,可将整个知识库渲染为已发布的
文档。
## 方法论锚点
该知识库基于三部权威参考著作:
- **Heuer (1999)** *Psychology of Intelligence Analysis* — 用于
竞争性假设分析 (ACH) 和认知偏差
相关内容。
- **Bazzell (2023; 2024)** *Open Source Intelligence Techniques*
— 用于从业者级别的实战技术。
- **Lowenthal (2022)** *Intelligence: From Secrets to Policy* —
用于情报周期结构和学术框架。
该知识库为实际工作中的分析师对这些著作进行了转述和重组;并未对其进行重新分发。
## 快速开始
```
git clone https://github.com/thunderstornX/osint-methodology-vault.git
cd osint-methodology-vault
python -m venv .venv
.venv/bin/pip install -r requirements.txt
# 将 vault 作为静态站点提供服务:
.venv/bin/mkdocs serve # → http://localhost:8000
# 在 stdin 上运行 entity extractor:
echo "AcmeCorp at 198.51.100.5 with CVE-2024-1" | \
.venv/bin/python -m cli.main extract
# 或者针对文件,将 JSON 写入磁盘:
.venv/bin/python -m cli.main extract \
--input notes.txt --output entities.json
# 构建 Markdown pattern summary:
.venv/bin/python -m cli.main summarise \
--input notes.txt --output summary.md
```
## 知识库结构
```
docs/
├── 01_requirements/ PIR template + Collection Requirements
├── 02_collection/ Source types, tool matrix, collection plan
├── 03_processing/ Normalisation, dedup, enrichment pipeline
├── 04_analysis/ ACH, timeline, link analysis, pattern of life
├── 05_dissemination/ Report template, classification (TLP), brief
└── 06_legal/ 12-jurisdiction matrix, GDPR, consent framework
ai_tools/ entity_extractor.py + pattern_summary.py
cli/ Click CLI
eval/ Labelled NER corpus + harness
paper/ IEEE writeup
tests/ 68 pytest cases
```
## 12 司法管辖区合规矩阵
核心交付成果。针对以下每一项:
该矩阵列出了计算机滥用法规、数据保护
法规、隐私/监控工具、授权预期、跨境考量因素以及首次联系途径。
**非法律建议。** 这是一个实用参考,旨在提出真实的法律审查必须回答的问题。
请参阅 [docs/06_legal/compliance_matrix.md](docs/06_legal/compliance_matrix.md)。
## 复现 NER 评估
```
.venv/bin/python eval/run_eval.py
```
`eval/labelled_corpus.json` 包含 43 个合成的 OSINT 风格
文本片段,并附带了针对十三种
实体类型的预期 `(type, span)` 元组。测试工具会将每种类型的指标和汇总指标输出
到 `results/eval_summary.json` + `results/eval_raw.csv` 中。
**最新测量数据**(仅规则,2026-05-12):
| 指标 | 数值 |
|-----------|----------:|
| n samples | 43 |
| TP / FP / FN | 68 / 1 / 0 |
| Precision | **0.9855**|
| Recall | **1.0000**|
| F1 | **0.9927**|
十三种实体类型中有十二种的 F1 值达到了 1.000;唯一
例外是 `CamelCase` 单词本身匹配了
`org_hint` 启发式规则 —— 这是合理的信号,而不是 bug。有关详细的各类型数据分解,请参阅
[results/README.md](results/README.md)。
## 测试
```
.venv/bin/pytest -q
```
跨提取器、摘要生成器、CLI、合规矩阵结构不变量以及评估辅助工具共 68 个测试。
HTTP 使用 [`respx`](https://lundberg.github.io/respx/) 进行模拟。
| 模块 | 测试数 |
|---------------------------|------:|
| `entity_extractor.py` | 30 |
| `legal/compliance_matrix` | 18 |
| `pattern_summary.py` | 7 |
| `eval/run_eval.py` | 7 |
| `cli/main.py` | 6 |
| **总计** | **68**|
## 安全态势
| 检查门 | 发现数 | 抑制数 |
|-----------:|:--------:|:------------:|
| Bandit | 0 | 0 |
| pip-audit | 0 | 0 |
| Semgrep | 0 | 0 |
请参阅 [results/security_scan.md](results/security_scan.md)。
## 本知识库*不*作声明的范围
* 它**不**提供法律建议。合规矩阵仅供参考;
请咨询法律顾问。
* 它**不**衡量可选的 LLM 增强路径。
增强功能在模拟环境下受支持并经过测试,但本次
发布中不包含任何真实提供商的数据。
* 它**不**提出新的方法论。六阶段
结构是成熟的;该知识库仅代表一种
合理的操作化实践。
## 引用
如果您在学术或专业工作中使用了本知识库,请
引用 [CITATION.cff](CITATION.cff) 记录。随附的
[IEEE 论文](paper/paper.tex) 描述了其设计并报告了
实际测量数据。
## License
MIT。请参阅 [LICENSE](LICENSE)。该许可证管辖代码和
文档;[ETHICAL_USE.md](ETHICAL_USE.md) 管辖该
知识库的使用方式。
标签:ESC4, GitHub, MkDocs, OSINT, 安全规则引擎, 实体识别, 实时处理, 密码管理, 情报收集, 漏洞研究, 逆向工具, 防御加固