thunderstornX/osint-methodology-vault

GitHub: thunderstornX/osint-methodology-vault

基于六阶段情报周期的 OSINT 方法论知识库，集成多司法辖区法律合规矩阵和高精度规则实体提取器，为情报分析师提供从需求到发布的完整结构化参考。

Stars: 0 | Forks: 0

``` ██████╗ ███████╗██╗███╗ ██╗████████╗ ██╔═══██╗██╔════╝██║████╗ ██║╚══██╔══╝ osint-methodology-vault ██║ ██║███████╗██║██╔██╗ ██║ ██║ ██║ ██║╚════██║██║██║╚██╗██║ ██║ ─── tradecraft · legal · NER ─── ╚██████╔╝███████║██║██║ ╚████║ ██║ ╚═════╝ ╚══════╝╚═╝╚═╝ ╚═══╝ ╚═╝ ``` [![tests](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/f021a886c2000611.svg)](https://github.com/thunderstornX/osint-methodology-vault/actions/workflows/tests.yml) [![Bandit](https://img.shields.io/badge/bandit-0%20issues-brightgreen)](results/security_scan.md) [![pip-audit](https://img.shields.io/badge/pip--audit-0%20vulns-brightgreen)](results/security_scan.md) [![Semgrep](https://img.shields.io/badge/semgrep-0%20findings-brightgreen)](results/security_scan.md) [![Eval F1](https://img.shields.io/badge/NER%20F1-0.9927-brightgreen)](results/README.md) [![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.20480456.svg)](https://doi.org/10.5281/zenodo.20480456) [![License: MIT](https://img.shields.io/badge/license-MIT-blue)](LICENSE) 一个结构化的**开源情报 (OSINT)** 方法论参考，围绕六阶段情报周期组织，包含： - **44 页 Markdown 技术模板**，涵盖需求、收集、处理、分析、发布，以及法律合规。 - 一个**十二司法管辖区的法律合规矩阵**（美国、英国、欧盟、巴基斯坦、法国、意大利、瑞士、德国、阿联酋、加拿大、澳大利亚、印度）。 - 一份可用于实践的 **GDPR 逐条检查清单**，适用于会附带处理欧盟个人数据的 OSINT 收集活动。 - 一个**基于规则的实体提取器**（13 种实体类型），其在已标注语料库上的精确率和召回率均已报告 — $F_{1}=0.9927$。 - 一个 MkDocs 静态站点，可将整个知识库渲染为已发布的文档。 ## 方法论锚点该知识库基于三部权威参考著作： - **Heuer (1999)** *Psychology of Intelligence Analysis* — 用于竞争性假设分析 (ACH) 和认知偏差相关内容。 - **Bazzell (2023; 2024)** *Open Source Intelligence Techniques* — 用于从业者级别的实战技术。 - **Lowenthal (2022)** *Intelligence: From Secrets to Policy* — 用于情报周期结构和学术框架。该知识库为实际工作中的分析师对这些著作进行了转述和重组；并未对其进行重新分发。 ## 快速开始 ``` git clone https://github.com/thunderstornX/osint-methodology-vault.git cd osint-methodology-vault python -m venv .venv .venv/bin/pip install -r requirements.txt # 将 vault 作为静态站点提供服务： .venv/bin/mkdocs serve # → http://localhost:8000 # 在 stdin 上运行 entity extractor： echo "AcmeCorp at 198.51.100.5 with CVE-2024-1" | \ .venv/bin/python -m cli.main extract # 或者针对文件，将 JSON 写入磁盘： .venv/bin/python -m cli.main extract \ --input notes.txt --output entities.json # 构建 Markdown pattern summary： .venv/bin/python -m cli.main summarise \ --input notes.txt --output summary.md ``` ## 知识库结构 ``` docs/ ├── 01_requirements/ PIR template + Collection Requirements ├── 02_collection/ Source types, tool matrix, collection plan ├── 03_processing/ Normalisation, dedup, enrichment pipeline ├── 04_analysis/ ACH, timeline, link analysis, pattern of life ├── 05_dissemination/ Report template, classification (TLP), brief └── 06_legal/ 12-jurisdiction matrix, GDPR, consent framework ai_tools/ entity_extractor.py + pattern_summary.py cli/ Click CLI eval/ Labelled NER corpus + harness paper/ IEEE writeup tests/ 68 pytest cases ``` ## 12 司法管辖区合规矩阵核心交付成果。针对以下每一项：该矩阵列出了计算机滥用法规、数据保护法规、隐私/监控工具、授权预期、跨境考量因素以及首次联系途径。 **非法律建议。** 这是一个实用参考，旨在提出真实的法律审查必须回答的问题。请参阅 [docs/06_legal/compliance_matrix.md](docs/06_legal/compliance_matrix.md)。 ## 复现 NER 评估 ``` .venv/bin/python eval/run_eval.py ``` `eval/labelled_corpus.json` 包含 43 个合成的 OSINT 风格文本片段，并附带了针对十三种实体类型的预期 `(type, span)` 元组。测试工具会将每种类型的指标和汇总指标输出到 `results/eval_summary.json` + `results/eval_raw.csv` 中。 **最新测量数据**（仅规则，2026-05-12）： | 指标 | 数值 | |-----------|----------:| | n samples | 43 | | TP / FP / FN | 68 / 1 / 0 | | Precision | **0.9855**| | Recall | **1.0000**| | F1 | **0.9927**| 十三种实体类型中有十二种的 F1 值达到了 1.000；唯一例外是 `CamelCase` 单词本身匹配了 `org_hint` 启发式规则 —— 这是合理的信号，而不是 bug。有关详细的各类型数据分解，请参阅 [results/README.md](results/README.md)。 ## 测试 ``` .venv/bin/pytest -q ``` 跨提取器、摘要生成器、CLI、合规矩阵结构不变量以及评估辅助工具共 68 个测试。 HTTP 使用 [`respx`](https://lundberg.github.io/respx/) 进行模拟。 | 模块 | 测试数 | |---------------------------|------:| | `entity_extractor.py` | 30 | | `legal/compliance_matrix` | 18 | | `pattern_summary.py` | 7 | | `eval/run_eval.py` | 7 | | `cli/main.py` | 6 | | **总计** | **68**| ## 安全态势 | 检查门 | 发现数 | 抑制数 | |-----------:|:--------:|:------------:| | Bandit | 0 | 0 | | pip-audit | 0 | 0 | | Semgrep | 0 | 0 | 请参阅 [results/security_scan.md](results/security_scan.md)。 ## 本知识库*不*作声明的范围 * 它**不**提供法律建议。合规矩阵仅供参考；请咨询法律顾问。 * 它**不**衡量可选的 LLM 增强路径。增强功能在模拟环境下受支持并经过测试，但本次发布中不包含任何真实提供商的数据。 * 它**不**提出新的方法论。六阶段结构是成熟的；该知识库仅代表一种合理的操作化实践。 ## 引用如果您在学术或专业工作中使用了本知识库，请引用 [CITATION.cff](CITATION.cff) 记录。随附的 [IEEE 论文](paper/paper.tex) 描述了其设计并报告了实际测量数据。 ## License MIT。请参阅 [LICENSE](LICENSE)。该许可证管辖代码和文档；[ETHICAL_USE.md](ETHICAL_USE.md) 管辖该知识库的使用方式。

标签：ESC4, GitHub, MkDocs, OSINT, 安全规则引擎, 实体识别, 实时处理, 密码管理, 情报收集, 漏洞研究, 逆向工具, 防御加固