# 公司情报档案
**构建私人企业情报包的完整指南**
[]()
[](LICENSE)
[](tools.md)
[](skills.md)
[](llms.txt)
*从对任何私人企业一无所知,到生成一份结构化、带有置信度标记的*
*情报包 —— 只需几天,而不是几周。仅使用公开数据。*
[你将获得什么](#-what-the-finished-product-contains) · [处理流程](#-the-research-pipeline) · [开始构建](#-how-to-start)
##

最终产物的内容
一份完整的档案会产生 **8 类情报**,包含 **100 多个独立数据点**、**40 多个实体档案**和 **14 个结构化数据集** —— 全部带有置信度标记和来源归属。
###

企业身份与法务
| 你将了解的内容 | 如何获取 |
|:--|:--|
| 法定名称、曾用名、成立日期、实体类型 | 州务卿 (Secretary of State) 备案记录 |
| 合规历史(终止、恢复、续期) | SOS 备案时间线 |
| 联邦 ID:DUNS、UEI、CAGE code | CLEATUS、SAM.gov |
| 行业分类(NAICS、SIC、PSC、UNSPSC) | SAM.gov、BBB、目录 |
| 认证(WBENC、WOSB、DBE、EDWOSB)及到期跟踪 | UMN OSD、SBA、WBENC |
| 联邦合同授予(或确认为 $0) | USASpending.gov API |
| 诉讼、留置权、UCC 文件、制裁筛查 | CourtListener、SOS、OpenSanctions |
| 财产记录(自有 vs. 租赁,面积,租金费率) | 县评估员、租赁列表 |
| 所有物理地址(办公室、仓库、注册地、旧址) | 多源三角测量 |
| 技术栈(CMS、CDN、电子邮件、分析、广告像素、安全) | httpx + GTM container + DNS |
###

人员与组织
| 你将了解的内容 | 如何获取 |
|:--|:--|
| 完整的团队名册(姓名、头衔、位置、状态) | LinkedIn + 5 个汇总平台交叉引用 |
| 个人职业档案(教育背景、前雇主、时间线) | 多源综合 |
| 具有推断汇报关系的组织架构图 | 头衔分析 + 招聘模式 |
| 员工人数核对(为什么每个来源给出的数字都不同) | D&B(手动提取)vs. 汇总平台 vs. 人工计数 |
| 招聘速度(空缺职位、薪资范围、发布历史) | Wayback 招聘页面 + Indeed |
| 离职情况(谁离开了、何时离开、去了哪里、人才流失的影响) | 汇总平台名册差异对比 + LinkedIn |
| 电子邮件地址(模式 + SMTP 验证是否可送达) | 模式推断 + SMTP RCPT TO |
| 创始人集中度风险评分 | 角色分析 + 认证所有权 |
###

产品、服务与定价
| 你将了解的内容 | 如何获取 |
|:--|:--|
| 完整的产品目录(每个 SKU、类别、规格) | 网站爬取 + Wayback 产品页面 |
| 公布的定价(如有提供) | 电子商务商店抓取 |
| 与竞争对手及主要品牌的价格比较 | 市场研究 |
| 品牌产品/自有品牌产品 + 预估利润率 | 制造来源研究 |
| 服务明细(交钥匙工程、租赁、维护、咨询) | 网站 + 职位发布 + PDF |
| 商业模式组合(转售 vs. 服务 vs. 电子商务的百分比) | 收入信号三角测量 |
| 产品发布和停产时间线 | Wayback CDX 时间戳分析 |
| 库存水平和剩余设备估值 | 实时商店 + LinkedIn 图像分析 |
###

供应商关系
| 你将了解的内容 | 如何获取 |
|:--|:--|
| 完整的供应商/合作伙伴产品线列表(35+ 品牌) | Logo 墙 OCR + 产品页面 |
| 单个供应商档案(层级、产品、证据、风险) | 来自多源综合的逐实体文件 |
| OEM 验证(由制造商确认 vs. 仅声称) | 制造商目录检查 |
| 关系强度评分(证据积分系统) | 目录=3 分,案例研究=2 分,活动=1 分,logo=1 分 |
| 供应链集中度风险 | 单一来源依赖映射 |
| 按产品线和原产国划分的关税敞口 | HTS 代码 + 原产国研究 |
| 合作伙伴页面版本历史(品牌添加/删除的时间) | 随时间推移的 Wayback 快照 |
###

客户与市场
| 你将了解的内容 | 如何获取 |
|:--|:--|
| 确认的客户(具名,附带交易证据) | 客户评价、案例研究、活动 |
| 极可能的客户(分级:已确认 → 极有可能 → 可能 → 推断) | 12 源 OSINT 交叉引用 |
| 客户评价(逐字引用) | 网站 + Wayback 恢复 |
| 目标市场(地理区域、垂直行业、买家角色) | 职位发布 + 活动 + 协会 |
| 行业协会成员资格及活跃度 | LinkedIn + 活动记录 |
| 收入集中度风险评估 | 具名客户与收入分析 |
| 按地理位置和契合度评分的潜在客户名单 | ICP 定义 + 数据库筛选 |
###

竞争格局
| 你将了解的内容 | 如何获取 |
|:--|:--|
| 完整的竞争对手筛选(4,000+ 公司筛选至前 10 名) | S&P Global Capital IQ 导出(手动提取)+ SIC/NAICS 过滤 |
| 单个竞争对手档案(收入、人数、能力) | 多源实体研究 |
| 产品/服务能力比较矩阵 | 逐项功能评分 |
| 共享供应商品牌重合度分析 | 产品线列表交叉引用 |
| 地理区域重合度 | 职位发布区域分析 |
| 竞争对手网络流量基准测试 | 针对每一个使用 SimilarWeb API |
| 人才流动跟踪(谁从谁那里挖走了人) | 离职监控 |
| 竞争威胁排名(距离 × 能力 × 势头) | 加权评分模型 |
###

财务与估值
| 你将了解的内容 | 如何获取 |
|:--|:--|
| 带有完整推导方法的收入估算 | D&B Hoovers(手动提取)+ 人数模型 + 行业基准 |
| 每位员工的收入基准 | 收入 ÷ 确认的人数 |
| 25+ 财务信号(看涨和看跌) | 招聘步伐、库存、设施、认证 |
| 剩余库存估值 | 实时商店价格 × 数量 |
| 预估的工资单和运营成本 | 薪资数据 + 租赁记录 |
| EBITDA 利润率敏感性分析 | 行业比较 × 收入情景 |
| 企业估值范围(3 种情景) | 基于乘数和基于 EBITDA |
| 收购建议书(买方类型、交易结构、价格范围) | 战略分析 |
###

营销、品牌与数字化
| 你将了解的内容 | 如何获取 |
|:--|:--|
| 社交媒体指标 + 增长轨迹 | 平台 API + 历史数据 |
| LinkedIn 帖子分析(互动度、被标记的公司、内容主题) | MHTML 存档提取(181 条帖子 → 97 家公司) |
| 完整的视频逐字稿 | yt-dlp 自动字幕 VTT 提取 |
| 网站流量(访问量、跳出率、停留时间、流量来源) | SimilarWeb API |
| 250+ 关键词排名和 SEO 机会 | 竞争对手关键词基准测试 |
| 广告审计(已安装的像素 vs. 实际正在投放的广告) | GTM 解析 + 广告透明度平台 |
| PR 时间线和媒体报道空白 | 行业媒体 + 新闻发布档案 |
| 自有活动(赞助收入、演讲者、参会模式) | Wayback + 赞助 PDF |
| 品牌识别系统(颜色、排版、声音、宣传语) | 实时网站 CSS/HTML 提取 |
| 电子邮件安全评估(SPF、DKIM、DMARC、欺骗可能性) | DNS TXT 记录分析 |
###

结构化数据集 (14 个 CSV)
每份档案都会输出可查询的、机器可读的数据集:
| 数据集 | 典型行数 | 内容 |
|:--------|:---:|:--|
| `team_roster.csv` | 20+ | 每位人员的头衔、位置、状态、来源 |
| `org_chart.csv` | 15+ | 汇报关系和部门 |
| `supplier_line_card.csv` | 35+ | 所有供应商及其类别、层级、置信度 |
| `partners.csv` | 25+ | 具有 OEM 验证状态的供应商 |
| `client_register.csv` | 35+ | 带有置信度层级的客户/潜在客户 |
| `competitors.csv` | 4,000+ | 具有相似度分数的完整筛选数据集 |
| `products.csv` | 45+ | 每个 SKU 的价格、状况、状态 |
| `certifications.csv` | 10+ | 带有到期日期和失效风险的认证 |
| `events.csv` | 25+ | 参加/主办的活动及 ROI 备注 |
| `financials.csv` | 20+ | 带有来源和置信度的关键指标 |
| `documents.csv` | 12+ | 恢复的 PDF 及内容摘要 |
| `industry_codes.csv` | 70+ | NAICS/SIC/PSC/UNSPSC 映射 |
| `source_inventory.csv` | 20+ | 使用的每个来源及其提供的内容 |
###

视觉证据
| 类型 | 数量 | 示例 |
|:-----|:---:|:--|
| 人员照片 | 30+ | 头像、团队合影、活动花絮 |
| 产品图片 | 15+ | 产品镜头、安装证据 |
| 设施文档 | 50+ | 办室、仓库、平面图 |
| 活动摄影 | 35+ | 会议、赞助活动、社交 |
| 品牌资产 | 25+ | Logo、周边商品、营销材料 |
| 供应商/合作伙伴 Logo | 40+ | 合作伙伴页面上的每个制造商 |
| PDF 文档 | 12+ | 数据表、职位发布、活动演示文稿 |
###

战略分析层
判断层 —— 这些事实对决策意味着什么:
| 交付物 | 它回答的问题 |
|:--|:--|
| 执行摘要 | "用一页纸介绍这是一家什么公司?" |
| 风险登记册 (Risk Register,22+ 风险) | "可能出什么问题?" |
| SWOT 分析 | "优势、劣势、机会、威胁是什么?" |
| 商业模式画布 | "他们如何赚钱?" |
| 收购建议书 | "我们应该收购他们吗?以什么价格?" |
| 合作伙伴建议书 | "什么样的合作关系会奏效?" |
| 竞争定位 | "他们与同行相比表现如何?" |
| 情报缺口 | "我们还有什么不知道的?" |
| 市场规模估算 (TAM/SAM/SOM) | "这个机会有多大?" |
| 行业机会地图 | "哪些宏观趋势对他们有利?" |
| 行业威胁地图 | "哪些宏观趋势对他们不利?" |
##

研究流程
```
graph LR
A[Plan
5 min] --> B[Local
5 min]
B --> C[Search
15 min]
C --> D[Wayback
30 min]
D --> E[Scrape
30 min]
E --> F[Synthesize
30 min]
F --> G[Report
30 min]
style A fill:#1f6feb,stroke:#58a6ff,color:#fff
style B fill:#1f6feb,stroke:#58a6ff,color:#fff
style C fill:#1f6feb,stroke:#58a6ff,color:#fff
style D fill:#1f6feb,stroke:#58a6ff,color:#fff
style E fill:#1f6feb,stroke:#58a6ff,color:#fff
style F fill:#1f6feb,stroke:#58a6ff,color:#fff
style G fill:#1f6feb,stroke:#58a6ff,color:#fff
```
| 阶段 | 发生的过程 | 关键工具 |
|:------|:------------|:----------|
| **计划 (Plan)** | 枚举来源、定义问题、创建清单 | 顺序思维 |
| **本地 (Local)** | 解析现有数据、识别缺口 | 文件分析、grep |
| **搜索 (Search)** | 广泛 → 定向 → 针对特定领域的查询 | Web API、Google dorking |
| **Wayback** | 恢复已删除的页面、发现 PDF、跟踪演变 | Wayback CDX API |
| **爬取 (Scrape)** | 视频、逐字稿、平台数据、渲染页面 | Playwright、yt-dlp、BeautifulSoup |
| **综合 (Synthesize)** | 交叉引用声明、标记置信度、解决冲突 | 多智能体三角测量 |
| **报告 (Report)** | 结构化为实体文件、添加 frontmatter、构建导航 | 架构模式 |
对于配置好的 Agent,只需 **约 2.5 小时**。包含深入研究和行业语境,需 **4 天**。
完整细节:[`methodology.md`](methodology.md) → [`collection_phases.md`](collection_phases.md)
##

输出架构
```
graph TD
R[README.md + ROUTER.md] --> META[_meta/]
R --> DATA[_data/ — 14 CSVs]
R --> ASSETS[_assets/ — photos + PDFs]
R --> EVIDENCE[_evidence/ — raw sources]
R --> S1[1_corporate/]
R --> S2[2_people/profiles/]
R --> S3[3_products/]
R --> S4[4_suppliers/profiles/]
R --> S5[5_customers/]
R --> S6[6_competitors/profiles/]
R --> S7[7_financials/]
R --> S8[8_marketing/]
R --> S9[9_brand/]
R --> S10[10_timeline/]
R --> S11[11_analysis/]
R --> S12[12_industry/]
style R fill:#1f6feb,stroke:#58a6ff,color:#fff
style META fill:#21262d,stroke:#30363d,color:#c9d1d9
style DATA fill:#21262d,stroke:#30363d,color:#c9d1d9
style ASSETS fill:#21262d,stroke:#30363d,color:#c9d1d9
style EVIDENCE fill:#21262d,stroke:#30363d,color:#c9d1d9
```
**关键设计决策:**
- 每个实体(个人、供应商、竞争对手)一个文件 —— 绝不使用大杂烩列表
- 每个文件最多 500 行 —— 聚焦、易于浏览、对 Agent 友好
- 每个 `.md` 都带有 YAML frontmatter —— 实现编程方式发现
- `ROUTER.md` 将 60+ 问题映射到确切的文件路径 —— 读取 2 次即可获得任何答案
- 严格的层级分离:事实 (1-10) / 判断 (11) / 语境 (12) / 数据 / 证据
完整规范:[`architecture.md`](architecture.md)
##

如何开始
```
# 1. Clone 此 methodology
git clone https://github.com/ever-just/company-dossier.git
# 2. 创建 dossier 结构(一条 command)
TARGET="COMPANY_NAME"
mkdir -p "$TARGET DOSSIER"/{_meta,_data,_assets/photos,_evidence,1_corporate,2_people/profiles,3_products,4_suppliers/profiles,5_customers,6_competitors/profiles,7_financials,8_marketing,9_brand,10_timeline,11_analysis,12_industry}
# 3. 将你的 AI agent 指向此 methodology
```
**Agent prompt:**
```
Read methodology.md and collection_phases.md from the company-dossier repo.
Build a complete intelligence dossier on [COMPANY NAME] following the 7-phase
pipeline. Write output using entity-centric files with YAML frontmatter.
```
完整的入门模板:[`skeleton.md`](skeleton.md)
##

文档
| | 文件 | 涵盖内容 |
|:--|:--|:--|
|

| [`methodology.md`](methodology.md) | 理念、7 阶段流程、设计原则 |
|

| [`collection_phases.md`](collection_phases.md) | 6 种收集方法及示例命令 |
|

| [`tools.md`](tools.md) | 30+ 工具 —— 使用和拒绝的工具及其理由 |
|

| [`skills.md`](skills.md) | 20 个 Agent 技能 —— 何时以及如何调用 |
|

| [`patterns.md`](patterns.md) | 10 种跨领域的方法论模式 |
|

| [`architecture.md`](architecture.md) | 输出结构、YAML schema、导航设计 |
|

| [`case_study.md`](case_study.md) | 逐日构建的叙事 |
|

| [`prompts.md`](prompts.md) | 12 个关键提示词及其有效性分析 |
|

| [`quality_assurance.md`](quality_assurance.md) | 3 阶段审计 —— 发现了 56 个错误 |
|

| [`skeleton.md`](skeleton.md) | 一键生成档案结构 |
|

| [`frontmatter.md`](frontmatter.md) | 5 种文件类型的 YAML 模板 |
|

| [`lessons_learned.md`](lessons_learned.md) | 哪些有效,哪些失败 |
|

| [`SOURCES.md`](SOURCES.md) | 引用的所有工具、代码库、API |
|

| [`ECOSYSTEM.md`](ECOSYSTEM.md) | OSINT 领域中 30+ 相关代码库 |
| 🎥 | [`visual_intelligence.md`](visual_intelligence.md) | 视频帧提取、ffmpeg 关键帧、AI 视觉分析流程 |
##

这与其他 OSINT 工具的区别
| | 现有工具 | 本方法论 |
|:--|:--|:--|
| **输出** | 终端转储或 JSON blob | 带有 YAML frontmatter 的可导航 12 部分档案 |
| **重点** | 技术侦察(子域名、DNS) | 商业情报(收入、供应商、风险) |
| **置信度** | 无 | 每个声明都有 6 级量表 |
| **综合** | 无 —— 仅原始数据 | 每个发现交叉引用 3+ 来源 |
| **结构** | 平面文件 | 以实体为中心的文件,带有 ROUTER.md 导航 |
| **验证** | 无 | 3 阶段 QA 审计捕获 50+ 错误 |
##

验证过的结果
在一家真实的 450 万美元私人企业上进行了测试:
| 指标 | 结果 |
|:-------|:-------|
| 结构化文件 | 613 |
| 实体档案 | 40 |
| 数据集 (CSV) | 14 |
| 捕获的照片 | 291 |
| 恢复的 PDF | 12 |
| QA 发现的错误 | 56 |
| 导航路径 | 110 |
| 置信度覆盖率 | 100% |
| 时间(全深度) | 4 天 |
| 成本 | **$0** |
Can an AI agent do this autonomously?
Yes, with guidance. Developed with Claude Opus 4.6 (1M context). Agent handles all 7 phases, but some steps need human decisions (confidence judgment, portal logins). See prompts.md for exact prompts.
What can't this methodology access?
Login-gated LinkedIn, SAM.gov full records (API key needed), PACER (fees), paid firmographics (ZoomInfo/Apollo), internal financials, state court portals that block bots. All documented as gaps with manual closure instructions.
Is this legal?
Yes. Public sources only. No unauthorized access, no social engineering, no login bypass. See methodology.md for ethical framework.
**构建所用技术**
*[EverJust](https://everjust.org) — 让情报工作可复现。*