ever-just/company-dossier

GitHub: ever-just/company-dossier

一套基于 AI 代理和公开数据源构建私营企业竞争情报档案的完整方法论与工具集，将多周尽调流程缩短至数天。

Stars: 0 | Forks: 0

# 公司情报档案 **构建私人企业情报包的完整指南**

[![Updated](https://img.shields.io/badge/updated-June_2026-2ea44f?style=flat-square)]() [![License](https://img.shields.io/badge/license-MIT-blue?style=flat-square)](LICENSE) [![Tools](https://img.shields.io/badge/tools-30%2B-orange?style=flat-square)](tools.md) [![Skills](https://img.shields.io/badge/agent_skills-20-blueviolet?style=flat-square)](skills.md) [![LLMs.txt](https://img.shields.io/badge/llms.txt-available-green?style=flat-square)](llms.txt)
*从对任何私人企业一无所知，到生成一份结构化、带有置信度标记的*
*情报包 —— 只需几天，而不是几周。仅使用公开数据。*
[你将获得什么](#-what-the-finished-product-contains) · [处理流程](#-the-research-pipeline) · [开始构建](#-how-to-start)

最终产物的内容一份完整的档案会产生 **8 类情报**，包含 **100 多个独立数据点**、**40 多个实体档案**和 **14 个结构化数据集** —— 全部带有置信度标记和来源归属。
###

结构化数据集 (14 个 CSV) 每份档案都会输出可查询的、机器可读的数据集： | 数据集 | 典型行数 | 内容 | |:--------|:---:|:--| | `team_roster.csv` | 20+ | 每位人员的头衔、位置、状态、来源 | | `org_chart.csv` | 15+ | 汇报关系和部门 | | `supplier_line_card.csv` | 35+ | 所有供应商及其类别、层级、置信度 | | `partners.csv` | 25+ | 具有 OEM 验证状态的供应商 | | `client_register.csv` | 35+ | 带有置信度层级的客户/潜在客户 | | `competitors.csv` | 4,000+ | 具有相似度分数的完整筛选数据集 | | `products.csv` | 45+ | 每个 SKU 的价格、状况、状态 | | `certifications.csv` | 10+ | 带有到期日期和失效风险的认证 | | `events.csv` | 25+ | 参加/主办的活动及 ROI 备注 | | `financials.csv` | 20+ | 带有来源和置信度的关键指标 | | `documents.csv` | 12+ | 恢复的 PDF 及内容摘要 | | `industry_codes.csv` | 70+ | NAICS/SIC/PSC/UNSPSC 映射 | | `source_inventory.csv` | 20+ | 使用的每个来源及其提供的内容 |
###

视觉证据 | 类型 | 数量 | 示例 | |:-----|:---:|:--| | 人员照片 | 30+ | 头像、团队合影、活动花絮 | | 产品图片 | 15+ | 产品镜头、安装证据 | | 设施文档 | 50+ | 办室、仓库、平面图 | | 活动摄影 | 35+ | 会议、赞助活动、社交 | | 品牌资产 | 25+ | Logo、周边商品、营销材料 | | 供应商/合作伙伴 Logo | 40+ | 合作伙伴页面上的每个制造商 | | PDF 文档 | 12+ | 数据表、职位发布、活动演示文稿 |
###

研究流程 ``` graph LR A[Plan
5 min] --> B[Local
5 min] B --> C[Search
15 min] C --> D[Wayback
30 min] D --> E[Scrape
30 min] E --> F[Synthesize
30 min] F --> G[Report
30 min] style A fill:#1f6feb,stroke:#58a6ff,color:#fff style B fill:#1f6feb,stroke:#58a6ff,color:#fff style C fill:#1f6feb,stroke:#58a6ff,color:#fff style D fill:#1f6feb,stroke:#58a6ff,color:#fff style E fill:#1f6feb,stroke:#58a6ff,color:#fff style F fill:#1f6feb,stroke:#58a6ff,color:#fff style G fill:#1f6feb,stroke:#58a6ff,color:#fff ``` | 阶段 | 发生的过程 | 关键工具 | |:------|:------------|:----------| | **计划 (Plan)** | 枚举来源、定义问题、创建清单 | 顺序思维 | | **本地 (Local)** | 解析现有数据、识别缺口 | 文件分析、grep | | **搜索 (Search)** | 广泛 → 定向 → 针对特定领域的查询 | Web API、Google dorking | | **Wayback** | 恢复已删除的页面、发现 PDF、跟踪演变 | Wayback CDX API | | **爬取 (Scrape)** | 视频、逐字稿、平台数据、渲染页面 | Playwright、yt-dlp、BeautifulSoup | | **综合 (Synthesize)** | 交叉引用声明、标记置信度、解决冲突 | 多智能体三角测量 | | **报告 (Report)** | 结构化为实体文件、添加 frontmatter、构建导航 | 架构模式 | 对于配置好的 Agent，只需 **约 2.5 小时**。包含深入研究和行业语境，需 **4 天**。完整细节：[`methodology.md`](methodology.md) → [`collection_phases.md`](collection_phases.md)

##

输出架构 ``` graph TD R[README.md + ROUTER.md] --> META[_meta/] R --> DATA[_data/ — 14 CSVs] R --> ASSETS[_assets/ — photos + PDFs] R --> EVIDENCE[_evidence/ — raw sources] R --> S1[1_corporate/] R --> S2[2_people/profiles/] R --> S3[3_products/] R --> S4[4_suppliers/profiles/] R --> S5[5_customers/] R --> S6[6_competitors/profiles/] R --> S7[7_financials/] R --> S8[8_marketing/] R --> S9[9_brand/] R --> S10[10_timeline/] R --> S11[11_analysis/] R --> S12[12_industry/] style R fill:#1f6feb,stroke:#58a6ff,color:#fff style META fill:#21262d,stroke:#30363d,color:#c9d1d9 style DATA fill:#21262d,stroke:#30363d,color:#c9d1d9 style ASSETS fill:#21262d,stroke:#30363d,color:#c9d1d9 style EVIDENCE fill:#21262d,stroke:#30363d,color:#c9d1d9 ``` **关键设计决策：** - 每个实体（个人、供应商、竞争对手）一个文件 —— 绝不使用大杂烩列表 - 每个文件最多 500 行 —— 聚焦、易于浏览、对 Agent 友好 - 每个 `.md` 都带有 YAML frontmatter —— 实现编程方式发现 - `ROUTER.md` 将 60+ 问题映射到确切的文件路径 —— 读取 2 次即可获得任何答案 - 严格的层级分离：事实 (1-10) / 判断 (11) / 语境 (12) / 数据 / 证据完整规范：[`architecture.md`](architecture.md)

##

如何开始 ``` # 1. Clone 此 methodology git clone https://github.com/ever-just/company-dossier.git # 2. 创建 dossier 结构（一条 command） TARGET="COMPANY_NAME" mkdir -p "$TARGET DOSSIER"/{_meta,_data,_assets/photos,_evidence,1_corporate,2_people/profiles,3_products,4_suppliers/profiles,5_customers,6_competitors/profiles,7_financials,8_marketing,9_brand,10_timeline,11_analysis,12_industry} # 3. 将你的 AI agent 指向此 methodology ``` **Agent prompt：** ``` Read methodology.md and collection_phases.md from the company-dossier repo. Build a complete intelligence dossier on [COMPANY NAME] following the 7-phase pipeline. Write output using entity-centric files with YAML frontmatter. ``` 完整的入门模板：[`skeleton.md`](skeleton.md)

##

文档 | | 文件 | 涵盖内容 | |:--|:--|:--| |

| [`methodology.md`](methodology.md) | 理念、7 阶段流程、设计原则 | |

| [`collection_phases.md`](collection_phases.md) | 6 种收集方法及示例命令 | |

| [`tools.md`](tools.md) | 30+ 工具 —— 使用和拒绝的工具及其理由 | |

| [`skills.md`](skills.md) | 20 个 Agent 技能 —— 何时以及如何调用 | |

| [`patterns.md`](patterns.md) | 10 种跨领域的方法论模式 | |

| [`architecture.md`](architecture.md) | 输出结构、YAML schema、导航设计 | |

| [`case_study.md`](case_study.md) | 逐日构建的叙事 | |

| [`prompts.md`](prompts.md) | 12 个关键提示词及其有效性分析 | |

| [`quality_assurance.md`](quality_assurance.md) | 3 阶段审计 —— 发现了 56 个错误 | |

| [`skeleton.md`](skeleton.md) | 一键生成档案结构 | |

| [`frontmatter.md`](frontmatter.md) | 5 种文件类型的 YAML 模板 | |

| [`lessons_learned.md`](lessons_learned.md) | 哪些有效，哪些失败 | |

| [`SOURCES.md`](SOURCES.md) | 引用的所有工具、代码库、API | |

这与其他 OSINT 工具的区别 | | 现有工具 | 本方法论 | |:--|:--|:--| | **输出** | 终端转储或 JSON blob | 带有 YAML frontmatter 的可导航 12 部分档案 | | **重点** | 技术侦察（子域名、DNS） | 商业情报（收入、供应商、风险） | | **置信度** | 无 | 每个声明都有 6 级量表 | | **综合** | 无 —— 仅原始数据 | 每个发现交叉引用 3+ 来源 | | **结构** | 平面文件 | 以实体为中心的文件，带有 ROUTER.md 导航 | | **验证** | 无 | 3 阶段 QA 审计捕获 50+ 错误 |

##

验证过的结果在一家真实的 450 万美元私人企业上进行了测试： | 指标 | 结果 | |:-------|:-------| | 结构化文件 | 613 | | 实体档案 | 40 | | 数据集 (CSV) | 14 | | 捕获的照片 | 291 | | 恢复的 PDF | 12 | | QA 发现的错误 | 56 | | 导航路径 | 110 | | 置信度覆盖率 | 100% | | 时间（全深度） | 4 天 | | 成本 | **$0** |

Can an AI agent do this autonomously?

Yes, with guidance. Developed with Claude Opus 4.6 (1M context). Agent handles all 7 phases, but some steps need human decisions (confidence judgment, portal logins). See prompts.md for exact prompts.

What can't this methodology access?

Login-gated LinkedIn, SAM.gov full records (API key needed), PACER (fees), paid firmographics (ZoomInfo/Apollo), internal financials, state court portals that block bots. All documented as gaps with manual closure instructions.

Is this legal?

Yes. Public sources only. No unauthorized access, no social engineering, no login bypass. See methodology.md for ethical framework.

**构建所用技术**

*[EverJust](https://everjust.org) — 让情报工作可复现。*

标签：企业调研, 商业情报, 自动化信息收集, 运行时操纵, 逆向工具