Promeos/hedge-fund-mosaic

GitHub: Promeos/hedge-fund-mosaic

整合九大公开监管数据源,通过跨源统计检验与可视化手段重构美国对冲基金行业的全貌,揭示其杠杆结构、衍生品敞口与系统性风险传导链条。

Stars: 0 | Forks: 0

# Hedge Fund Mosaic [![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.19187969.svg)](https://doi.org/10.5281/zenodo.19187969) 从 9 个公开监管数据源拼凑美国对冲基金行业的全貌。 这是一个开源情报项目,旨在从无人整合的碎片信息中,组装出美国对冲基金的财务图景——资产负债表、衍生品、借贷、仓位以及基金层面的持仓。 ![Form PF — Hedge Fund Leverage](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/84a8f5f0f8115508.png) ## 核心论点 对冲基金行业以十几种不同的格式向十几个不同的监管机构报告。没有一个单一来源能讲述完整的故事。但如果把它们结合起来,就能看清全貌。 本项目汇集了来自 **Federal Reserve**、**SEC**、**CFTC**、**DTCC** 和 **CBOE** 的 **9 个公开数据源**,以构建统一的图景: - 总资产 **3.3 万亿美元** (Fed Z.1 2025 Q3) —— 通过 Form PF 显示的总资产为 **12.6 万亿美元** - 衍生品敞口 **20.2 万亿美元** —— 是其净资产价值的 3.7 倍 - 每周流经系统的利率互换名义本金达 **415 万亿美元** - 8 家最大基金持有 **289,025 只个股** —— 滚动 2 年窗口 (2024–2026),已进行修正去重 - 每天有 **超过 100 万笔 OTC 衍生品交易** 流经 DTCC - 一个不向任何单一监管机构负责的行业的完整 **借贷、杠杆和交易对手结构** ## 数据来源 | # | 来源 | 揭示内容 | 覆盖范围 | |---|--------|----------------|----------| | 1 | **Federal Reserve Z.1** | 汇总资产负债表 (表 B.101.f) —— 资产、负债、净值 | 原始 FRED 序列跨度 1945–2025;可用的对冲基金观测数据始于 2012 Q4 | | 2 | **SEC Form PF** | 私募基金统计 —— GAV、NAV、杠杆、衍生品、按债权人的借贷、策略配置、集中度 | 2013–2025,季度 + 月度 | | 3 | **CFTC Weekly Swaps** | OTC 衍生品市场 —— 利率、信用和外汇互换名义本金、交易量、交易对手划分 | 2013–2026,周度 | | 4 | **SEC EDGAR 13F** | Citadel、Bridgewater、Renaissance、Point72、Two Sigma、D.E. Shaw、Millennium、AQR 的基金级股票持仓 —— 已进行修正去重 | 滚动 2 年窗口(目前为 2024–2026) | | 5 | **SEC EDGAR Submissions** | 完整的备案历史、SC 13G (5%+ 所有权)、Form ADV 注册 | 1996–2026 | | 6 | **CFTC COT** | 杠杆基金在股指期货中的持仓 | 周度 | | 7 | **CBOE VIX** | 市场波动率指数 | 日度,按季度汇总 | | 8 | **DTCC Swap Repository** | 交易级 OTC 衍生品交易 —— 名义本金、交易对手类型、清算状态、大宗交易和 Prime Broker 标记 | 本地快照:2025-03-13 至 2026-03-13,日度 | | 9 | **CFTC FCM Financials** | 经纪商级调整后净资本、超额资本、客户隔离资金、清算互换隔离 | 本地快照:2022-01 至 2026-01,月度 | ## 我们目前的发现 ### 行业规模比报告值大 4 倍 Fed 的 Z.1 显示对冲基金资产为 **3.26 万亿美元** (2025 Q3,历史最高,同比增长 16%)。SEC Form PF 显示 **总资产 12.6 万亿美元** 和 **衍生品 20.2 万亿美元**。差异在于 Fed 的资金流量框架无法捕捉到的杠杆和表外敞口。 ### 极度集中 - 前 10 大基金控制了行业 NAV 的 **8.2%** - 前 500 大基金控制了 **54.8%** - 8 家巨型基金合并后的 13F 股票 AUM:**5660 亿美元** (仅限 2025 Q4 股份,已进行修正去重) - NVIDIA 被所有 8 家基金持有(合计 96 亿美元);iShares ETF 是 #1 持仓(240 亿美元) - Citadel 提交了 **854 份 SC 13G 表格**(持有 854 家公司 5% 以上的所有权) ### 借贷机器 - 对冲基金借贷的 **79%** 通过 Prime Brokerage 流向 (Fed Z.1, 2025 Q3) - 只有 **0.7%** 是无抵押的 —— **99.3%** 是有抵押的 (Form PF, 2025-03) - 在 **2025 Q1**,**63.9%** 的债权人是美国金融机构,**35.3%** 是非美国金融机构 - 在 **2025-03**,合格对冲基金持有 **2.8 万亿美元** 的逆回购和 **2.6 万亿美元** 的 Prime Broker 融资 ### 杠杆看起来安全——直到你正确衡量它 Fed 的 Z.1 杠杆率(负债 / 净资产)平均为 **0.43 倍**,似乎围绕该均值波动——表明该行业具有自我修正能力。但 Z.1 只捕捉了表内杠杆。 SEC Form PF 讲述了一个不同的故事。**GAV/NAV 比率** —— 总资产价值除以净资产价值 —— 捕捉了包括表外和衍生品敞口在内的完整图景。它已从 **1.76 倍** (2013 Q4) 上升到 **2.32 倍** (2025 Q1,历史最高),且具有统计上显著的上升趋势(每季度 +0.008 倍,p≈0.00)。Augmented Dickey-Fuller 检验证实 GAV/NAV 是 **非平稳的** (p=0.99) —— 它不具备均值回归特性。它从未回落到历史平均水平。 两项指标同时创下历史新高:Z.1 为 **0.485 倍** (2025 Q3),GAV/NAV 为 **2.32 倍** (2025 Q1)。Z.1 数据给人一种虚假的安全感——最重要的杠杆一直在无中断地累积了 12 年。 ### 衍生品冰山 - 利率衍生品 **多头 4.8 万亿 / 空头 4.9 万亿** —— 几乎完全对冲 - 股票 **多头 1.8 万亿 / 空头 9450 亿** —— 净多头 8830 亿美元 - 信用 **多头 5170 亿 / 空头 6390 亿** —— **净空头 1220 亿美元**(押注违约) - 每周 CFTC 互换数据显示 **415 万亿美元** 的利率名义未偿付额 —— 一切表象之下的管道 ### 传染链 上述个别发现并非独立的——它们是统计验证级联中的环节。Granger 因果检验(5/28 个显著对)表明,波动率冲击会 *导致* 杠杆调整 (VIX → GAV/NAV, p=0.002) 和经纪商资本压力 (VIX → FCM 超额资本, p=0.002),而杠杆变化会反馈到波动率中 (Z.1 杠杆 → VIX, p=0.025)。这不是相关性——因果方向是可测试且已确认的。 加速剂已经到位: - **流动性错配:** 只有 60.3% 的组合资产可以在 30 天内变现,但只有 19.1% 的投资者资本可以在同一期限内赎回 —— 赎回冲击迫使在完全错误的时刻进行抛售 - **经纪商集中度上升:** FCM 市场 HHI 呈上升趋势 (p<0.001) —— 每个周期都有更少的经纪商承担更多的风险,当一家倒闭时,会扩大波及范围 - **杠杆处于历史峰值:** 0.485 倍 (2025 Q3) —— 52 个季度 Z.1 数据中的最高值,且是有记录以来最快的 5 个季度累积。Monte Carlo 模拟(1 万条路径,8 季度视野)给出 VaR 95% = -1.7% 且 P(负值) = 7.1% 多米诺骨牌是:**波动率飙升 → 基金去杠杆 → 经纪商资本紧缩 → 进一步被迫抛售** —— 而且系统比上次发生这种情况时更加集中且流动性更差。 ### 跨源统计检验 当前的套件输出 **18 行结果**:8 个命名的跨源检验加上对关键序列的 10 个 ADF/Mann-Kendall 检查。主要发现: | 检验 | 结果 | p 值 | 含义 | |------|--------|---------|---------------| | **流动性缺口 vs VIX** | **通过** | 0.005 | 在高 VIX 季度,30 天投资者减去组合的流动性缺口会走高,但在捆绑样本中仍为负值 | | **VIX → GAV/NAV (Granger)** | **通过** | 0.002 | 波动率 *导致* 杠杆变化 —— 恐慌驱动去杠杆 | | **Z.1 杠杆平稳性** | **脆弱** | 0.026 | 处于平稳的边缘 (默认滞后下 p=0.026;AIC 滞后选择下 p=0.135) —— 对检验参数敏感 | | **Form PF GAV 趋势** | **通过** | 0.000 | 行业总资产呈强劲上升趋势 | | **Form PF GAV/NAV 趋势** | **通过** | 0.000 | 杠杆率呈上升趋势 —— 基金正在加杠杆 | | **Z.1 ~ Form PF 协整** | 失败 | 0.173 | 这两个行业规模衡量指标独立变动 | | **Z.1/Form PF 比率稳定性** | 失败 | 0.944 | Fed 和 SEC 对该行业看法之间的差距正在 *扩大* | | **CFTC 利率 vs DTCC 利率清算** | 失败 | 0.993 | 在 2025 Q1–2026 Q1 重叠的本地样本中,利率清算衡量指标在 10 个百分点的范围内不等效 | | **Form PF → Z.1 杠杆** | 失败 | 0.086 | 处于边缘 —— SEC 数据在 10% 水平上几乎可以预测 Fed 数据 | 此外,高级分析在 Form PF GAV/NAV 中发现了 **3 个结构性断点** (2017 Q3, 2020 Q2, 2023 Q1),以及 Form PF GAV 与利率/信用互换名义本金之间的 **2 个协整关系** —— 衍生品市场和基金杠杆被锁定在长期均衡中。完整的检验结果保存在 `outputs/reports/cross_source_tests.csv` 中。
使用的统计方法及其原因
| 方法 | 使用位置 | 测试内容 | 使用原因 | |--------|-----------|---------------|---------------| | **Augmented Dickey-Fuller (ADF)** | Z.1 杠杆率、Form PF GAV、GAV/NAV、VIX、COT 净持仓 | 测试时间序列是否存在单位根(非平稳)。原假设:序列是非平稳的。 | 确定杠杆等指标是均值回归到长期平均值还是无限期趋势化。平稳的杠杆率意味着自我修正行为;非平稳的杠杆率意味着结构性漂移。 | | **Mann-Kendall 趋势检验** | 与 ADF 相同的序列 | 单调趋势的非参数检验。不假设正态性。 | 补充 ADF —— 一个序列可以是平稳的 (ADF),但仍然具有显著趋势 (Mann-Kendall)。使用是因为金融时间序列经常违反正态性假设。 | | **Granger 因果关系** | VIX、Z.1 杠杆、GAV/NAV、COT 持仓、互换名义本金、FCM 超额资本的所有成对组合 | 测试序列 X 的过去值是否在 Y 自身历史之外改善对序列 Y 的预测。 | 建立数据源之间的定向因果关系 —— 例如,VIX 飙升是否 *导致* 随后的去杠杆,还是它们只是共同移动?识别因果链对于理解系统性传导至关重要。 | | **Engle-Granger 协整** | Z.1 总资产 vs Form PF GAV;Form PF GAV vs 互换名义本金 | 测试两个非平稳序列是否共享长期均衡 —— 它们可以在短期内分化,但随着时间的推移是绑定在一起的。 | 如果 Fed 和 SEC 对行业规模的衡量是协整的,那么它们测量的是同一事物,只是滞后不同。如果不是,它们捕捉的是根本现象。 | | **双样本 t 检验 (Welch's)** | 高 VIX 与低 VIX 季度的流动性缺口 | 测试指标的均值在两组之间是否不同。Welch 变体不假设方差相等。 | 确定流动性错配(投资者可赎回减去组合可变现)在压力期间是否显著恶化。显著结果意味着流动性风险是顺周期的。 | | **TOST 等效性检验** | CFTC 互换清算 % vs DTCC 清算 % | 测试两个衡量指标是否在指定范围(10 个百分点)内等效。 | 标准假设检验只能拒绝相等 —— 它们无法确认相等。TOST 颠倒了这一点:它测试两个数据源是否足够一致以至于可以互换。 | | **Spearman 秩相关** | FCM 客户隔离 vs COT 净持仓 | 衡量单调(不仅是线性)关系的非参数相关性。 | 用于关系可能是非线性的跨源验证 —— 例如,经纪商资本是否与期货持仓同向移动? | | **Bai-Perron 结构性断点检测** | Form PF GAV/NAV 比率 | 识别时间序列统计特性发生突然变化的日期。 | 定位制度转变 —— 杠杆关系发生根本变化的点(例如,后 COVID、后加息期)。这些不是渐进趋势,而是离散的结构性变化。 | | **Monte Carlo 模拟** | Z.1 总资产、负债、净资产 | 使用历史回报分布生成 10,000 条前瞻路径,以估计风险价值 (VaR) 和回撤概率。 | 提供概率性风险估计而不是点预测。VaR 95% 告诉你 20 次中有 19 次预期的最坏情况季度损失。 | | **向量自回归 (VAR)** | 跨源对齐的季度数据 | 同时模拟多个时间序列,捕捉每个变量如何响应其他变量中的冲击。 | 支持脉冲响应分析 —— 如果 VIX 飙升 1 个标准差,杠杆、资本和持仓在未来 8 个季度将如何响应? |
## 可视化 生成 20 多张出版级质量的图表到 `outputs/figures/`: | 类别 | 图表 | |----------|--------| | **Z.1 资产负债表** | 总资产、资产构成、债务证券、负债结构、资产负债表概览、衍生品敞口、借贷模式、相关性热力图 | | **Form PF** | GAV/NAV 杠杆、策略配置、集中度趋势 | | **CFTC Swaps** | 清算率、未偿名义本金 | | **FCM** | 资本与充足率、市场集中度 | | **DTCC** | 按资产类别的名义本金、清算率 | | **EDGAR** | 按基金的备案量 | | **Cross-Source** | Z.1 vs Form PF 杠杆比较 | ## 数据字典 所有处理后的 CSV 均写入 `data/processed/`。货币值以 **十亿美元 (USD)** 为单位,除非另有说明。日期使用季度 (`2025Q1`) 或月度 (`2025-03`) 格式。
Federal Reserve Z.1 (3 个文件)
**`hedge_fund_analysis.csv`** — 52 行,季度 (2012 Q4 – 2025 Q3) 主要分析数据集。Fed Z.1 表 B.101.f 资产负债表项目与 VIX 和衍生指标连接。 | 列 | 描述 | |--------|-------------| | `Total assets` | 对冲基金总资产 ($B) | | `Total liabilities` | 总负债 ($B) | | `Total net assets` | 资产减去负债 ($B) | | `Corporate equities; asset` | 股票持仓 ($B) | | `Derivatives (long value)` | 衍生品敞口,多头方 ($B) | | `Loans, total secured borrowing via prime brokerage; liability` | Prime Brokerage 借贷 ($B) | | `VIX_mean`, `VIX_max`, `VIX_end` | 季度 VIX 统计数据 | | `leverage_ratio` | 总负债 / 总净资产 | | `cash_to_assets` | (存款 + 现金 + MMF) / 总资产 | | `equity_pct` | 公司股票 / 总资产 | | `derivative_to_assets` | 衍生品 (多头) / 总资产 | | `prime_brokerage_pct` | Prime Brokerage / 总贷款 (负债) | | `foreign_borrowing_share` | 外国 / (国内 + 外国) 借贷 | | `total_assets_qoq`, `total_assets_yoy` | 环比和同比增长 | | `leverage_change` | 杠杆率的环比变化 | **`hedge_fund_metrics.csv`** — 319 行。相同的结构,包括 2012 之前的季度(许多为零)。 **`statistical_analysis.csv`** — 319 行。与 metrics 相同,加上来自制度检测的 `regime` 列。
SEC Form PF (19 个文件)
**`form_pf_gav_nav.csv`** — 392 行 | 列 | 描述 | |--------|-------------| | `fund_type` | Hedge Fund, Private Equity, Liquidity Fund 等 | | `quarter` | 例如 `2025Q1` | | `gav` | 总资产价值 ($B) | | `nav` | 净资产价值 ($B) | | `gav_nav_ratio` | GAV / NAV —— 真实杠杆代理指标 | **`form_pf_borrowing_detail.csv`** — 882 行,月度 | 列 | 描述 | |--------|-------------| | `type` | Secured, Unsecured, 或 Total | | `subtype` | Reverse Repo, Prime Broker, Other Secured, 或 Subtotal | | `month` | 例如 `2025-03` | | `amount_bn` | 借贷金额 ($B) | **`form_pf_borrowing_creditor.csv`** — 196 行,季度 | 列 | 描述 | |--------|-------------| | `creditor_type` | US Financial, Non-US Financial, US Non-Financial, Non-US Non-Financial | | `share` | 占总借贷的比例 (0–1) | **`form_pf_notional.csv`** — 5,145 行,月度 | 列 | 描述 | |--------|-------------| | `investment_type` | 例如 Interest Rate Derivatives, Credit Derivatives, Listed Equities | | `long_notional` | 多头敞口 ($B) | | `short_notional` | 空头敞口 ($B) | | `net_exposure` | 多头减去空头 ($B) | **`form_pf_concentration.csv`** — 294 行,季度 | 列 | 描述 | |--------|-------------| | `top_n` | Top 10, 25, 50, 100, 250, 或 500 | | `nav_share` | 占行业 NAV 的比例 (0–1) | | `gav_share`, `borrowing_share`, `derivative_share` | 相应的比例 | **`form_pf_strategy.csv`** — 441 行,季度 | 列 | 描述 | |--------|-------------| | `strategy` | Equity, Credit, Macro, Multi-Strategy, Relative Value 等 | | `gav`, `nav`, `borrowing` | 策略级汇总 ($B) | **`form_pf_liquidity.csv`** — 882 行,季度 | 列 | 描述 | |--------|-------------| | `period` | At most 1 day, 7 days, 30 days, 90 days, 180 days, 365 days | | `cumulative_pct` | 可变现/可赎回的累积比例 (0–1) | | `liquidity_type` | `investor_liquidity`, `portfolio_liquidity`, 或 `financing_liquidity` | **`form_pf_metric_liquidity_mismatch.csv`** — 49 行,季度 | 列 | 描述 | |--------|-------------| | `portfolio_30d` | 可在 30 天内变现的组合比例 | | `investor_30d` | 可在 30 天内赎回的投资者资本比例 | | `liquidity_mismatch_30d` | portfolio_30d 减去 investor_30d | **其他 Form PF 文件:** `form_pf_derivatives.csv` (按基金类型的衍生品价值), `form_pf_fund_counts.csv` (按类型的基金数量), `form_pf_fair_value.csv` (Level 1/2/3 公允价值), `form_pf_geography.csv` (地理配置), `form_pf_leverage_dist.csv` (杠杆率分布), `form_pf_sector.csv` (行业配置), `form_pf_borrowing_pct.csv` (借贷占 GAV 的百分比), `form_pf_metric_concentration_top10.csv`, `form_pf_metric_hf_gav_nav.csv`, `form_pf_metric_strategy_hhi.csv`, `form_pf_metric_latest_notional.csv`。
CFTC Weekly Swaps (3 个文件)
**`swaps_weekly.csv`** — 605 行,周度 (2013–2026) | 列 | 描述 | |--------|-------------| | `date` | 报告日期 | | `ir_total` | 利率互换名义未偿额 ($B) | | `ir_cleared`, `ir_uncleared` | 已清算 vs 未清算利率名义本金 ($B) | | `ir_cleared_pct` | 已清算比例 (0–1) | | `credit_total`, `fx_total`, `equity_total`, `commodity_total` | 按资产类别的名义本金 ($B) | | `credit_cleared_pct`, `fx_cleared_pct` | 按资产类别的清算率 | **`swaps_quarterly.csv`** — 51 行。带有 `weeks` 计数的季度汇总。 **`swaps_weekly_long.csv`** — 5,733 行。包含 `metric`, `value_millions`, `value_billions` 的长格式。
DTCC Swap Repository (2 个文件)
**`dtcc_daily_summary.csv`** — 1,309 行,日度 (2025–2026) | 列 | 描述 | |--------|-------------| | `date` | 交易日期 | | `asset_class` | Commodity, Credit, Equity, ForeignExchange, InterestRate | | `trade_count` | 交易数量 | | `total_notional_bn` | 总名义本金 ($B) | | `cleared_pct` | 已清算交易的比例 (0–1) | | `pb_pct` | 涉及 Prime Brokerage 的比例 (0–1) | | `block_pct` | 大宗交易的比例 (0–1) | **`dtcc_quarterly.csv`** — 25 行。按资产类别的季度末快照。
CFTC FCM Financials (5 个文件)
**`fcm_monthly_industry.csv`** — 49 行,月度 (2022–2026) | 列 | 描述 | |--------|-------------| | `adj_net_capital` | 行业调整后净资本 (原始 USD) | | `net_capital_requirement` | 监管最低要求 (原始 USD) | | `excess_net_capital` | 超出要求的资本 (原始 USD) | | `customer_assets_seg` | 客户隔离资产 (原始 USD) | | `cleared_swap_seg` | 已清算互换客户隔离 (原始 USD) | | `capital_adequacy_ratio` | adj_net_capital / requirement | | `swap_seg_share` | 已清算互换隔离 / (客户 + 互换隔离) | | `fcm_count` | 注册 FCM 数量 | **`fcm_concentration.csv`** — 49 行,月度 | 列 | 描述 | |--------|-------------| | `hhi` | 客户隔离市场份额的 Herfindahl-Hirschman 指数 | | `top5_share` | 前 5 名 FCM 占客户隔离资产的份额 | **`fcm_monthly_all.csv`** — 3,083 行。单个 FCM 级别的月度数据。 **`fcm_top_brokers.csv`** — 490 行。每月前 10 名 FCM 及其市场份额。 **`fcm_quarterly.csv`** — 17 行。季度末行业快照。
## 设置 ``` pip install -r requirements.txt echo "FRED_API_KEY=your_key_here" > .env ``` 在 https://fred.stlouisfed.org/docs/api/api_key.html 获取免费的 FRED API key ## 用法 ``` # 获取所有数据(首次运行后缓存) python -m src.data.fetch # 下载可用的 CFTC 周度 swap 报告 python -m src.data.fetch_swaps # 下载可用的 DTCC 交易级 swap 数据 python -m src.data.fetch_dtcc # 下载可用的 CFTC FCM 财务报告 python -m src.data.fetch_fcm # 将所有数据源解析为已处理的 CSV python -m src.data.parse_form_pf # 141 sheets → 19 CSVs python -m src.data.parse_fcm # 49 files → 5 CSVs python -m src.data.parse_dtcc # available ZIPs → 2 CSVs + parse log python -m src.data.parse_swaps # available files → 3 CSVs # 运行跨源分析(对齐、对账、18 项假设检验) python -m src.analysis.cross_source # 运行分析 notebook jupyter notebook notebooks/hedge_fund_analysis.ipynb ``` ## 项目结构 ``` ├── data/ │ ├── raw/ │ │ ├── swaps/ # ~600 weekly CFTC swap reports (xlsx) │ │ ├── dtcc/ # Daily DTCC cumulative swap reports (zip/csv) │ │ ├── fcm/ # Monthly FCM financial reports (xlsx) │ │ ├── form_pf/ # SEC Form PF statistics (xlsx + pdf) │ │ ├── form_adv/ # Fund profiles from EDGAR Submissions API │ │ ├── 13f_*.csv # Fund-level holdings │ │ ├── cftc_cot.csv # Futures positioning │ │ └── vix_quarterly.csv # Volatility index │ └── processed/ # Cleaned, merged, derived datasets ├── src/ │ ├── data/ │ │ ├── fetch.py # FRED, SEC EDGAR, CFTC, VIX fetchers │ │ ├── fetch_swaps.py # CFTC weekly swap report downloader │ │ ├── fetch_dtcc.py # DTCC trade-level swap data downloader │ │ ├── fetch_fcm.py # CFTC FCM financial report downloader │ │ ├── parse_form_pf.py # Form PF Excel parser (141 sheets → 19 CSVs) │ │ ├── parse_fcm.py # FCM financial report parser (49 files → 5 CSVs) │ │ ├── parse_dtcc.py # DTCC daily swap report parser (available ZIPs → 2 CSVs + log) │ │ ├── parse_swaps.py # CFTC weekly swap report parser (available files → 3 CSVs) │ │ └── prepare.py # Data cleaning and transformation │ ├── analysis/ │ │ ├── metrics.py # Derived metrics and statistics │ │ ├── advanced.py # Granger causality, VAR, Monte Carlo, structural breaks │ │ └── cross_source.py # Cross-source alignment, reconciliation, 18 hypothesis tests │ └── visualization/ │ └── plots.py # 18 matplotlib/seaborn chart functions ├── notebooks/ │ └── hedge_fund_analysis.ipynb └── outputs/ ├── figures/ # Generated charts └── reports/ # Executive summary, stress tests, stats ``` ## 技术栈 Python 3.10+ — pandas, numpy, matplotlib, seaborn, fredapi, openpyxl, requests, python-dotenv ## 已处理数据 `data/processed/` 中的核心处理输出: | 来源 | 文件 | 关键输出 | |--------||-------------| | Form PF | 19 | GAV/NAV、策略配置、集中度、杠杆分布、名义敞口、流动性、公允价值、地理、行业、借贷、基金数量 | | FCM | 5 | 月度行业总额、季度汇总、顶级经纪商、集中度 (HHI) | | DTCC | 2 个 CSV + 日志 | 日度汇总和按资产类别的季度季度末快照 | | CFTC Swaps | 3 | 周度时间序列、长格式、季度汇总 | | Z.1 | 2 | 规范分析数据集及兼容性副本 | ## 状态 **活跃开发中。** 所有 9 个数据源已获取并解析,跨源分析端到端运行。13F 获取器现在使用滚动 2 年窗口(目前为 2024–2026),包含 8 个基金的 289,025 个修正去重持仓。所有获取器使用动态日期范围。32 个测试通过,代码库 ruff-clean。下一步:解构衍生品黑盒并绘制交易对手网络。 ## 许可证与引用 本项目采用 [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/) 许可。 **如果您使用、混音或基于此作品进行构建,您必须给予适当的署名。** 衍生作品必须在相同许可下共享。 ### 如何引用 本项目包含一个 [`CITATION.cff`](CITATION.cff) 文件用于自动引用。您也可以手动引用: ``` Ortiz, C. (2026). Hedge Fund Mosaic: Piecing together the U.S. hedge fund industry from public regulatory data (v1.1.0). Zenodo. https://doi.org/10.5281/zenodo.19187969 ``` ``` @dataset{ortiz2026hedgefundmosaic, author = {Ortiz, Christopher}, title = {Hedge Fund Mosaic: Piecing Together the U.S. Hedge Fund Industry from Public Regulatory Data}, year = {2026}, publisher = {Zenodo}, version = {1.1.0}, doi = {10.5281/zenodo.19187969}, url = {https://doi.org/10.5281/zenodo.19187969} } ```
标签:ESC4, Form PF, OSINT, Python, SEC, 代码示例, 对冲基金, 市场结构, 投资组合, 掉期交易, 数据分析, 数据聚合, 无后门, 监管数据, 联邦储备, 衍生品, 资产负债表, 逆向工具, 量化分析, 金融分析, 金融合规, 金融数据, 金融监管, 金融科技