Subrat-2003/Financial-distress-early-warning-system

GitHub: Subrat-2003/Financial-distress-early-warning-system

一个端到端的机器学习管道,利用 SEC EDGAR 报表预测公司财务困境并提供可解释的风险信号。

Stars: 0 | Forks: 0

# 财务困境早期预警系统 (FDEWS) GitHub 仓库结构: Bronze → 原始 SEC 数据摄取 Silver → 数据清洗与模式强制 Gold → 特征工程 Modeling → 财务困境预测模型 Dashboard → Streamlit 风险监控界面 **规模:** 60GB+ SEC EDGAR 数据集 | **架构:** 勋章层 (Bronze/Silver/Gold) 一个端到端的机器学习管道,旨在利用高量级的 SEC 申报文件 (10-K/10-Q) 预测公司破产和财务困境。该系统利用 **Out-of-Core 处理** 从 5 年历史数据 (2020–2025) 中提取信号。 ## 技术亮点 - **高量级工程:** 使用 **Polars 流式处理** 和 **惰性求值** 处理 60GB 原始 SEC 数据,以保持低内存占用。 - **量化特征库:** 构建 12 个关键财务比率 (流动性、杠杆率、盈利能力) 并采用 **时间持久性逻辑** 以减少误报信号。 - **多模态风险:** (进行中) 将 **FinBERT** 情感分数与数值财务特征集成,来源于 MD&A 文本部分。 - **稳健验证:** 实施 **前瞻性时间分割** 以减轻数据泄露并确保在经济周期中的模型泛化能力。 ## 项目架构 该项目遵循 **勋章架构** 以确保数据谱系和可靠性: - **Bronze 层:** SEC TSV 文件的原始摄取以及 MD&A 部分的 HTML 抓取。 - **Silver 层:** 模式强制、float32 下转型以优化内存,以及分区 Parquet 存储。 - **Gold 层:** 特征工程存储,包含已缩放的财务比率和 2 季度持久性标志。 - **Modeling:** (进行中) 使用基于 SHAP 的可解释性的 XGBoost/LSTM 训练。 ## 核心技术与建模栈 **1. 数据处理:** **Polars** (主引擎)、**Parquet**、**DuckDB** 用于处理约 60GB SEC EDGAR 申报文件的高性能数据处理栈,支持高效的外部内存计算和分析查询。 **2. 机器学习与建模:** **XGBoost**、**Scikit-Learn** 用于构建和评估财务困境预测模型,采用前瞻性验证和稳健的特征工程。 **3. 自然语言处理:** **FinBERT (通过 Transformers)** 从 SEC 申报文件的管理层讨论与分析 (MD&A) 部分提取情感信号,以增强财务比率特征。 **4. 模型可解释性:** **SHAP (SHapley Additive exPlanations)** 通过识别哪些财务或文本特征最能影响模型输出,为困境预测提供透明的“原因代码”。 **5. 部署与分析接口:** **Streamlit**、**Google Colab** 支持快速实验、交互式仪表板和财务风险预测的可视化。 ## 项目架构 Bronze → Silver → Gold (勋章数据管道) ## 仓库结构 - `bronze_layer/`:抓取器和原始摄取逻辑。 - `silver_layer/`:清洗、分区和优化脚本。 - `gold_layer/`:量化特征工程与标签。 - `data/`:指向 60GB Google Drive 数据集的链接。 - `docs/`:架构图和数据字典。 ## 数据集访问 由于数据规模为 60GB,原始和处理后的数据托管在 Google Drive 上。 **请参阅 [data/dataset_link.md](data/dataset_link.md) 获取访问说明。**
标签:10-K, 10-Q, Bronze Silver Gold, DuckDB, FinBERT, Kubernetes, Lazy Evaluation, LSTM, MD&A, Out-of-Core, Parquet, Polars, SEC EDGAR, SHAP, Streamlit, Walk-Forward Validation, XGBoost, 中介层架构, 仪表盘, 可解释性, 情感分析, 持久化特征, 数据摄取, 数据泄露防护, 数据清洗, 早期预警系统, 时间序列分割, 时间序列特征, 机器学习流水线, 杠杆比率, 流动性比率, 流式处理, 特征工程, 盈利能力比率, 端到端机器学习, 经济周期建模, 网络探测, 访问控制, 财务困境预测, 量化特征存储, 金融数据工程, 金融比率, 风险监控, 高可用数据管道