ArmanAhmed00/property-sales-pipeline

GitHub: ArmanAhmed00/property-sales-pipeline

法国房地产数据全流程处理与分析工具

Stars: 1 | Forks: 0

# 房地产销售管道 一个简单的 Python 管道,用于从 DVF 数据集中加载、清理和探索法国房地产交易数据。 ## 包含内容 - `data/` — 原始输入文件和转换后的 CSV 输出。 - `notebooks/` — 加载、清理、EDA 和特征工程的分析笔记本。 - `src/` — 数据工具、清理和特征工程的 Python 模块。 - `data/download.py` — 从 `data/local_data` 或其他源文件夹准备原始 DVF 压缩文件的辅助工具。 - `data/convert_txt_to_csv.py` — 将 `data/data` 中的 `.txt` DVF 文件转换为 `data/data_csv` 中的 `.csv` 文件的转换器。 ## 开始使用 1. 安装依赖项: ``` pip install -r requirements.txt ``` 2. 转换原始 TXT 文件为 CSV(如果需要): ``` python3 data/convert_txt_to_csv.py ``` 3. 如果您有本地的 DVF 压缩文件,将其复制到原始数据文件夹: ``` python3 data/download.py ``` 此脚本将自动使用 `data/local_data` 中的文件(如果存在)。 ## 运行清理管道 从存储库根目录: ``` python3 -m src.data_cleaning --save ``` 这将加载 DVF 文件,清理数据集,并保存摘要报告和清理后的样本文件。 ## 关键文件 - `src/dvf_utils.py` — 加载、库存和原始数据辅助工具。 - `src/data_cleaning.py` — 清理管道和保存实用工具。 - `src/features.py` — 特征工程和异常标记。 - `notebooks/01_loading_and_overview.ipynb` — 初始数据加载和概览的笔记本。 ## 注意事项 - 该存储库适用于法国 DVF 数据,并期望源文件使用管道(`|`)分隔符。 - 将原始数据保留在 `data/data` 或 `data/local_data` 中,将转换后的 CSV 文件保留在 `data/data_csv` 中。
标签:逆向工具