ArmanAhmed00/property-sales-pipeline
GitHub: ArmanAhmed00/property-sales-pipeline
法国房地产数据全流程处理与分析工具
Stars: 1 | Forks: 0
# 房地产销售管道
一个简单的 Python 管道,用于从 DVF 数据集中加载、清理和探索法国房地产交易数据。
## 包含内容
- `data/` — 原始输入文件和转换后的 CSV 输出。
- `notebooks/` — 加载、清理、EDA 和特征工程的分析笔记本。
- `src/` — 数据工具、清理和特征工程的 Python 模块。
- `data/download.py` — 从 `data/local_data` 或其他源文件夹准备原始 DVF 压缩文件的辅助工具。
- `data/convert_txt_to_csv.py` — 将 `data/data` 中的 `.txt` DVF 文件转换为 `data/data_csv` 中的 `.csv` 文件的转换器。
## 开始使用
1. 安装依赖项:
```
pip install -r requirements.txt
```
2. 转换原始 TXT 文件为 CSV(如果需要):
```
python3 data/convert_txt_to_csv.py
```
3. 如果您有本地的 DVF 压缩文件,将其复制到原始数据文件夹:
```
python3 data/download.py
```
此脚本将自动使用 `data/local_data` 中的文件(如果存在)。
## 运行清理管道
从存储库根目录:
```
python3 -m src.data_cleaning --save
```
这将加载 DVF 文件,清理数据集,并保存摘要报告和清理后的样本文件。
## 关键文件
- `src/dvf_utils.py` — 加载、库存和原始数据辅助工具。
- `src/data_cleaning.py` — 清理管道和保存实用工具。
- `src/features.py` — 特征工程和异常标记。
- `notebooks/01_loading_and_overview.ipynb` — 初始数据加载和概览的笔记本。
## 注意事项
- 该存储库适用于法国 DVF 数据,并期望源文件使用管道(`|`)分隔符。
- 将原始数据保留在 `data/data` 或 `data/local_data` 中,将转换后的 CSV 文件保留在 `data/data_csv` 中。
标签:逆向工具