Sabarnodas/Traffic-anomaly-prediction-and-anomaly-detection
GitHub: Sabarnodas/Traffic-anomaly-prediction-and-anomaly-detection
基于图神经网络的完整交通异常检测研究流水线,整合多源城市数据实现从特征工程到模型训练与可视化的端到端分析。
Stars: 0 | Forks: 0
# 交通异常预测与异常检测
本仓库开启了项目的里程碑 1 (Milestone 1):
- 接入当前可用的原始数据源
- 计算首批与研究方向一致的特征表
- 构建后续模型可使用的处理后特征存储 (feature store)
- 为缺失的交通、事件和路网图数据保留显式占位符
## 当前数据状态
当前可用:
- 2025 年 1 月的气象观测数据
- 2025 年 1 月的 NYC 黄色出租车行程数据
- 出租车区域查找元数据
- 历史 NYC 交通流量计数
- NYC LION 路网地理数据库
全面的事件感知建模 (event-aware modeling) 仍缺失:
- 非空的许可活动历史数据集
- 用于更精细出租车到道路连接的路段到区域或几何桥梁
## 仓库结构
- `configs/` 数据集和输出配置
- `docs/PAPER_SCOPE.md` 冻结的可发表清洁版论文范围
- `docs/GOLD_LABEL_PROTOCOL.md` 金标集的人工标注协议
- `data/raw/` 原始输入的规范命名本地副本
- `data/manual_review/` 面向审阅者的金标脚手架
- `src/traffic_anomaly/` 源代码包
- `scripts/build_feature_store.py` 入口程序
- `tests/` 使用标准库 `unittest` 的单元测试
## 规范原始数据集名称
- `data/raw/weather/noaa_laguardia_weather_daily_2025_01.csv`
- `data/raw/taxi/nyc_yellow_taxi_tripdata_2025_01.parquet`
- `data/raw/taxi/nyc_taxi_zone_lookup.csv`
- `data/raw/traffic/nyc_traffic_volume_counts_historical.csv`
- `data/raw/road_network/nyc_lion_26a/lion/lion.gdb`
- `data/raw/events/nyc_permitted_events_historical_empty_placeholder.csv`
## 本次迭代已实现
- 带有雪残留衰减函数 (SRDF) 的天气特征工程
- 基于区域的出租车特征工程,包含行政区和区域名称的查找丰富
- 从宽小时列到规范小时记录的交通流量计数归一化
- 基于方向性交通流量的 DFAI 计算
- LION 路段引用提取及 traffic-to-LION 路段注册表生成
- 记录生成文件、摘要和阻塞输入的清单输出
- 基线交通异常制品 包含:
- 时间覆盖审计
- 建模表
- 分层季节性基线概况
- 鲁棒异常分数
- 用于宽松图机制的冻结基准划分
- 用于 STGCN/DCRNN 风格建模的图制品
- 在最佳完整交通活动上的首个 STGCN 基线训练流水线
- 在同一活动上的 DCRNN 基线及直接模型对比报告
- 具有更丰富邻接关系和掩码 STGCN 训练的宽松缺失数据兼容图流水线
- 来自宽松 STGCN 预测器的残差异常评分
- 针对标记路段-小时的方向配对及 DFAI/CDAS 风格候选归因标签
- 针对最强方向性、类天气和需求激增候选的事件级案例研究和 Markdown 叙述
- 用于按行政区、标签、划分、置信度和严重程度浏览案例研究的自包含面向分析师 HTML 仪表板
- 用于审查所有宽松基准案例研究的人工金标脚手架
- 结合异常和预测参考的统一基线比较报告
- 涵盖机制、边缘丰富和归因层变体的严格消融套件
- 导出可发表表格、图表和复现脚本的最终论文制品构建器
## 运行
```
python scripts/build_feature_store.py --config configs/datasets.yaml
python scripts/build_baseline_artifacts.py --config configs/datasets.yaml
python scripts/build_graph_artifacts.py --config configs/datasets.yaml
python scripts/build_relaxed_benchmark_split.py --config configs/datasets.yaml
python scripts/train_stgcn_baseline.py --config configs/datasets.yaml
python scripts/train_dcrnn_baseline.py --config configs/datasets.yaml
python scripts/compare_graph_models.py
python scripts/build_relaxed_graph_artifacts.py --config configs/datasets.yaml --min-days 14 --min-presence-ratio 0.5
python scripts/train_stgcn_relaxed_baseline.py --config configs/datasets.yaml
python scripts/train_tabular_relaxed_baseline.py --config configs/datasets.yaml
python scripts/compare_stgcn_regimes.py
python scripts/build_stgcn_relaxed_anomalies.py --config configs/datasets.yaml
python scripts/build_stgcn_relaxed_attribution.py --config configs/datasets.yaml
python scripts/build_stgcn_relaxed_case_studies.py --config configs/datasets.yaml
python scripts/build_stgcn_relaxed_dashboard.py --config configs/datasets.yaml
python scripts/build_stgcn_relaxed_gold_label_scaffold.py --config configs/datasets.yaml
python scripts/build_unified_baseline_comparison.py --config configs/datasets.yaml
python scripts/build_strict_ablation_suite.py --config configs/datasets.yaml
python scripts/build_final_paper_artifacts.py --config configs/datasets.yaml
```
默认情况下,输出写入 `data/processed/`。
要在 Windows 上单次端到端重建论文输出,请运行:
```
powershell -ExecutionPolicy Bypass -File scripts/rebuild_final_paper_artifacts.ps1
```
标签:AI合规, DNS解析, Python, 交互式仪表盘, 交通流量分析, 出租车数据分析, 图神经网络, 多模态安全, 天气数据融合, 开源项目, 异常检测, 数据工程, 数据清洗, 数据管道, 无后门, 时空数据挖掘, 智能交通系统, 智能城市, 机器学习流水线, 消融研究, 深度学习, 特征工程, 纽约交通, 路网拓扑分析, 软件工程, 逆向工具