hadaperdida/Building-Energy-Anomaly-Detection

GitHub: hadaperdida/Building-Energy-Anomaly-Detection

基于无监督学习与合成验证的能耗异常检测项目,解决商业建筑缺乏真实标签的监测难题。

Stars: 0 | Forks: 0

建筑能耗异常检测 一个机器学习架构,旨在使用 ASHRAE Great Energy Predictor III 数据集识别商业建筑中的异常能耗模式。 由于工业能耗数据通常缺乏“故障”的真实标签,本项目引入了一种自定义的**合成异常注入协议**,以使用监督指标(召回率/精确率)验证无监督模型。 ## 项目概述 建筑运营占全球能源消耗的巨大比例。故障的 HVAC 系统、损坏的传感器或低效的调度常常数月未被察觉,导致巨大的财务和环境浪费。 本项目构建了一个模块化、内存优化的数据管道,能够处理数百万行遥测数据,进行热力学特征工程,并在程序化基准测试中对比两种异常检测算法。 ## 系统架构 ### 1. 数据工程与内存优化 处理超过 2000 万行的 ASHRAE 数据集需要激进的内存管理和向量化清洗。 * **动态下采样:** 算法评估数值列,将 64 位浮点数/整数压缩为 8 位、16 位或 32 位类型,将 RAM 开销降低 50% 以上。 * **关系对齐:** 将 UTC 天气时间戳偏移以匹配本地站点时间,并修正隐藏的 kBTU 到 kWh 单位差异。 * **算法故障移除:** 利用向量化操作(`shift()` 和 `cumsum()`)识别并丢弃“死传感器”(连续 48 小时以上读数为 `0.0`)。 * **热力学特征:** 基于 18°C 基准构建上下文指示器,包括制热度时数(HDH)和制冷度时数(CDH)。 ### 2. 机器学习与合成验证 为解决缺乏真实标签的问题,构建了一个程序化测试平台。 * **合成注入:** 对数据的一个控制子集施加 3 倍至 5 倍的增幅,数学上注入可验证的故障,同时安全地强制执行数据类型转换。 * **超参数网格搜索:** 自动调节 `contamination` 阈值,以在精确率与召回率之间进行权衡(防止“狼来了”式的过度报警问题)。 * **竞争基准测试:** 优化的管道运行局部密度算法(局部异常因子)与全局决策树算法(孤立森林)进行对比。 ### 3. 交互式诊断仪表板 使用 **Streamlit** 构建的前端 UI,允许设施管理人员交互式地调整模型超参数并可视化算法对真实世界异常的检测。 ## 关键发现与结果 项目的基准测试证明,在能耗分析中必须考虑全局热力学差异。 当限制在局部邻域密度(n_neighbors = 10 到 50)时,**局部异常因子(LOF)** 表现严重不足,仅达到约 **39% 的检测率**。它难以区分合成增幅与正常、密集的季节性使用簇。 相比之下,**孤立森林** 成功映射了建筑年度生命周期的全局时间差异,在合成异常上实现了 **87% 的检测率**,并成功隔离了约 280 小时历史数据中真实、未被记录的故障。 ## 如何运行本项目 ### 前置条件 * Python 3.8+ * pandas, numpy, scikit-learn, matplotlib, streamlit ### 安装 1. 克隆仓库: git clone [https://github.com/hadaperdida/Building-Energy-Anomaly-Detection.git](https://github.com/hadaperdida/Building-Energy-Anomaly-Detection.git) cd Building-Energy-Anomaly-Detection 2. 安装依赖: pip install pandas numpy scikit-learn matplotlib streamlit ### 执行 运行交互式 Streamlit 仪表板: ``` streamlit run app.py ``` 注意:由于体积限制,原始 ASHRAE 数据集未包含在本仓库中。该仓库使用了第一阶段和第二阶段管道生成的序列化优化数据结构(.pkl 文件)。
标签:Apex, ASHRAE, CDH, Great Energy Predictor III, HDH, IoT, Kubernetes, Mutation, Streamlit, 交互式仪表盘, 传感器故障检测, 关系对齐, 内存优化, 动态类型转换, 可视化, 合成异常注入, 合成数据, 向量化操作, 大数据, 工业物联网, 建筑能耗, 异常检测, 数据压缩, 数据工程, 数据清洗, 无监督学习, 时间序列, 机器学习, 热力特征, 特征工程, 目录扫描, 碳排放, 算法对比, 绿色建筑, 能源管理, 能耗异常, 节能, 行列处理, 访问控制, 逆向工具, 预测分析, 验证协议