ThnthrP/Development_of_Machine_Learning_Model_for_Error_Detection_of_Multivariate_Time_Series_Data
GitHub: ThnthrP/Development_of_Machine_Learning_Model_for_Error_Detection_of_Multivariate_Time_Series_Data
基于统计特征工程和 XGBoost 的多元时间序列异常检测模型,用于工业场景下的错误检测与性能评估。
Stars: 0 | Forks: 0
# 🤖 多元时间序列数据错误检测机器学习模型开发
📌 概述
本项目专注于基于真实工业数据集的多元时间序列数据异常(错误)检测机器学习模型的开发。
目标是通过结合统计特征工程和机器学习技术,并使用 XGBoost 等现代算法评估其性能,从而设计和改进检测方法。
这项工作是在 Cyber-Physical Systems (CPS) 研究小组的数据科学团队中,作为合作教育计划的一部分进行的。
## 🎯 目标
开发用于检测多元时间序列数据异常的模型
设计新的特征提取和基于条件的方法
相比现有方法,提高模型性能
应用机器学习模型(特别是 XGBoost)进行预测任务
## ✨ 核心功能
- 📊 多元时间序列数据处理
- ⚙️ 特征工程(均值、标准差、范围、MSE 等)
- 🧠 基于条件的分类设计
- 🚀 使用 XGBoost 的机器学习模型
- 📈 模型评估(准确率、混淆矩阵、MAE)
- 🔍 错误 / 异常检测系统
## 🧠 方法论
### 1️⃣ 数据准备
加载和预处理多元时间序列数据
清理和标准化数据集
生成统计特征
### 2️⃣ 特征工程
均值、标准差
均方误差 (MSE)
范围和自定义条件
使用定义的规则创建分类标签
### 3️⃣ 模型开发
使用 XGBoost 算法训练模型
应用滑动窗口 / 基于时间的分割
优化超参数
### 4️⃣ 评估
混淆矩阵
准确率
平均绝对误差 (MAE)
预测可视化
## 🏗️ 技术栈
编程语言
Python
库与工具
Pandas
NumPy
Scikit-learn
XGBoost
Matplotlib
环境
Jupyter Notebook / Python Script
## 📸 截图
### 🔐 数据集示例

### 📩 特征工程

### 🔄 数据准备

### 🏠 模型输出 (CSV 结果)

### 🏠 模型评估

### 🏠 混淆矩阵 (训练)

### 🏠 准确率 (训练)

### 🏠 保存模型 (训练)

### 🏠 混淆矩阵 (测试)

### 🏠 准确率 (测试)

## 📂 项目结构
```
time-series-anomaly-detection/
│
├── data/ # Dataset (CSV files)
├── models/ # Trained models
├── notebooks/ # Jupyter notebooks
├── utils/ # Helper functions (feature extraction, stats)
│
├── train.py # Model training script
├── predict.py # Prediction script
├── requirements.txt # Dependencies
│
└── README.md
```
## 📊 结果
所提出的 XGBoost 模型在异常检测方面取得了令人满意的性能
特征工程显著提高了预测准确率
该模型可应用于真实世界的工业数据集进行错误检测
## 🚀 未来改进
- 🔄 实时异常检测系统
- 📊 仪表板可视化(例如 Streamlit / Web App)
- 🤖 深度学习模型(用于时间序列的 LSTM、Transformer)
- ⚡ 针对大规模工业数据的优化
## 👨🎓 作者
Tanatorn Pethmunee
宋卡王子大学
## 📄 许可证
本项目仅用于教育和研究目的
标签:Apex, CPS, impacket, MSE, NoSQL, Python, Scikit-learn, XGBoost, 代码示例, 信息物理系统, 分类算法, 多元时间序列, 工业互联网, 异常检测, 故障预测, 数据分析, 数据科学, 数据预处理, 无后门, 机器学习, 模型评估, 滑动窗口, 特征工程, 监督学习, 统计特征, 资源验证, 逆向工具, 阈值设定, 预测性维护