milos-plavsic/ai-incident-response-copilot
GitHub: milos-plavsic/ai-incident-response-copilot
一个以运营为导向的 AI 事件响应协作者,解决日志与指标关联难、根因推断慢的问题。
Stars: 0 | Forks: 0
# 05 - AI 事件响应协作者
[](https://github.com/milos-plavsic/ai-incident-response-copilot/actions/workflows/ci.yml)
[](https://www.python.org/downloads/)
一个以运营为导向的 AI 系统,能够摄取日志和遥测数据,构建根因假设图,并提出带有置信度估计的修复步骤。
## 快速开始
```
make install
make run
make api
make test
```
Docker API:`make docker-api`。
## API
- OpenAPI 文档:`http://127.0.0.1:8000/docs`
- 健康检查:`GET /health`
- 事件分析:`POST /v1/incidents/analyze`,请求体为 JSON 格式 `{"incident":"..."}`
## 架构
```
flowchart LR
L[Logs/metrics] --> A[Anomalies]
A --> C[Correlation]
C --> H[Hypotheses]
H --> R[Remediation]
R --> P[Postmortem]
```
## 为何该项目脱颖而出
- 解决真实的 SRE/DevOps 痛点。
- 结合机器学习异常信号与大型语言模型推理。
- 生成结构化的事件叙述和行动计划。
## 核心能力
- 从合成或真实追踪中摄取日志/指标。
- 时间序列异常检测与相关性聚类。
- 根因假设图构建。
- 修复建议排序并提供推理依据。
- 根据事件时间线自动生成事后总结草稿。
## 建议技术栈
- Python 3.11+
- `pandas`、`scikit-learn`、`langgraph`、`fastapi`、`plotly`
- 可选:OpenSearch/Elastic 摄取适配器
## 架构(图)
`ingest_signals -> anomaly_detector -> correlation_engine -> hypothesis_builder -> remediation_planner -> confidence_scorer -> postmortem_writer`
## 使用建议
- 从模拟故障场景开始,验证逻辑正确性。
- 引入人工事件指挥官的反馈闭环。
- 保持置信度校准可见,以建立信任。
## 组合集添加
- 带有异常标记和决策的时间线视图。
- 前三大假设对比面板。
- 基于建议剧本的 MTTR 降低模拟。
## 里程碑
- `v0.1`:解析并总结事件。
- `v0.2`:异常检测与假设图。
- `v0.3`:修复排序与置信度评分。
- `v1.0`:交互式仪表板与报告导出。
## 演示场景
1. 由于下游依赖故障导致的 API 延迟尖峰。
2. 部署回归引起的数据库饱和。
3. 与缓存失效相关的间歇性认证失败。
标签:AI 事件响应, AI 运维, Apex, API, AV绕过, CI, Docker, Elasticsearch, FastAPI, LangGraph, LLM 推理, OpenAPI, Plotly, Postmortem, Python, Python 3.11, REST API, Scikit-learn, SEO, SRE, 事后分析, 修复建议, 假设图, 偏差过滤, 图构建, 多引擎聚合, 安全防御评估, 异常检测, 无后门, 日志摄取, 时间序列异常, 机器学习, 根因分析, 检索优化, 监控系统, 相关性分析, 结构化叙事, 置信度评估, 聚类分析, 行动计划, 逆向工具, 遥测数据