milos-plavsic/ai-incident-response-copilot

GitHub: milos-plavsic/ai-incident-response-copilot

一个以运营为导向的 AI 事件响应协作者，解决日志与指标关联难、根因推断慢的问题。

Stars: 0 | Forks: 0

# 05 - AI 事件响应协作者 [![CI](https://static.pigsec.cn/wp-content/uploads/repos/2026/04/e6a9822a03134242.svg)](https://github.com/milos-plavsic/ai-incident-response-copilot/actions/workflows/ci.yml) [![Python3.11](https://img.shields.io/badge/python-3.11-blue.svg)](https://www.python.org/downloads/) 一个以运营为导向的 AI 系统，能够摄取日志和遥测数据，构建根因假设图，并提出带有置信度估计的修复步骤。 ## 快速开始 ``` make install make run make api make test ``` Docker API：`make docker-api`。 ## API - OpenAPI 文档：`http://127.0.0.1:8000/docs` - 健康检查：`GET /health` - 事件分析：`POST /v1/incidents/analyze`，请求体为 JSON 格式 `{"incident":"..."}` ## 架构 ``` flowchart LR L[Logs/metrics] --> A[Anomalies] A --> C[Correlation] C --> H[Hypotheses] H --> R[Remediation] R --> P[Postmortem] ``` ## 为何该项目脱颖而出 - 解决真实的 SRE/DevOps 痛点。 - 结合机器学习异常信号与大型语言模型推理。 - 生成结构化的事件叙述和行动计划。 ## 核心能力 - 从合成或真实追踪中摄取日志/指标。 - 时间序列异常检测与相关性聚类。 - 根因假设图构建。 - 修复建议排序并提供推理依据。 - 根据事件时间线自动生成事后总结草稿。 ## 建议技术栈 - Python 3.11+ - `pandas`、`scikit-learn`、`langgraph`、`fastapi`、`plotly` - 可选：OpenSearch/Elastic 摄取适配器 ## 架构（图） `ingest_signals -> anomaly_detector -> correlation_engine -> hypothesis_builder -> remediation_planner -> confidence_scorer -> postmortem_writer` ## 使用建议 - 从模拟故障场景开始，验证逻辑正确性。 - 引入人工事件指挥官的反馈闭环。 - 保持置信度校准可见，以建立信任。 ## 组合集添加 - 带有异常标记和决策的时间线视图。 - 前三大假设对比面板。 - 基于建议剧本的 MTTR 降低模拟。 ## 里程碑 - `v0.1`：解析并总结事件。 - `v0.2`：异常检测与假设图。 - `v0.3`：修复排序与置信度评分。 - `v1.0`：交互式仪表板与报告导出。 ## 演示场景 1. 由于下游依赖故障导致的 API 延迟尖峰。 2. 部署回归引起的数据库饱和。 3. 与缓存失效相关的间歇性认证失败。

标签：AI 事件响应, AI 运维, Apex, API, AV绕过, CI, Docker, Elasticsearch, FastAPI, LangGraph, LLM 推理, OpenAPI, Plotly, Postmortem, Python, Python 3.11, REST API, Scikit-learn, SEO, SRE, 事后分析, 修复建议, 假设图, 偏差过滤, 图构建, 多引擎聚合, 安全防御评估, 异常检测, 无后门, 日志摄取, 时间序列异常, 机器学习, 根因分析, 检索优化, 监控系统, 相关性分析, 结构化叙事, 置信度评估, 聚类分析, 行动计划, 逆向工具, 遥测数据