milos-plavsic/ai-incident-response-copilot

GitHub: milos-plavsic/ai-incident-response-copilot

一个以运营为导向的 AI 事件响应协作者,解决日志与指标关联难、根因推断慢的问题。

Stars: 0 | Forks: 0

# 05 - AI 事件响应协作者 [![CI](https://static.pigsec.cn/wp-content/uploads/repos/2026/04/e6a9822a03134242.svg)](https://github.com/milos-plavsic/ai-incident-response-copilot/actions/workflows/ci.yml) [![Python3.11](https://img.shields.io/badge/python-3.11-blue.svg)](https://www.python.org/downloads/) 一个以运营为导向的 AI 系统,能够摄取日志和遥测数据,构建根因假设图,并提出带有置信度估计的修复步骤。 ## 快速开始 ``` make install make run make api make test ``` Docker API:`make docker-api`。 ## API - OpenAPI 文档:`http://127.0.0.1:8000/docs` - 健康检查:`GET /health` - 事件分析:`POST /v1/incidents/analyze`,请求体为 JSON 格式 `{"incident":"..."}` ## 架构 ``` flowchart LR L[Logs/metrics] --> A[Anomalies] A --> C[Correlation] C --> H[Hypotheses] H --> R[Remediation] R --> P[Postmortem] ``` ## 为何该项目脱颖而出 - 解决真实的 SRE/DevOps 痛点。 - 结合机器学习异常信号与大型语言模型推理。 - 生成结构化的事件叙述和行动计划。 ## 核心能力 - 从合成或真实追踪中摄取日志/指标。 - 时间序列异常检测与相关性聚类。 - 根因假设图构建。 - 修复建议排序并提供推理依据。 - 根据事件时间线自动生成事后总结草稿。 ## 建议技术栈 - Python 3.11+ - `pandas`、`scikit-learn`、`langgraph`、`fastapi`、`plotly` - 可选:OpenSearch/Elastic 摄取适配器 ## 架构(图) `ingest_signals -> anomaly_detector -> correlation_engine -> hypothesis_builder -> remediation_planner -> confidence_scorer -> postmortem_writer` ## 使用建议 - 从模拟故障场景开始,验证逻辑正确性。 - 引入人工事件指挥官的反馈闭环。 - 保持置信度校准可见,以建立信任。 ## 组合集添加 - 带有异常标记和决策的时间线视图。 - 前三大假设对比面板。 - 基于建议剧本的 MTTR 降低模拟。 ## 里程碑 - `v0.1`:解析并总结事件。 - `v0.2`:异常检测与假设图。 - `v0.3`:修复排序与置信度评分。 - `v1.0`:交互式仪表板与报告导出。 ## 演示场景 1. 由于下游依赖故障导致的 API 延迟尖峰。 2. 部署回归引起的数据库饱和。 3. 与缓存失效相关的间歇性认证失败。
标签:AI 事件响应, AI 运维, Apex, API, AV绕过, CI, Docker, Elasticsearch, FastAPI, LangGraph, LLM 推理, OpenAPI, Plotly, Postmortem, Python, Python 3.11, REST API, Scikit-learn, SEO, SRE, 事后分析, 修复建议, 假设图, 偏差过滤, 图构建, 多引擎聚合, 安全防御评估, 异常检测, 无后门, 日志摄取, 时间序列异常, 机器学习, 根因分析, 检索优化, 监控系统, 相关性分析, 结构化叙事, 置信度评估, 聚类分析, 行动计划, 逆向工具, 遥测数据