Mag1ck/Autonomous-Incident-Response-System-with-LLM-Reasoning-Traces
GitHub: Mag1ck/Autonomous-Incident-Response-System-with-LLM-Reasoning-Traces
一个基于 LLM 推理追踪的自主事件响应实验平台,通过本地微服务仿真环境研究从故障检测、根因分析到可解释修复的自动化闭环。
Stars: 0 | Forks: 0
# 基于 LLM 推理追踪的自主事件响应系统
进行中的本地 SRE 仿真平台,用于实验自主事件检测、根因分析以及可解释的 LLM 辅助修复。
当前阶段侧重于构建逼真的微服务仿真环境,随后将加入完整的可观测性、统计异常检测、因果推断以及本地 LLM 推理。
## 当前状态
阶段 1:微服务仿真环境。
该项目目前包含一个基于 Docker Compose 的本地服务拓扑,配备 FastAPI 服务、选定服务的 PostgreSQL 支撑领域状态、Alembic 管理的迁移、网关级别的健康聚合、基础的结构化观测转发以及基于 Toxiproxy 的网络故障注入设置。
## 当前特性
- 基于 Docker Compose 的本地微服务环境
- 提供以下服务的 FastAPI:
- gateway
- order-service
- catalog-service
- inventory-service
- incident-service
- payment-service
- fraud-service
- user-service
- 内部 Docker 桥接网络,仅将 gateway 暴露给主机
- 跨下游服务的 Gateway 健康聚合
- 仿真拓扑中包含的 PostgreSQL 和 Redis
- 包含 Toxiproxy,用于受控的网络故障注入
- 用于 order、catalog 和 inventory 模式设置的 Alembic 迁移容器
- catalog 和 inventory 服务的种子数据迁移
- 针对数据库支撑服务的 Async SQLAlchemy 集成
- 订单创建和订单查询端点
- 带有库存状态补充的 Catalog 查询端点
- Gateway 为下游调用和健康探测发出的结构化观测
- 用于在内存中收集近期观测的基础 incident-service 端点
## 已实现的服务流程
### 健康聚合
```
client
-> gateway
-> catalog-service
-> fraud-service
-> inventory-service
-> order-service
-> payment-service
-> user-service
```
### 浏览商品
```
client
-> gateway
-> catalog-service
-> toxiproxy
-> inventory-service
```
### 订单 API
```
client
-> gateway
-> order-service
-> postgres
```
## 公共网关端点
- `GET /health`
- `GET /health/all-services`
- `GET /health/{service}`
- `GET /catalog/{sku}`
- `POST /orders`
- `GET /orders/{order_id}`
## 内部服务端点
Order 服务:
- `GET /health`
- `POST /orders`
- `GET /orders/{order_id}`
Catalog 服务:
- `GET /health`
- `GET /catalog/{sku}`
Inventory 服务:
- `GET /health`
- `GET /inventory/{sku}`
Incident 服务:
- `GET /health`
- `POST /observations`
- `GET /observations/recent`
Payment、fraud 和 user 服务目前公开了健康端点,并作为后续工作流阶段的占位符。
## 技术栈
当前:
- Python
- FastAPI
- Pydantic
- SQLAlchemy async
- Alembic
- PostgreSQL
- Redis
- Docker
- Docker Compose
- Toxiproxy
- httpx
计划中:
- Prometheus
- Grafana
- OpenTelemetry
- Redis Streams
- 统计异常检测
- 因果推断 / 根因分析
- 基于 Ollama 的本地 LLM 推理
- ChromaDB 支持的 runbook 检索
- 自动化修复工作流
- 工程师反馈循环
## 本地开发
创建本地 Compose 环境文件:
```
cd sim
cat > .env <
标签:AIOps, AI风险缓解, Alembic, API集成, AV绕过, Docker Compose, FastAPI, LLM推理, PostgreSQL, Python, Redis, SQLAlchemy, SRE, Toxiproxy, 偏差过滤, 可观测性, 因果推断, 异常检测, 微服务架构, 微服务模拟, 搜索引擎查询, 故障注入, 无后门, 本地大语言模型, 根因分析, 模块化设计, 测试用例, 混沌工程, 版权保护, 用户代理, 站点可靠性工程, 网关健康聚合, 网络故障模拟, 自动化修复, 自动驾驶运维, 自定义请求头, 解释性AI, 请求拦截, 运维自动化, 运行时操纵, 逆向工具, 配置错误