preethamnandyala/ai-incident-response-platform

GitHub: preethamnandyala/ai-incident-response-platform

一个模拟 Datadog + PagerDuty 工作流的生产级微服务事件响应平台,集日志监控、事件管理、AI根因分析与告警通知于一体。

Stars: 0 | Forks: 0

# AI 事件响应平台 一个用于监控应用、检测故障、创建事件并使用 AI 分析根因的生产级微服务平台。 ## 项目简介 该平台模拟了一个类似于 Datadog + PagerDuty 的真实世界事件管理系统。它从演示应用收集日志,检测严重故障,自动创建事件,发送通知,并使用 AI 提示根因。 ## 服务 | 服务 | 技术 | 职责 | |---|---|---| | API Gateway | Express.js | 统一入口,JWT 验证,路由 | | Auth Service | Express.js | 注册,登录,JWT,RBAC | | Incident Service | Spring Boot | 创建和管理事件 | | Log Service | Django | 接收和存储日志,检测关键事件 | | AI Service | FastAPI | 摘要事件,提示根因 | | Notification Service | Flask | 通过电子邮件和 webhook 发送警报 | ## 技术栈 **Frontend:** Next.js, TypeScript, Tailwind CSS **Backend:** Express, Spring Boot, Django, FastAPI, Flask **Databases:** PostgreSQL, MongoDB, Redis **Messaging:** RabbitMQ **DevOps:** Docker, GitHub Actions, GCP Cloud Run **Monitoring:** Prometheus, Grafana ## 项目结构 apps/ → 前端应用 services/ → 后端微服务 demo-apps/ → 生成监控日志的应用 packages/ → 跨服务共享代码 infra/ → Docker, Kubernetes, Terraform, 监控配置 docs/ → 架构,决策,日常日志,API 契约 ## 入门指南 文档编写中。请参阅 docs/ 目录。 ## 构建阶段 - [x] 阶段 0 — 项目设置 - [ ] 阶段 1 — Auth 服务 - [ ] 阶段 2 — API Gateway - [ ] 阶段 3 — Next.js 仪表盘 - [ ] 阶段 4 — Incident 服务 - [ ] 阶段 5 — Log 服务 - [ ] 阶段 6 — RabbitMQ 事件系统 - [ ] 阶段 7 — 演示应用 - [ ] 阶段 8 — AI 服务 - [ ] 阶段 9 — Notification 服务 - [ ] 阶段 10 — Docker - [ ] 阶段 11 — 测试 - [ ] 阶段 12 — CI/CD - [ ] 阶段 13 — 监控 - [ ] 阶段 14 — 部署 ## 作者 作为一个基于项目的学习系统而构建,旨在实践全栈工程、微服务架构、DevOps 和 AI 集成。
标签:AIOps, AI运维, API网关, AV绕过, Cloud Run, Datadog, Django, Docker, ECS, Express.js, FastAPI, Flask, GCP, GitHub Actions, Grafana, JWT, MongoDB, PagerDuty, PostgreSQL, RabbitMQ, RBAC, Redis, Ruby, Spring Boot, SRE, Tailwind CSS, Terraform, TypeScript, 事件管理, 人工智能, 偏差过滤, 子域名突变, 安全插件, 安全防御评估, 微服务架构, 搜索引擎查询, 故障监控, 智能告警, 根因分析, 测试用例, 生产级, 用户模式Hook绕过, 知识库, 网络调试, 自动化, 自动笔记, 自定义请求头, 请求拦截, 通知系统