aishwaryamy/AI-Incident-Response-Agent

GitHub: aishwaryamy/AI-Incident-Response-Agent

一个基于LangGraph和RAG的生产级AI事件响应智能体,通过分析服务日志和运维手册帮助工程团队快速诊断和响应生产故障。

Stars: 0 | Forks: 0

# 🚨 AI 事件响应智能体 一个生产可用的 AI 智能体,通过使用 **LangGraph 编排 + 检索增强生成 (RAG)** 分析服务日志和运维手册文档,帮助工程团队调查和响应生产事件。 ## 🌟 为什么会有这个项目 在事件发生期间,工程师需要花费宝贵的时间搜索日志、仪表盘和运维手册来了解出了什么问题。 该系统充当**用于事件响应的 AI 副驾驶**,有助于减少诊断时间并提高故障排除的准确性。 该智能体可以: • 分析服务日志和错误追踪 • 检索相关的运维手册文档 • 建议可能的根本原因 • 推荐下一步的调试步骤 • 在会话间保持对话记忆 ## 🏗️ 架构概览 高级别工作流程: 用户查询或日志 ➡️ LangGraph 编排 ➡️ RAG 管道从 pgvector 检索相关日志和运维手册 ➡️ 结合工具和记忆的 LLM 推理 ➡️ 结构化的事件响应 核心技术栈: • **FastAPI** 用于异步 API 后端 • **LangGraph** 用于智能体编排 • **PostgreSQL + pgvector** 用于向量搜索 • **OpenAI 模型** 用于推理和嵌入 • **Prometheus + Grafana** 用于监控 • **Docker** 用于容器化 • **AWS 就绪部署** ## 🤖 主要特性 ### 🔎 事件调查智能体 • 上传日志或粘贴事件详情 • 跨运维手册和历史事件进行语义搜索 • 根本原因分析建议 • 推荐的调试步骤 • 每个用户的对话记忆 ### 🧠 检索增强生成管道 本项目使用完整的 RAG 管道将响应建立在真实的工程知识之上。 • 日志摄取和分块管道 • 运维手册的文档摄取管道 • 使用 OpenAI 模型生成嵌入 • 使用 PostgreSQL + pgvector 进行向量相似度搜索 • 将上下文注入到 LLM 提示词中以实现基于事实的推理 ### ⚙️ 生产级后端 • FastAPI 异步 REST API • JWT 身份验证和会话管理 • 速率限制和输入验证 • 包含请求上下文的结构化日志 • 流式响应支持 ### 📊 可观测性与评估 • Prometheus 指标 + Grafana 仪表盘 • Langfuse LLM 追踪 • 自动化评估框架 • 包含成功指标的 JSON 报告 ### ⚡ 性能与可靠性 • Docker + Docker Compose 设置 • Redis 缓存支持 • LLM 调用的自动重试逻辑 • 异步数据库连接池 ## 💡 示例用例 示例查询: • “这是支付服务的日志。为什么结账会失败?” • “我们看到了反复出现的 503 错误。可能出了什么问题?” • “总结此事件并提出后续步骤建议。” 该智能体检索相关的运维手册章节,并生成结构化的故障排除指南。 ## 📂 项目结构 ``` app/ ├── api/ # REST API endpoints (auth + chat) ├── core/langgraph/ # LangGraph agent workflow & tools ├── services/ │ ├── database.py # PostgreSQL + pgvector integration │ └── llm.py # LLM + embedding service ├── prompts/ # System prompts & RAG instructions scripts/ # Log + runbook ingestion pipeline (RAG indexing) evals/ # Evaluation framework for agent accuracy prometheus/ # Metrics configuration grafana/ # Monitoring dashboards ``` ## 🚀 快速开始 ### 前置条件 • Python 3.13 • PostgreSQL • Docker + Docker Compose • OpenAI API 密钥 ### 🔧 本地设置 克隆仓库 ``` git clone https://github.com/your-username/ai-incident-response-agent.git cd ai-incident-response-agent ``` 安装依赖项 ``` uv sync ``` 创建环境文件 ``` cp .env.example .env.development ``` 添加所需变量 ``` OPENAI_API_KEY=your_key POSTGRES_HOST=localhost POSTGRES_DB=incident_agent SECRET_KEY=your_secret ``` 本地运行 ``` make dev ``` Swagger 文档可通过以下地址访问 http://localhost:8000/docs ## 🐳 使用 Docker 运行 ``` make docker-build-env ENV=development make docker-run-env ENV=development ``` 监控仪表盘 Prometheus → http://localhost:9090 Grafana → http://localhost:3000 ## 🧪 评估 运行自动化评估 ``` make eval-quick ENV=development ``` 生成的报告位于: ``` evals/reports/ ``` 指标包括成功率和响应质量。 ## 🔮 未来改进 • 云日志摄取集成 • Slack 和电子邮件告警支持 • 更大的评估数据集 • 高级多步骤智能体工作流 ## 🙌 致谢 基于生产级 FastAPI + LangGraph 模板构建,并扩展了真实的事件响应用例。
标签:AIOps, AI辅助决策, API服务, AV绕过, AWS, BurpSuite集成, DLL 劫持, Docker, DPI, FastAPI, Grafana, IT运维, LangGraph, OpenAI, pgvector, PostgreSQL, RAG, Socks5代理, SRE, 人工智能, 偏差过滤, 内存规避, 向量化搜索, 向量数据库, 大语言模型, 安全防御评估, 容器化部署, 搜索引擎查询, 故障排查, 智能副驾, 智能运维, 根因分析, 检索增强生成, 测试用例, 生产环境监控, 用户模式Hook绕过, 知识库检索, 自定义请求头, 请求拦截, 运维自动化, 逆向工具, 错误追踪