spoorthi01012004m/Agentic_incident_response

GitHub: spoorthi01012004m/Agentic_incident_response

基于 LangGraph 与多 Agent 架构构建的企业级运维事件调查与防幻觉根因分析平台。

Stars: 0 | Forks: 0

# AI 事件响应系统基于 LangGraph、LangChain 和 OpenAI 构建的企业级多 Agent 事件调查与根因分析平台。 # 概述 AI 事件响应系统是一个面向生产环境的后端平台，旨在利用 AI agent、取证关联、异常检测和防幻觉验证 pipeline，实现运维事件调查工作流的自动化。该系统模拟了现代 SRE（站点可靠性工程）和事件响应团队如何调查基础设施故障、关联运维证据、生成根因假设、验证 AI 生成的推理，并输出调查报告。本项目遵循以下企业级后端工程原则： * 模块化架构 * 集中式配置管理 * 工作流编排 * schema 验证 * 生产级日志 * 评估 pipeline * 运维模拟测试 * 基于证据的推理 # 核心功能 ## 多 Agent 调查工作流系统包含专门负责事件调查不同阶段的 AI agent： | Agent | 职责 | | ---------------- | ------------------------------------------ | | Triage Agent | 事件严重性评估与受影响服务检测 | | Forensics Agent | 证据关联与传播链分析 | | Hypothesis Agent | 根因假设生成 | | Verifier Agent | 幻觉检测与证据验证 | ## LangGraph 工作流编排平台使用 LangGraph 来编排： * 状态转换 * 工作流执行 * 分布式调查阶段 * AI agent 协调 * 评估生命周期 ## 基于证据的根因分析系统仅使用以下数据生成结论： * 运维日志 * 告警 * 指标 * 聊天记录 * runbook 数据这能最大限度地降低幻觉风险，并提升 RCA（根因分析）的可靠性。 ## 防幻觉验证验证 pipeline 会校验： * 缺乏依据的声明 * 无效的证据引用 * 产生幻觉的推理 * 过度自信的假设从而确保 AI 生成的运维分析更加安全可靠。 ## 时间线重构平台利用以下内容重构事件演进过程： * 异常 * 告警 * 日志 * 运维聊天信号以生成按时间顺序排列的事件时间线。 ## 企业级日志与可观测性生产级日志功能包含： * 结构化日志 * 日志轮转文件 * 集中式日志配置 * 工作流执行追踪 * 错误流分离 ## 评估框架系统使用以下指标评估调查质量： * 证据覆盖率评分 * 幻觉风险评分 * 工作流可靠性评分 * RCA 质量评分 * 时间线完整性评分 # 系统架构 ``` AI_Incident_Response_System/ │ ├── agents/ # AI investigation agents ├── config/ # Centralized configuration ├── data/ # Operational datasets ├── docs/ # Architecture documentation ├── gold/ # Golden evaluation datasets ├── graph/ # LangGraph workflow engine ├── models/ # Pydantic schemas ├── outputs/ # Generated reports ├── services/ # Business logic services ├── tests/ # Automated and simulation tests ├── tools/ # Shared operational tools ├── utils/ # Shared utilities │ ├── main.py # Workflow entrypoint ├── requirements.txt ├── .env └── README.md ``` # 工作流生命周期事件调查工作流包含以下阶段： ``` 1. Load Operational Data ↓ 2. Detect Anomalies ↓ 3. Execute Triage Agent ↓ 4. Execute Forensics Agent ↓ 5. Generate RCA Hypotheses ↓ 6. Verify AI Reasoning ↓ 7. Reconstruct Timeline ↓ 8. Evaluate Investigation Quality ↓ 9. Generate Reports ``` # 技术栈 | Technology | 用途 | | ---------- | ------------------- | | Python | 核心后端开发 | | LangGraph | 工作流编排 | | LangChain | AI agent 集成 | | OpenAI | 基于 LLM 的推理 | | Pandas | 指标分析 | | Pydantic | schema 验证 | | Pytest | 自动化测试 | # 后端开发逐步流程 ## 1. 项目初始化后端项目结构基于企业软件工程原则设计，实现了清晰的关注点分离。主要架构层： * agent * 服务 * 工具 * workflow graph * 配置层 * schema 层 * 评估层 ## 2. 工作流状态设计使用 TypedDict 实现了集中式分布式工作流状态，以支持： * 共享 agent 内存 * 工作流通信 * 事件上下文传播 * 可观测性追踪 ## 3. 运维数据加载实现了自定义文件加载器，以安全地摄取： * 告警 * 日志 * 指标 * 聊天记录 * runbook 摄取层包含： * 验证 * 异常处理 * 类型安全 * 日志记录 ## 4. 异常检测引擎构建了异常引擎来检测： * 延迟突增 * 错误率升高 * 运维性能下降模式检测器使用可配置的企业级阈值。 ## 5. AI Agent 开发创建了四个专门的 AI agent： ### Triage Agent 负责： * 严重性评估 * 受影响服务检测 * 事件分类 ### Forensics Agent 负责： * 证据关联 * 传播链分析 * 取证调查 ### Hypothesis Agent 负责： * 生成 RCA * 置信度评估 * 根因排序 ### Verifier Agent 负责： * 幻觉检测 * 证据验证 * 拒绝缺乏依据的声明 ## 6. LangGraph 工作流编排集成了 LangGraph 来： * 协调 agent * 管理执行状态 * 编排工作流转换 ## 7. 评估框架实现了评分框架以评估： * 证据质量 * 幻觉安全性 * RCA 可靠性 * 工作流性能 ## 8. 报告 Pipeline 系统生成： * 事件报告 * 评估摘要 * 补救措施项 * 运维时间线 ## 9. 测试框架实现了两层测试： ### 自动化测试基于 Pytest 的工程验证。 ### 运维模拟测试基于场景的事件模拟测试用例。 ## 10. 生产环境强化通过以下方式对后端进行了生产环境强化： * 集中式配置 * 基于环境的密钥管理 * 轮转日志 * 工作流可观测性 * schema 验证 * 结构化异常 # 安装指南 ## 1. 克隆仓库 ``` git clone cd AI_Incident_Response_System ``` ## 2. 创建虚拟环境 ### Windows ``` python -m venv venv venv\Scripts\activate ``` ### Linux / macOS ``` python3 -m venv venv source venv/bin/activate ``` ## 3. 安装依赖 ``` pip install -r requirements.txt ``` ## 4. 配置环境变量在项目根目录下创建 `.env` 文件。示例： ``` OPENAI_API_KEY=your_openai_api_key DEFAULT_MODEL=gpt-4o-mini LOG_LEVEL=INFO ``` # 运行后端 ## 执行主工作流 ``` python main.py ``` # 预期的工作流执行过程系统将会： 1. 加载运维数据集 2. 检测异常 3. 执行调查 agent 4. 验证 AI 生成的推理 5. 生成事件时间线 6. 输出评估报告 7. 保存输出结果 # 生成的输出以下文件将生成在： ``` outputs/ ``` | File | 用途 | | ----------------------- | ---------------- | | incident_report.md | 最终调查报告 | | action_items.json | 补救建议 | | evaluation_summary.json | 评估指标 | # 运行自动化测试 ## 执行完整测试套件 ``` pytest tests/ ``` ## 执行单个测试文件 ``` pytest tests/test_workflow.py ``` # 运维模拟测试本项目包含企业级的运维模拟： ``` tests/test_case_1.txt ... tests/test_case_12.txt ``` 这些模拟包括： * 延迟突增 * 数据库饱和 * 级联故障 * 幻觉检测 * 取证调查 * 分布式性能下降 # 防幻觉策略平台通过以下方式最大限度地降低幻觉风险： * 基于证据的 prompt * 验证 pipeline * 证据引用验证 * 置信度降低逻辑 * 缺乏依据的声明检测 # 日志与可观测性日志将自动生成在： ``` logs/ ``` | File | 用途 | | --------------- | ---------------- | | application.log | 工作流执行日志 | | errors.log | 错误追踪 | # 未来改进潜在的企业级扩展方向： * 实时流数据摄取 * 向量数据库集成 * 分布式工作流执行 * Kubernetes 部署 * SIEM 集成 * Slack/MS Teams 集成 * 实时可观测性仪表盘 # 作者 AI 事件响应系统企业级多 Agent 事件调查平台 # 许可证本项目仅供教育、研究和后端工程演示目的使用。

标签：LangGraph, LLM, Unmanaged PE, 人工智能, 多智能体, 根因分析, 用户模式Hook绕过, 运维, 逆向工具