arpikhot/Cloud-Incident--Response-AI-
GitHub: arpikhot/Cloud-Incident--Response-AI-
基于 LangGraph 多智能体架构的云事件自动化响应系统,通过监控、诊断、剧本匹配、复盘和验证五个专用智能体协作完成从异常检测到复盘报告的完整响应流程。
Stars: 0 | Forks: 0
# 多智能体事件响应系统
使用 LangGraph 多智能体 pipeline 自动化云事件响应。
## 智能体
- **监控** — 从日志和指标中检测异常
- **诊断** — 使用 LLaMA 3.1-8B 识别根本原因
- **Runbook** — 匹配修复剧本
- **复盘** — 生成结构化的事件报告
- **验证** — 使用 Qwen3-32B (LLM-as-a-Judge) 评估诊断质量
## 技术栈
Python · LangGraph · Groq API · LLaMA 3.1-8B · Qwen3-32B · python-dotenv
## 安装说明
```
git clone https://github.com/arpikhot/Cloud-Incident--Response-AI-.git
cd Cloud-Incident--Response-AI-
py -m venv venv
venv\Scripts\activate
pip install -r requirements.txt
```
添加 `.env` 文件:
```
GROQ_API_KEY=your-key-here
```
运行:
```
py main.py
```
## UI (仪表盘)
运行 Web 服务器 (本地开发):
```
python -m uvicorn web_server:app --reload --port 8000
```
打开:
`http://localhost:8000/`
可选 (简单认证):在您的环境中设置 `INCIDENT_UI_API_KEY`,并在 UI 的“API Key”字段中输入相同的值。
## Docker (生产环境)
构建:
```
docker build -t incident-response-ai .
```
运行:
```
docker run --rm -p 8000:8000 \
-e GROQ_API_KEY="your-key-here" \
-e INCIDENT_UI_API_KEY="optional-ui-key" \
incident-response-ai
```
健康检查:
`http://localhost:8000/healthz`
## 场景
CPU 过载 · 错误部署 · 级联故障 · 内存泄漏 · 网络分区
标签:AIOps, DLL 劫持, Docker, Groq API, IT运维, LangGraph, LLaMA-3, LLM-as-a-Judge, PyRIT, Python, Python-Dotenv, Qwen3, Rego, Runbook, Socks5代理, Sysdig, Uvicorn, Web看板, 内存泄漏, 复盘报告, 多智能体系统, 大语言模型, 安全监控, 安全防御评估, 容器化部署, 应用可用性, 异常检测, 微服务故障, 故障自愈, 故障诊断, 无后门, 智能运维, 根因分析, 监控告警, 级联故障, 网络分区, 网络安全, 自动化运维, 请求拦截, 运维自动化, 逆向工具, 隐私保护