Arathy26/incident-response-pipeline
GitHub: Arathy26/incident-response-pipeline
一个基于多 AI agent 协作和 RAG 技术的自动化事件响应流水线,实现故障分级、根因诊断和告警生成的全流程自动化处理。
Stars: 0 | Forks: 0
# 事件响应 Pipeline
一个由 AI 驱动的系统,使用多个协同工作的 agent 自动处理软件事件。当服务发生故障时,系统会自动对严重程度进行分级,利用过往事件历史(RAG)诊断根本原因,起草 on-call 告警,并存储所有信息——所有这些都通过 webhook 自动触发。
## 功能说明
当事件到达时(通过 webhook),三个 AI agent 会按顺序执行:
1. **Triage agent** — 将严重程度分为高、中或低
2. **Diagnostic agent** — 使用 RAG 从向量数据库中检索相似的历史事件,找出可能的根本原因和修复方案
3. **Notification agent** — 起草清晰的 on-call 告警信息
所有结果都会保存到 SQLite 数据库中,并实时显示在 dashboard 上。
## 技术栈
- **LLM:** Groq (Llama 3.3),用于所有 agent 推理
- **RAG:** ChromaDB 向量数据库,结合 embeddings 实现历史事件的语义检索
- **API / Webhook:** FastAPI — 自动接收事件
- **Database:** SQLite — 存储事件、严重程度、诊断结果和告警
- **Dashboard:** Streamlit — 实时查看,包含严重程度统计、颜色编码和过滤功能
## 运行说明
1. 安装依赖项:pip install groq chromadb fastapi uvicorn streamlit python-dotenv
2. 创建包含以下内容的 `.env` 文件:GROQ_API_KEY=your_key_here
3. 启动服务器:uvicorn main:app --reload
4. 在 http://127.0.0.1:8000/docs 发送测试事件
5. 查看 dashboard:streamlit run dashboard.py
## 架构
事件 → Webhook (FastAPI) → Triage → Diagnose (RAG) → Notify → Database (SQLite) → Dashboard (Streamlit)
这反映了类似于 PagerDuty 和 Datadog 的 AI 功能等真实 AIOps 工具的工作方式。
标签:AIOps, AV绕过, FastAPI, Kubernetes, RAG, Streamlit, 多智能体, 故障响应, 访问控制, 运维自动化, 逆向工具