Arathy26/incident-response-pipeline

GitHub: Arathy26/incident-response-pipeline

一个基于多 AI agent 协作和 RAG 技术的自动化事件响应流水线,实现故障分级、根因诊断和告警生成的全流程自动化处理。

Stars: 0 | Forks: 0

# 事件响应 Pipeline 一个由 AI 驱动的系统,使用多个协同工作的 agent 自动处理软件事件。当服务发生故障时,系统会自动对严重程度进行分级,利用过往事件历史(RAG)诊断根本原因,起草 on-call 告警,并存储所有信息——所有这些都通过 webhook 自动触发。 ## 功能说明 当事件到达时(通过 webhook),三个 AI agent 会按顺序执行: 1. **Triage agent** — 将严重程度分为高、中或低 2. **Diagnostic agent** — 使用 RAG 从向量数据库中检索相似的历史事件,找出可能的根本原因和修复方案 3. **Notification agent** — 起草清晰的 on-call 告警信息 所有结果都会保存到 SQLite 数据库中,并实时显示在 dashboard 上。 ## 技术栈 - **LLM:** Groq (Llama 3.3),用于所有 agent 推理 - **RAG:** ChromaDB 向量数据库,结合 embeddings 实现历史事件的语义检索 - **API / Webhook:** FastAPI — 自动接收事件 - **Database:** SQLite — 存储事件、严重程度、诊断结果和告警 - **Dashboard:** Streamlit — 实时查看,包含严重程度统计、颜色编码和过滤功能 ## 运行说明 1. 安装依赖项:pip install groq chromadb fastapi uvicorn streamlit python-dotenv 2. 创建包含以下内容的 `.env` 文件:GROQ_API_KEY=your_key_here 3. 启动服务器:uvicorn main:app --reload 4. 在 http://127.0.0.1:8000/docs 发送测试事件 5. 查看 dashboard:streamlit run dashboard.py ## 架构 事件 → Webhook (FastAPI) → Triage → Diagnose (RAG) → Notify → Database (SQLite) → Dashboard (Streamlit) 这反映了类似于 PagerDuty 和 Datadog 的 AI 功能等真实 AIOps 工具的工作方式。
标签:AIOps, AV绕过, FastAPI, Kubernetes, RAG, Streamlit, 多智能体, 故障响应, 访问控制, 运维自动化, 逆向工具