Pushakar04/argus

GitHub: Pushakar04/argus

Argus 是一个基于 LangGraph 多 Agent 架构的自主 SRE 事故响应工具,通过自动拉取指标与日志、关联 runbook 分析并提出修复方案来减轻值班工程师的重复性事故处理负担。

Stars: 0 | Forks: 0

# Argus 以希腊神话中百眼巨人 Argus Panoptes 命名 —— 他是拥有百眼的守望者。 [![CI](https://github.com/Pushakar04/argus/actions/workflows/ci.yml/badge.svg)](https://github.com/Pushakar04/argus/actions/workflows/ci.yml) ![Python](https://img.shields.io/badge/Python-3.12-blue) ![LangGraph](https://img.shields.io/badge/LangGraph-0.2-purple) ## 为什么开发这个项目 值班工程师浪费了大量时间去分类处理同样五类事故: CPU 飙升、内存泄漏、队列延迟、缓存击穿、依赖超时。 Argus 就是你的第一响应者 —— 它会拉取 metrics、读取日志, 与 runbook 进行关联分析,并在你喝完咖啡之前提出修复方案。 破坏性操作始终需要人工审批。 ## 核心功能(开发中) - [ ] 带有条件边和 checkpointing 的 LangGraph `StateGraph` - [ ] 工具:`query_prometheus`、`fetch_loki_logs`、`search_runbook`、`restart_service`、`post_slack_message`、`create_incident_report` - [ ] 基于 FAISS 的 runbook 语义搜索 - [ ] 在执行任何破坏性操作前,通过 LangGraph `interrupt()` 实现 Human-in-the-loop - [ ] 多 agent 架构:Investigator → Remediator → Orchestrator - [ ] 真实的本地 observability stack(Prometheus + Grafana + Loki + 示例应用) - [ ] FastAPI 服务:`POST /api/v1/alerts`、`GET /api/v1/incidents/{id}` - [ ] 异步工具执行、tenacity 重试、超时机制 - [ ] Prompt 注入防御、工具权限模型(读取 vs 破坏性) - [ ] LangSmith tracing ## 架构 参见 [`ARCHITECTURE.md`](./ARCHITECTURE.md) 和 [`docs/adr/`](./docs/adr/)。 ## 本地设置 ``` docker compose up -d uv sync # Week 1 Day 2 添加的说明 ```
标签:AIOps, API集成, LangGraph, SRE, 偏差过滤, 可观测性, 库, 应急响应, 自定义请求头, 请求拦截, 逆向工具