Pushakar04/argus
GitHub: Pushakar04/argus
Argus 是一个基于 LangGraph 多 Agent 架构的自主 SRE 事故响应工具,通过自动拉取指标与日志、关联 runbook 分析并提出修复方案来减轻值班工程师的重复性事故处理负担。
Stars: 0 | Forks: 0
# Argus
以希腊神话中百眼巨人 Argus Panoptes 命名 —— 他是拥有百眼的守望者。
[](https://github.com/Pushakar04/argus/actions/workflows/ci.yml)


## 为什么开发这个项目
值班工程师浪费了大量时间去分类处理同样五类事故:
CPU 飙升、内存泄漏、队列延迟、缓存击穿、依赖超时。
Argus 就是你的第一响应者 —— 它会拉取 metrics、读取日志,
与 runbook 进行关联分析,并在你喝完咖啡之前提出修复方案。
破坏性操作始终需要人工审批。
## 核心功能(开发中)
- [ ] 带有条件边和 checkpointing 的 LangGraph `StateGraph`
- [ ] 工具:`query_prometheus`、`fetch_loki_logs`、`search_runbook`、`restart_service`、`post_slack_message`、`create_incident_report`
- [ ] 基于 FAISS 的 runbook 语义搜索
- [ ] 在执行任何破坏性操作前,通过 LangGraph `interrupt()` 实现 Human-in-the-loop
- [ ] 多 agent 架构:Investigator → Remediator → Orchestrator
- [ ] 真实的本地 observability stack(Prometheus + Grafana + Loki + 示例应用)
- [ ] FastAPI 服务:`POST /api/v1/alerts`、`GET /api/v1/incidents/{id}`
- [ ] 异步工具执行、tenacity 重试、超时机制
- [ ] Prompt 注入防御、工具权限模型(读取 vs 破坏性)
- [ ] LangSmith tracing
## 架构
参见 [`ARCHITECTURE.md`](./ARCHITECTURE.md) 和 [`docs/adr/`](./docs/adr/)。
## 本地设置
```
docker compose up -d
uv sync
# Week 1 Day 2 添加的说明
```
标签:AIOps, API集成, LangGraph, SRE, 偏差过滤, 可观测性, 库, 应急响应, 自定义请求头, 请求拦截, 逆向工具