AbhishekY-GoTo/ShiftZero

GitHub: AbhishekY-GoTo/ShiftZero

一个基于 AI 的值班代理,旨在消除告警噪音并自主完成事件响应与处置。

Stars: 0 | Forks: 0

# ShiftZero - 自主值班代理 ShiftZero 是一个由 AI 驱动的值班代理,能够消除告警噪音并自主处理事件响应。 ## 架构 ``` INCOMING PAGERDUTY ALERT │ ▼ ┌─────────────────────────┐ │ LAYER 1: NOISE FILTER │ │ │ │ Is this alert needed? │ │ - Recurring false +ve? │ │ - No action ever taken?│ └──────┬──────────────────┘ │ NOISY ──────────────► Flag for PagerDuty rule removal │ (agent gets quieter over time) NOT NOISY │ ▼ ┌──────────────────────────────┐ │ LAYER 2: AUTONOMOUS TRIAGE │ │ │ │ 1. RUN TESTS │ │ Validate: is issue real? │ │ │ │ 2. INVESTIGATE │ │ Logs, metrics, traces │ │ Pinpoint root cause │ │ │ │ 3. REMEDIATE │ │ Within approved scope: │ │ • Restart service │ │ • Scale pod │ │ • Flush cache │ │ • Re-trigger pipeline │ │ • Rollback deployment │ │ │ │ 4. VERIFY │ │ Run tests again │ │ Confirm fix worked │ │ │ │ 5. CLOSE PD INCIDENT │ │ Log actions taken │ │ Post summary to Slack │ └──────┬───────────────────────┘ │ OUT OF SCOPE? │ ▼ ┌──────────────────────────────┐ │ ESCALATE TO HUMAN │ │ But with FULL REPORT: │ │ ✓ What was tested │ │ ✓ Root cause hypothesis │ │ ✓ What was tried │ │ ✓ Recommended next steps │ └──────────────────────────────┘ ``` ## 组件 - **agent.py**: 使用 Claude Agent SDK 的核心自主代理 - **webhook.py**: 用于接收 PagerDuty Webhook 的 FastAPI 服务器 - **layer1_noise.py**: 告警模式分析与噪音消除 - **layer2_remediation.py**: 调查与修复逻辑 - **tools/**: 用于基础设施访问的 MCP 工具定义 - **config/**: 安全规则与自治边界 ## 快速开始 1. 安装依赖: ``` python -m venv venv source venv/bin/activate pip install -r requirements.txt ``` 2. 配置环境: ``` cp .env.example .env # 使用您的 API 密钥编辑 .env ``` 3. 运行代理: ``` python main.py ``` 4. 配置 PagerDuty Webhook: - 指向地址:`http://your-domain:8000/webhook/pagerduty` ## 配置 请参阅 `config/safety_rules.json` 以了解自治边界和批准的操作。 ## 开发 - 基于 Agent SDK 通过 Claude Opus 4.6 构建 - 使用 MCP 服务器进行工具访问(K8s、PagerDuty、可观测性) - 使用 FastAPI 处理 Webhook - 使用 PostgreSQL 进行模式学习和事件历史记录 ## 许可证 MIT
标签:AIOps, AI 代理, API集成, MLOps, PagerDuty 集成, Slack 通知, SRE, 值班调度, 偏差过滤, 可观测性, 告警管理, 告警降噪, 子域名突变, 扩缩容, 指标监控, 无干扰值班, 智能降噪, 服务重启, 根因分析, 模块化设计, 流水线重跑, 测试用例, 测试验证, 缓存刷新, 自动化修复, 自动化运维, 逆向工具, 部署回滚