AbhishekY-GoTo/ShiftZero
GitHub: AbhishekY-GoTo/ShiftZero
一个基于 AI 的值班代理,旨在消除告警噪音并自主完成事件响应与处置。
Stars: 0 | Forks: 0
# ShiftZero - 自主值班代理
ShiftZero 是一个由 AI 驱动的值班代理,能够消除告警噪音并自主处理事件响应。
## 架构
```
INCOMING PAGERDUTY ALERT
│
▼
┌─────────────────────────┐
│ LAYER 1: NOISE FILTER │
│ │
│ Is this alert needed? │
│ - Recurring false +ve? │
│ - No action ever taken?│
└──────┬──────────────────┘
│
NOISY ──────────────► Flag for PagerDuty rule removal
│ (agent gets quieter over time)
NOT NOISY
│
▼
┌──────────────────────────────┐
│ LAYER 2: AUTONOMOUS TRIAGE │
│ │
│ 1. RUN TESTS │
│ Validate: is issue real? │
│ │
│ 2. INVESTIGATE │
│ Logs, metrics, traces │
│ Pinpoint root cause │
│ │
│ 3. REMEDIATE │
│ Within approved scope: │
│ • Restart service │
│ • Scale pod │
│ • Flush cache │
│ • Re-trigger pipeline │
│ • Rollback deployment │
│ │
│ 4. VERIFY │
│ Run tests again │
│ Confirm fix worked │
│ │
│ 5. CLOSE PD INCIDENT │
│ Log actions taken │
│ Post summary to Slack │
└──────┬───────────────────────┘
│
OUT OF SCOPE?
│
▼
┌──────────────────────────────┐
│ ESCALATE TO HUMAN │
│ But with FULL REPORT: │
│ ✓ What was tested │
│ ✓ Root cause hypothesis │
│ ✓ What was tried │
│ ✓ Recommended next steps │
└──────────────────────────────┘
```
## 组件
- **agent.py**: 使用 Claude Agent SDK 的核心自主代理
- **webhook.py**: 用于接收 PagerDuty Webhook 的 FastAPI 服务器
- **layer1_noise.py**: 告警模式分析与噪音消除
- **layer2_remediation.py**: 调查与修复逻辑
- **tools/**: 用于基础设施访问的 MCP 工具定义
- **config/**: 安全规则与自治边界
## 快速开始
1. 安装依赖:
```
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
```
2. 配置环境:
```
cp .env.example .env
# 使用您的 API 密钥编辑 .env
```
3. 运行代理:
```
python main.py
```
4. 配置 PagerDuty Webhook:
- 指向地址:`http://your-domain:8000/webhook/pagerduty`
## 配置
请参阅 `config/safety_rules.json` 以了解自治边界和批准的操作。
## 开发
- 基于 Agent SDK 通过 Claude Opus 4.6 构建
- 使用 MCP 服务器进行工具访问(K8s、PagerDuty、可观测性)
- 使用 FastAPI 处理 Webhook
- 使用 PostgreSQL 进行模式学习和事件历史记录
## 许可证
MIT
标签:AIOps, AI 代理, API集成, MLOps, PagerDuty 集成, Slack 通知, SRE, 值班调度, 偏差过滤, 可观测性, 告警管理, 告警降噪, 子域名突变, 扩缩容, 指标监控, 无干扰值班, 智能降噪, 服务重启, 根因分析, 模块化设计, 流水线重跑, 测试用例, 测试验证, 缓存刷新, 自动化修复, 自动化运维, 逆向工具, 部署回滚