Ibrahim4594/OpsGraph-A
GitHub: Ibrahim4594/OpsGraph-A
一套生产级 AIOps 参考架构,覆盖从采集、检测、关联到建议的完整事件生命周期,提供可解释证据链和人机协同审批机制。
Stars: 0 | Forks: 0
# OpsGraph — RepoPulse AIOps
[](#状态)
[](#)
[](#)
[](#)
[](docs/results-report.md)
[](LICENSE)
## 演示
```
./scripts/demo.sh
```
→ 仪表盘位于 http://localhost:3000 · API 位于 http://localhost:8000。
| | |
|---|---|
|  |  |
| **SLO 看板** — 可用性、错误预算、吞吐量、消耗率徽章 | **建议收件箱** — 带有审批门控和按类别 runbook 链接的排序建议 |
有关完整的演练,请参阅 [docs/demo/README.md](docs/demo/README.md)。
## 功能介绍
| 层级 | 模块 | 技术 | 采用 TDD? |
|---|---|---|---|
| 采集 | `repopulse.api.events` | FastAPI | ✅ |
| 检测 | `repopulse.anomaly.detector` | 修正 z-score (Iglewicz & Hoaglin, 1993) | ✅ |
| 关联 | `repopulse.correlation.engine` | 时间窗口分组 | ✅ |
| 建议 | `repopulse.recommend.engine` | 基于规则 + 证据追踪 | ✅ |
| 操作门控 | `repopulse.api.recommendations` | 待定 → 已批准/已拒绝状态机 ([ADR-004](adr/ADR-004-approval-gate-model.md)) | ✅ |
| 智能体操作 | `.github/workflows/agentic-*.yml` | 紧急停止 + 作用域限定 token ([ADR-003](adr/ADR-003-agentic-execution-model.md)) | ✅ |
| 运维 UI | `frontend/` | Next.js 15 + Tailwind 4 + Base UI toast | ✅ |
## 结果
运行 `backend/scripts/benchmark.py` 执行 4 个可重现场景得出的 KPI:
| KPI | 数值 |
|---|---|
| 运行的场景数 | 4 |
| **误报率** | **0%** |
| **MTTR** (平均, 异常→触发) | **5.0 秒** |
| MTTR (最大) | 10.0 秒 |
| 消耗率前置时间 (平均) | 0.0 秒 |
来源:[`docs/superpowers/plans/m6-evidence/benchmark.json`](docs/superpowers/plans/m6-evidence/benchmark.json)
· 方法论 + 每个场景的详细信息:[`docs/results-report.md`](docs/results-report.md)
· 重新运行命令:
```
cd backend && ./.venv/Scripts/python -m repopulse.scripts.benchmark \
--scenarios-dir ../scenarios \
--out ../docs/superpowers/plans/m6-evidence/benchmark.json
```
## 架构
```
flowchart LR
subgraph Sources
GH[GitHub events]
OL[OTel logs]
OM[OTel metrics]
end
subgraph Backend["FastAPI (M1–M5)"]
NORM[normalize] --> ORCH[orchestrator]
DET[anomaly detector] --> ORCH
ORCH --> CORR[correlate]
CORR --> REC[recommend]
REC --> APP[(approval gate)]
end
subgraph UI["Operator dashboard (M4)"]
SLO[SLO board]
INC[Incidents]
INBOX[Inbox]
HIST[Action history]
end
GH --> NORM
OL --> NORM
OM --> DET
REC --> SLO
REC --> INBOX
ORCH --> INC
APP --> HIST
```
按里程碑划分的图表:[`docs/architecture.md`](docs/architecture.md) · M3 深入解析:[`docs/aiops-core.md`](docs/aiops-core.md)。
## 工程标准
- **跨两种语言的 TDD** — 211 个后端 pytest 规范 + 53 个前端 vitest 规范(共 264 个)。
- **严格类型检查** — mypy strict, TypeScript strict。
- **反幻觉** — 每个里程碑交接中的每一项声明都有
可重新运行的命令 + 捕获的产物,保存在
[`docs/superpowers/plans/m-evidence/`](docs/superpowers/plans/)。
- **符合 WCAG 2.2 AA 标准的仪表盘** — 实时 DOM 对比度探测,键盘验证,
在使用 ARIA 之前优先使用语义化 HTML。详见 [`docs/ui-design-system.md`](docs/ui-design-system.md)。
- **每个里程碑进行代码审查** — `superpowers:code-reviewer` 子智能体
生成的报告存档于每个里程碑的证据目录中。
## 状态
| 里程碑 | 标签 | 主题 |
|---|---|---|
| M1 | `v0.1.0-m1` | 基础、OTel、`/healthz` |
| M2 | `v0.2.0-m2` | SLO 模块、采集、负载生成器 |
| M3 | `v0.3.0-m3` | AIOps 核心(检测 + 关联 + 建议) |
| M5 | `v0.4.0-m5` | GitHub 智能体工作流(只读、紧急停止) |
| M4 | `v0.5.0-m4` | 运维仪表盘 UI |
| **M6** | **`v1.0.0`** | **基准测试 + 作品集优化** |
## 设置 + 贡献
- [`docs/SETUP.md`](docs/SETUP.md) — 前置条件 + WSL/Docker 演练
- [`docs/CONTRIBUTING.md`](docs/CONTRIBUTING.md) — 工作流 + TDD 规则
- [`docs/TROUBLESHOOTING.md`](docs/TROUBLESHOOTING.md) — 常见问题
## 作者
由 **Ibrahim Samad** ([@Ibrahim4594](https://github.com/Ibrahim4594)) 制作。
采用 [MIT](LICENSE) 许可。
标签:AIOps, Apex, API开发, AV绕过, DNS解析, FastAPI, MTTR优化, Python, React, Ruby, SLO监控, SRE, Syscalls, Tailwind CSS, TypeScript, 事件聚合, 人机协同, 偏差过滤, 全栈应用, 关联分析, 可解释AI, 后端开发, 告警降噪, 安全插件, 安全规则引擎, 开源项目, 异常检测, 无后门, 智能运维, 机器学习, 模块化设计, 状态机, 用户代理, 知识库, 站点可靠性, 自动化修复, 证据追踪, 运维仪表盘, 逆向工具