valdomirosouza/AgenticAI-2-Incident-Response-V.3
GitHub: valdomirosouza/AgenticAI-2-Incident-Response-V.3
这是一个面向运维事件响应的智能体AI副驾驶,旨在通过自主感知、推理与人工监督下的行动,降低复杂云原生系统的平均检测与恢复时间。
Stars: 0 | Forks: 0
# 事件响应智能体AI副驾驶
**硕士学位论文 — PPGCA / Unisinos**
**作者:** Valdomiro de Oliveira Souza Júnior
**版本:** 1.2.0(进行中) · **最后更新:** 2026-05-17
## 问题陈述
现代分布式系统和微服务架构生成的可观测性数据——日志、指标、追踪——其体量和速度已超出人类进行及时事件响应的认知能力。
现有的AIOps解决方案可以关联和分类告警,但在需要**在动态环境中持续规划、行动和学习**的情况下则力有不逮。差距不在于*理解*事件;而在于*安全地对其采取行动*,且从一开始就内置了治理和问责机制。
**后果:**
- 高MTTD——事件在告警累积期间,需数分钟或数小时才能被发现
- 高MTTR——分类手动进行、上下文丢失、运行手册过时、补救措施缓慢
- 告警疲劳随时间降低团队响应能力
- 分布式系统使得大规模下的根本原因关联超出手动能力范围
## 解决方案
本项目设计、构建并验证了一个用于事件响应的**智能体AI副驾驶**——一个能够在复杂运维环境中进行感知、推理、行动和学习的自主系统。
```
Alert / Anomaly
│
▼
┌─────────────────────────────────────────┐
│ Agentic AI Copilot │
│ │
│ Perception → Reasoning → Action │
│ (logs, metrics, traces) │
│ │
│ Detection → Triage → RCA → Remediation │
└───────────┬──────────────┬──────────────┘
│ │
HOTL monitor HITL approval
(human on loop) (human in loop)
│ │
▼ ▼
Dashboard Production
+ Alert Remediation
```
该副驾驶**增强**人类能力——而非取代它。生产环境中的每个自主操作都需要明确的人工批准(HITL)。检测和分类在人工监督(HOTL)下自主运行,并始终提供覆盖选项。
### 目标指标
| 指标 | 定义 | 目标 |
| -------- | ----------------------------------- | ---------------------------------------------- |
| **MTTD** | 平均检测时间——从发生到检测 | 相比基线降低(需定量证据) |
| **MTTR** | 平均恢复时间——从检测到解决 | 相比基线降低(需定量证据) |
## 架构
该系统由八个工程领域治理:
| 支柱 | 范围 |
| ---------------- | ------------------------------------------------ |
| **SDLC** | 端到端开发生命周期、PR/审查、发布 |
| **可观测性** | 黄金信号、结构化日志、分布式追踪、仪表板 |
| **DevSecOps** | SAST、DAST、OWASP LLM Top 10、SBOM、供应链 |
| **伦理** | 自主性限制、审计追踪、偏见审计、价值对齐 |
| **隐私** | PII脱敏、LGPD、GDPR、数据保留、匿名化 |
| **工程** | ADR治理、规范驱动开发、测试工具 |
| **文档** | 技术文档、发布说明 |
| **领域** | 智能体AI分类法、事件生命周期、MTTD/MTTR指标 |
### 自主性模型
| 层级 | 模式 | 描述 |
| ------------------ | ---------------------------- | ---------------------------------------- |
| 检测与分类 | **HOTL** — 人在环 | 智能体自主行动;人工监控并可覆盖 |
| 生产环境补救 | **HITL** — 人在环 | 智能体提议;人工批准后执行 |
### 系统边界
| 维度 | 范围 |
| ---------------- | -------------------------------------------------- |
| **用户** | SRE、值班工程师、NOC、支持、工程负责人 |
| **事件类型** | 可用性、延迟、错误率、饱和度——云原生系统 |
| **数据源** | 日志、指标(黄金信号)、分布式追踪、运行手册、事后分析 |
| **超出范围** | 安全事件响应(SIEM/SOC)、硬件故障 |
## 合规基线
通过ADR、规范和CI门控强制执行的不可协商要求:
| 标准 / 法规 | 领域 |
| ---------------------------- | -------------------------------------- |
| **EU AI Act**(第9、12-14条)| 人工监督、审计追踪、透明度 |
| **NIST AI RMF** | AI风险治理、自主性控制 |
| **GDPR**(EU 2016/679) | 数据保护、DPIA、跨境传输 |
| **LGPD**(Lei 13.709/2018) | 巴西数据保护、RIPD、ANPD通知 |
| **OWASP LLM Top 10** | 基于LLM组件的安全性 |
| **SOC 2 Type II** | 变更管理、审计日志、访问控制 |
| **ISO 27001** | 信息安全管理 |
| **SLSA Level 2** | 供应链完整性、SBOM、制品溯源 |
| **PCI-DSS 6.3 / 11.3** | 针对支付邻接系统的SAST/DAST |
## 成功标准
当满足以下条件时,本项目被视为成功:
1. 副驾驶可证明地降低了与基线相比的MTTD和MTTR——需要定量证据,不接受玩具示例。
2. 所有32个基础ADR在生产部署前已记录、审查并合并。
3. 所有CI门控在每次PR上通过:SAST发现零关键/高危问题,零泄露的密钥,零关键CVE。
4. 在任何发布处理真实事件数据的生产版本前,完成DPIA/RIPD并获得批准。
5. 可观测性管道在将PII摄入任何第三方系统前强制执行脱敏。
6. 对于生产环境中所有自主补救操作,HITL控制处于活动状态。
## 仓库结构
```
AgenticAI-2-Incident-Response-V.3/
│
├── CLAUDE.md ← Behavioral contract for Claude Code (v1.2.0)
├── issues.md ← Implementation backlog — 24 issues across 6 phases
├── CHANGELOG.md ← Release notes (Keep a Changelog + SemVer)
├── SECURITY.md ← Vulnerability disclosure policy
├── PRIVACY.md ← Data processing notice (LGPD / GDPR)
│
├── specs/ ← 22 SDD specs across 6 domains
│ ├── README.md ← Spec hierarchy and ownership
│ ├── system/ ← Vision, architecture, agent design, incident lifecycle
│ ├── sdlc/ ← DoD, branching, PR process, release
│ ├── observability/ ← Golden Signals, logging, tracing, SLOs
│ ├── security/ ← Threat model, SAST/DAST policy, secrets, supply chain
│ ├── ethics/ ← Autonomy boundaries, audit trail, bias audit
│ └── privacy/ ← PII inventory, data retention, DPIA/RIPD, anonymization
│
├── docs/
│ ├── adr/
│ │ └── README.md ← ADR template + index of all 32 foundational ADRs
│ ├── glossary.md ← Canonical glossary (MTTD, MTTR, HITL, HOTL, …)
│ └── repo-structure.md ← Full annotated directory tree
│
├── skills/
│ ├── README.md ← Enterprise shared skills (SRE, DevSecOps, Observability…)
│ └── project-skills-catalog.md ← Project-specific planned skills catalog
│
├── harness/ ← Harness check YAML configs (Phase 4)
├── src/ ← Application source code (Phase 5)
├── tests/ ← Test suite (Phase 5)
├── infrastructure/ ← IaC — terraform, helm, monitoring (Phase 5)
└── .github/
├── workflows/ ← CI/CD pipelines (Phase 4)
└── pull_request_template.md ← PR template (Phase 0)
```
## 实施路线图
包含依赖关系的完整待办事项列表:[`issues.md`](./issues.md)
GitHub Issues:[`github.com/…/issues`](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues)
| 阶段 | 里程碑 | Issues | 状态 |
| ------------------- | -------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------ |
| **0 — 引导** | 仓库维护、PR模板、CHANGELOG、SECURITY、PRIVACY、术语表 | [#2](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/2) | 开放 |
| **1 — ADR** | 6个领域的32个基础ADR | [#3](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/3) · [#4](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/4) · [#5](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/5) · [#6](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/6) · [#7](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/7) · [#8](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/8) | 开放 |
| **2 — 规范** | 6个领域的22个SDD规范 | [#9](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/9) · [#10](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/10) · [#11](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/11) · [#12](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/12) · [#13](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/13) · [#14](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/14) | 开放 |
| **3 — 技能** | 7个领域的约30个项目技能文件 | [#15](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/15) · [#16](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/16) · [#17](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/17) · [#18](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/18) · [#19](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/19) · [#20](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/20) | 开放 |
| **4 — 测试工具与CI/CD** | 4个测试工具YAML + 4个GitHub Actions工作流 | [#21](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/21) · [#22](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/22) | 开放 |
| **5 — 源代码** | src/、tests/、infrastructure/ 脚手架 | [#23](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/23) · [#24](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/24) · [#25](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/25) | 开放 |
## 已构建内容(v1.2.0)
| 制品 | 描述 |
| ---------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `CLAUDE.md` v1.2.0 | Claude Code的行为契约:8支柱架构、SDD周期、测试工具规则、技能激活表、规范术语表、10步工作流——从91 KB拆分为30 KB |
| `specs/README.md` | 规范层级结构:6个领域的22个规范文件,附有文件描述和所有权表 |
| `docs/adr/README.md` | 规范的ADR模板 + 所有32个基础ADR的索引及合规驱动因素 |
| `docs/repo-structure.md` | 完整的带注释目录树 |
| `skills/README.md` | 12个企业级共享技能:SRE、可观测性、DevSecOps、安全设计、AI治理、SDD、SDLC治理、管理ADR、凭据、CI/CD、文档 |
| `skills/project-skills-catalog.md` | 8个领域30多个计划中的项目特定技能目录 |
| `issues.md` | 24个实施待办事项,分6个阶段组织,附有依赖关系图 |
| GitHub Issues #2–#25 | 24个已记录的Issue,包含验收标准、交付物和交叉引用 |
| GitHub Milestones | 6个里程碑(每阶段一个) |
| GitHub Labels | 14个标签(`phase:`、`type:`、`priority:`) |
## 开发方法论
本项目遵循**规范驱动开发(SDD)**:
```
SPEC → REVIEW → APPROVE → IMPLEMENT → HARNESS → MERGE
```
没有经过批准的规范,任何制品——代码、配置、文档、图表或基础设施——都不会生成。每个架构决策在成为制品之前,都会先作为ADR记录下来。
**治理文档:** [`CLAUDE.md`](./CLAUDE.md)
## 许可
学术项目 — PPGCA / Unisinos。用于研究和论文目的。
标签:AIOps, AI副驾驶, Apex, API集成, 人工智能, 人机协作, 分布式系统, 可观测性, 告警管理, 响应大小分析, 微服务架构, 性能优化, 指标监控, 故障修复, 故障检测, 智能运维, 机器学习, 根本原因分析, 检测绕过, 用户模式Hook绕过, 自主系统, 自动修复, 自动化运维, 运营智能, 追踪分析