valdomirosouza/AgenticAI-2-Incident-Response-V.3

GitHub: valdomirosouza/AgenticAI-2-Incident-Response-V.3

这是一个面向运维事件响应的智能体AI副驾驶,旨在通过自主感知、推理与人工监督下的行动,降低复杂云原生系统的平均检测与恢复时间。

Stars: 0 | Forks: 0

# 事件响应智能体AI副驾驶 **硕士学位论文 — PPGCA / Unisinos** **作者:** Valdomiro de Oliveira Souza Júnior **版本:** 1.2.0(进行中) · **最后更新:** 2026-05-17 ## 问题陈述 现代分布式系统和微服务架构生成的可观测性数据——日志、指标、追踪——其体量和速度已超出人类进行及时事件响应的认知能力。 现有的AIOps解决方案可以关联和分类告警,但在需要**在动态环境中持续规划、行动和学习**的情况下则力有不逮。差距不在于*理解*事件;而在于*安全地对其采取行动*,且从一开始就内置了治理和问责机制。 **后果:** - 高MTTD——事件在告警累积期间,需数分钟或数小时才能被发现 - 高MTTR——分类手动进行、上下文丢失、运行手册过时、补救措施缓慢 - 告警疲劳随时间降低团队响应能力 - 分布式系统使得大规模下的根本原因关联超出手动能力范围 ## 解决方案 本项目设计、构建并验证了一个用于事件响应的**智能体AI副驾驶**——一个能够在复杂运维环境中进行感知、推理、行动和学习的自主系统。 ``` Alert / Anomaly │ ▼ ┌─────────────────────────────────────────┐ │ Agentic AI Copilot │ │ │ │ Perception → Reasoning → Action │ │ (logs, metrics, traces) │ │ │ │ Detection → Triage → RCA → Remediation │ └───────────┬──────────────┬──────────────┘ │ │ HOTL monitor HITL approval (human on loop) (human in loop) │ │ ▼ ▼ Dashboard Production + Alert Remediation ``` 该副驾驶**增强**人类能力——而非取代它。生产环境中的每个自主操作都需要明确的人工批准(HITL)。检测和分类在人工监督(HOTL)下自主运行,并始终提供覆盖选项。 ### 目标指标 | 指标 | 定义 | 目标 | | -------- | ----------------------------------- | ---------------------------------------------- | | **MTTD** | 平均检测时间——从发生到检测 | 相比基线降低(需定量证据) | | **MTTR** | 平均恢复时间——从检测到解决 | 相比基线降低(需定量证据) | ## 架构 该系统由八个工程领域治理: | 支柱 | 范围 | | ---------------- | ------------------------------------------------ | | **SDLC** | 端到端开发生命周期、PR/审查、发布 | | **可观测性** | 黄金信号、结构化日志、分布式追踪、仪表板 | | **DevSecOps** | SAST、DAST、OWASP LLM Top 10、SBOM、供应链 | | **伦理** | 自主性限制、审计追踪、偏见审计、价值对齐 | | **隐私** | PII脱敏、LGPD、GDPR、数据保留、匿名化 | | **工程** | ADR治理、规范驱动开发、测试工具 | | **文档** | 技术文档、发布说明 | | **领域** | 智能体AI分类法、事件生命周期、MTTD/MTTR指标 | ### 自主性模型 | 层级 | 模式 | 描述 | | ------------------ | ---------------------------- | ---------------------------------------- | | 检测与分类 | **HOTL** — 人在环 | 智能体自主行动;人工监控并可覆盖 | | 生产环境补救 | **HITL** — 人在环 | 智能体提议;人工批准后执行 | ### 系统边界 | 维度 | 范围 | | ---------------- | -------------------------------------------------- | | **用户** | SRE、值班工程师、NOC、支持、工程负责人 | | **事件类型** | 可用性、延迟、错误率、饱和度——云原生系统 | | **数据源** | 日志、指标(黄金信号)、分布式追踪、运行手册、事后分析 | | **超出范围** | 安全事件响应(SIEM/SOC)、硬件故障 | ## 合规基线 通过ADR、规范和CI门控强制执行的不可协商要求: | 标准 / 法规 | 领域 | | ---------------------------- | -------------------------------------- | | **EU AI Act**(第9、12-14条)| 人工监督、审计追踪、透明度 | | **NIST AI RMF** | AI风险治理、自主性控制 | | **GDPR**(EU 2016/679) | 数据保护、DPIA、跨境传输 | | **LGPD**(Lei 13.709/2018) | 巴西数据保护、RIPD、ANPD通知 | | **OWASP LLM Top 10** | 基于LLM组件的安全性 | | **SOC 2 Type II** | 变更管理、审计日志、访问控制 | | **ISO 27001** | 信息安全管理 | | **SLSA Level 2** | 供应链完整性、SBOM、制品溯源 | | **PCI-DSS 6.3 / 11.3** | 针对支付邻接系统的SAST/DAST | ## 成功标准 当满足以下条件时,本项目被视为成功: 1. 副驾驶可证明地降低了与基线相比的MTTD和MTTR——需要定量证据,不接受玩具示例。 2. 所有32个基础ADR在生产部署前已记录、审查并合并。 3. 所有CI门控在每次PR上通过:SAST发现零关键/高危问题,零泄露的密钥,零关键CVE。 4. 在任何发布处理真实事件数据的生产版本前,完成DPIA/RIPD并获得批准。 5. 可观测性管道在将PII摄入任何第三方系统前强制执行脱敏。 6. 对于生产环境中所有自主补救操作,HITL控制处于活动状态。 ## 仓库结构 ``` AgenticAI-2-Incident-Response-V.3/ │ ├── CLAUDE.md ← Behavioral contract for Claude Code (v1.2.0) ├── issues.md ← Implementation backlog — 24 issues across 6 phases ├── CHANGELOG.md ← Release notes (Keep a Changelog + SemVer) ├── SECURITY.md ← Vulnerability disclosure policy ├── PRIVACY.md ← Data processing notice (LGPD / GDPR) │ ├── specs/ ← 22 SDD specs across 6 domains │ ├── README.md ← Spec hierarchy and ownership │ ├── system/ ← Vision, architecture, agent design, incident lifecycle │ ├── sdlc/ ← DoD, branching, PR process, release │ ├── observability/ ← Golden Signals, logging, tracing, SLOs │ ├── security/ ← Threat model, SAST/DAST policy, secrets, supply chain │ ├── ethics/ ← Autonomy boundaries, audit trail, bias audit │ └── privacy/ ← PII inventory, data retention, DPIA/RIPD, anonymization │ ├── docs/ │ ├── adr/ │ │ └── README.md ← ADR template + index of all 32 foundational ADRs │ ├── glossary.md ← Canonical glossary (MTTD, MTTR, HITL, HOTL, …) │ └── repo-structure.md ← Full annotated directory tree │ ├── skills/ │ ├── README.md ← Enterprise shared skills (SRE, DevSecOps, Observability…) │ └── project-skills-catalog.md ← Project-specific planned skills catalog │ ├── harness/ ← Harness check YAML configs (Phase 4) ├── src/ ← Application source code (Phase 5) ├── tests/ ← Test suite (Phase 5) ├── infrastructure/ ← IaC — terraform, helm, monitoring (Phase 5) └── .github/ ├── workflows/ ← CI/CD pipelines (Phase 4) └── pull_request_template.md ← PR template (Phase 0) ``` ## 实施路线图 包含依赖关系的完整待办事项列表:[`issues.md`](./issues.md) GitHub Issues:[`github.com/…/issues`](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues) | 阶段 | 里程碑 | Issues | 状态 | | ------------------- | -------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------ | | **0 — 引导** | 仓库维护、PR模板、CHANGELOG、SECURITY、PRIVACY、术语表 | [#2](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/2) | 开放 | | **1 — ADR** | 6个领域的32个基础ADR | [#3](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/3) · [#4](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/4) · [#5](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/5) · [#6](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/6) · [#7](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/7) · [#8](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/8) | 开放 | | **2 — 规范** | 6个领域的22个SDD规范 | [#9](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/9) · [#10](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/10) · [#11](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/11) · [#12](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/12) · [#13](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/13) · [#14](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/14) | 开放 | | **3 — 技能** | 7个领域的约30个项目技能文件 | [#15](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/15) · [#16](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/16) · [#17](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/17) · [#18](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/18) · [#19](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/19) · [#20](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/20) | 开放 | | **4 — 测试工具与CI/CD** | 4个测试工具YAML + 4个GitHub Actions工作流 | [#21](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/21) · [#22](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/22) | 开放 | | **5 — 源代码** | src/、tests/、infrastructure/ 脚手架 | [#23](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/23) · [#24](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/24) · [#25](https://github.com/valdomirosouza/AgenticAI-2-Incident-Response-V.3/issues/25) | 开放 | ## 已构建内容(v1.2.0) | 制品 | 描述 | | ---------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | | `CLAUDE.md` v1.2.0 | Claude Code的行为契约:8支柱架构、SDD周期、测试工具规则、技能激活表、规范术语表、10步工作流——从91 KB拆分为30 KB | | `specs/README.md` | 规范层级结构:6个领域的22个规范文件,附有文件描述和所有权表 | | `docs/adr/README.md` | 规范的ADR模板 + 所有32个基础ADR的索引及合规驱动因素 | | `docs/repo-structure.md` | 完整的带注释目录树 | | `skills/README.md` | 12个企业级共享技能:SRE、可观测性、DevSecOps、安全设计、AI治理、SDD、SDLC治理、管理ADR、凭据、CI/CD、文档 | | `skills/project-skills-catalog.md` | 8个领域30多个计划中的项目特定技能目录 | | `issues.md` | 24个实施待办事项,分6个阶段组织,附有依赖关系图 | | GitHub Issues #2–#25 | 24个已记录的Issue,包含验收标准、交付物和交叉引用 | | GitHub Milestones | 6个里程碑(每阶段一个) | | GitHub Labels | 14个标签(`phase:`、`type:`、`priority:`) | ## 开发方法论 本项目遵循**规范驱动开发(SDD)**: ``` SPEC → REVIEW → APPROVE → IMPLEMENT → HARNESS → MERGE ``` 没有经过批准的规范,任何制品——代码、配置、文档、图表或基础设施——都不会生成。每个架构决策在成为制品之前,都会先作为ADR记录下来。 **治理文档:** [`CLAUDE.md`](./CLAUDE.md) ## 许可 学术项目 — PPGCA / Unisinos。用于研究和论文目的。
标签:AIOps, AI副驾驶, Apex, API集成, 人工智能, 人机协作, 分布式系统, 可观测性, 告警管理, 响应大小分析, 微服务架构, 性能优化, 指标监控, 故障修复, 故障检测, 智能运维, 机器学习, 根本原因分析, 检测绕过, 用户模式Hook绕过, 自主系统, 自动修复, 自动化运维, 运营智能, 追踪分析