Dimi-DV/triage
GitHub: Dimi-DV/triage
一个运行在 AWS Bedrock AgentCore 上的自主事件响应 Agent,通过 MCP 协议编排可观测性工具链实现故障自动诊断与响应。
Stars: 0 | Forks: 0
# Triage
[](https://github.com/Dimi-DV/triage/actions/workflows/ci.yml)
[](https://opensource.org/licenses/MIT)
[](https://www.python.org/downloads/)
[](https://www.terraform.io/)
[](https://aws.amazon.com/bedrock/agentcore/)
## 这是什么
一个 AIOps 事件响应 Agent,用于监控 CloudWatch 警报、分析故障原因、通过四命名空间的 MCP server 调用 AWS 可观测性工具,并将结构化的诊断结果发布到 Slack。写入操作在经过 AgentCore Gateway 上确定性的 Cedar 策略以及 Slack 审批门控后执行。每一个推理步骤和工具调用都会追加到不可变的 S3 审计日志中。
该 Agent 针对 AWS Fault Injection Service 场景外加人为设定的 Terraform 错误配置所构成的故障语料库进行评估,由 AgentCore Evaluations 进行评分,并根据 MAST 分类法对失败情况进行分类(IBM Research + UC Berkeley,2026 年 2 月)。
**在架构上复刻了** Molumuri 等人在 [AWS DevOps Blog,2026 年 3 月 31 日](https://aws.amazon.com/blogs/devops/leverage-agentic-ai-for-autonomous-incident-response-with-aws-devops-agent/)发表的 AWS DevOps Agent 参考设计。
## 架构
```
CloudWatch Alarm → SNS → Lambda
↓
AgentCore Runtime ─── AgentCore Memory
↓
AgentCore Gateway ←── AgentCore Identity (OAuth 2.1)
│ Cedar policy gate
↓
Custom MCP Server (four namespaces)
├── ecs-api/*
├── logs-api/*
├── metrics-api/*
└── runbooks-api/*
↓
AWS APIs Audit → S3 Object Lock
Diagnosis → Slack
```
完整图表和组件分解:[`docs/architecture.md`](docs/architecture.md)。
包含完整架构推理的决策文档:[`docs/architecture-references/triage-decision-doc-v2.md`](docs/architecture-references/triage-decision-doc-v2.md)。
## 状态
🚧 **积极开发中。** 于 2026 年 5 月在一个为期 6 天的集中冲刺中构建。
| 组件 | 状态 |
|---|---|
| 生产 AWS 堆栈 | |
| 自定义 MCP server(四个命名空间) | |
| AgentCore Runtime + 系统提示词 | |
| Cedar 策略 + Slack 审批 | |
| 故障语料库(4 个 FIS + 4–6 个 Terraform 覆盖层) | |
| AgentCore Evaluations 测试套件 | |
| MAST 故障模式标注 | |
| 桩子 Agent(A2A) | |
## 评估结果
| 场景 | 评估器分数 | MAST 模式(如果失败) | 通过/失败 |
|---|---|---|---|
| | | | |
## 快速开始
### 前置条件
- 在 `us-east-1` 拥有 Bedrock 模型访问权限(Claude Sonnet 4.6, Opus 4.7, Nova Pro)的 AWS 账户
- Python 3.12+(通过 `uv` 管理)
- Terraform 1.14+
- `uv`(Python 包管理器):`curl -LsSf https://astral.sh/uv/install.sh | sh`
### 设置
```
git clone https://github.com/Dimi-DV/triage.git
cd triage
# Python 环境 (uv 负责 Python 安装, venv, deps)
uv sync --all-extras
# Pre-commit 钩子
uv run pre-commit install
# 验证
make check
```
### 部署生产堆栈
```
make plan # terraform plan against terraform/stack/
make apply # terraform apply (requires fresh plan; gated by hook)
```
### 运行评估套件
```
make eval # full corpus
make eval-scenario SCENARIO=az-slowdown # single scenario
```
### 完成后销毁(这是真实的基础设施,会产生费用)
```
make destroy
```
## 成本
生产堆栈的预估每月成本:**$150–200/月**(多可用区 NAT,多可用区 RDS,ALB,WAF,AgentCore 会话秒数计费)。详细明细请参见 `docs/architecture.md`。
故障实验每次 FIS 操作仅需几分钱。已配置停止条件以中止失控的实验。
## 项目布局
导览请参见 [`docs/architecture.md`](docs/architecture.md)。快速映射:
- `src/triage/` — Python 代码(MCP server,Agent 配置,共享实用工具)
- `terraform/stack/` — 生产 AWS 基础设施
- `terraform/overlays/` — 故障场景(错误配置覆盖层)
- `cedar-policies/` — AgentCore Gateway 的 Cedar 策略文件
- `fis-templates/` — AWS FIS 实验模板
- `runbooks/` — 运维流程(由 `runbooks-api` 解析)
- `evals/` — AgentCore Evaluations 真实场景
- `docs/` — 架构文档,ADR,决策参考
## 文档
- **架构:** [`docs/architecture.md`](docs/architecture.md)
- **决策文档(完整推理):** [`docs/architecture-references/triage-decision-doc-v2.md`](docs/architecture-references/triage-decision-doc-v2.md)
- **架构决策记录:** [`docs/adr/`](docs/adr/)
- **参考笔记**(AgentCore, MAST, FIS, MCP 等):[`docs/architecture-references/`](docs/architecture-references/)
## 致谢
- AWS DevOps Agent 参考架构:Molumuri, Fine, Alioto, Qureshi(AWS DevOps Blog,2026 年 3 月 31 日)
- MAST 故障模式分类法:IBM Research + UC Berkeley(Hugging Face,2026 年 2 月 18 日)
- AgentCore Evaluations 方法论:AWS News Blog(2026 年 3 月 31 日)
- ITBench, AIOpsLab, STRATUS — AIOps Agent 性能比较的评估基线
## 许可证
[MIT](LICENSE)。
由 [Dimitrije](https://github.com/Dimi-DV) 作为作品集项目构建,2026 年 5 月。
标签:ABAC, AgentCore, AIOps, API集成, AWS, AWS Bedrock, AWS Fault Injection Service, Cedar策略, CloudWatch, DPI, EC2, ECS, ECS, IaC, Lambda, MCP, OAuth 2.1, Python, S3审计日志, Slack集成, SNS, Terraform, Terraform, 事故响应代理, 人工智能运维, 可观测性, 基于属性的访问控制, 安全网关, 故障注入, 无后门, 模型上下文协议, 混沌工程, 漏洞探索, 策略引擎, 网络安全挑战, 自主事件响应, 自动化诊断, 运维自动化, 逆向工具