lootarola/ai-incident-response-challenge

GitHub: lootarola/ai-incident-response-challenge

一个基于 Go 服务和 Grafana 全栈可观测性的 AI 辅助事件响应实战工作坊,帮助参与者通过遥测数据和大模型协作的方式练习发现、定位并修复生产级故障。

Stars: 0 | Forks: 0

# AI 事件响应挑战 这是一个实践研讨会,你将使用 AI 工具和实时可观测性数据,在无需事先阅读代码的情况下,发现并修复类似生产环境的 Go 服务中的错误。 ## 运作方式 本仓库包含五个被故意植入的错误。当运行模拟脚本时,每个错误都会在 Grafana 中产生独特的信号。你的任务是: 1. 运行分配给你的模拟脚本 2. 打开 Grafana 并找到异常 3. 使用 Claude(结合 Grafana MCP)调查信号并找出根本原因 4. 在本地重现该故障 5. 应用修复并确认信号消失 你不会被告知遇到了哪个错误。遥测数据是唯一的线索。 ## 前置条件 - Docker 和 Docker Compose - `curl` 和 `bash`(用于模拟脚本) - 配置了 Grafana MCP 的 Claude(用于 AI 辅助调查) ## 设置 ``` # 克隆仓库并进入 git clone cd ai-incident-response-challenge # 复制环境文件 cp .env.example .env # 启动 full stack docker compose up --build -d # 等待约 30 秒直到所有服务状态健康,然后进行验证 curl http://localhost:8080/healthz ``` `traffic-generator` 容器会自动启动,并以低频率向每个端点发送混合请求,因此 Grafana 仪表盘永远不会是空的。你所查找的 Bug 产生的异常将表现为偏离此基线的明显偏差,而不是从零开始的突增。如需暂停它以进行干净隔离的运行: ``` docker compose stop traffic-generator # ... 运行你的脚本 ... docker compose start traffic-generator ``` Grafana 将在 **http://localhost:3000** 上可用 —— 无需登录。 预构建的仪表盘位于 **Dashboards → Incident Response — Workshop**。 ## 运行模拟 每个团队分配到一个脚本。在仓库根目录运行它: ``` bash scripts/locust.sh bash scripts/moth.sh bash scripts/aphid.sh bash scripts/slug.sh bash scripts/tick.sh ``` 如果 API 运行在其他位置,你可以覆盖 base URL: ``` BASE_URL=http://my-host:8080 bash scripts/locust.sh ``` ## 使用 Claude 进行调查 打开 Claude 并使用 Grafana MCP 将其指向你的 Grafana 实例。一个好的初始提示词: 让遥测数据引导对话。Claude 可以查询 Prometheus 指标、读取 Loki 日志并检查 Tempo 追踪 —— 根本原因在这三者中都可见。 ## 验证你的修复 应用修复后: ``` # 仅 Rebuild 并重启 API 容器 docker compose up --build -d api # 重新运行你分配的脚本 bash scripts/.sh # 在 Grafana 中确认异常信号已消失 ``` 你还可以运行测试套件,以确认没有破坏其他任何内容: ``` go test ./internal/... ``` ## 销毁环境 ``` docker compose down -v ``` `-v` 标志会移除 MongoDB 和可观测性数据卷,以便下次运行时从干净的状态开始。 ## 技术栈 | 服务 | URL | |---------|-----| | API | http://localhost:8080 | | Grafana | http://localhost:3000 | | Prometheus | http://localhost:9090 | | Loki | http://localhost:3100 | | Tempo | http://localhost:3200 | | MongoDB | localhost:27017 |
标签:AI编程助手, AI辅助事件响应, AI运维, API集成, Claude AI, Docker, Docker Compose, EVTX分析, Go语言, Grafana, Grafana MCP, Site Reliability Engineering, SRE, 事件响应挑战, 偏差过滤, 动手实践课程, 可观测性, 基于遥测的调试, 安全防御评估, 实时处理, 寻找并修复Bug, 应用安全, 开源安全演练, 无线安全, 日志审计, 本地环境复现, 根因分析, 混沌工程, 漏洞修复, 版权保护, 生产环境故障排查, 程序破解, 系统运维, 网络安全培训, 网络安全审计, 自定义请求头, 请求拦截, 黑盒调试