wreggyy/incident-sentinel-skill
GitHub: wreggyy/incident-sentinel-skill
跨智能体的生产级故障响应技能,将杂散的故障证据转化为结构化的分诊、根因假设与安全修复计划。
Stars: 0 | Forks: 0
# Incident Sentinel
Incident Sentinel 是一个跨智能体的故障响应技能,专为需要快速、可靠地进行生产环境故障分拣的团队而设计。
它能将嘈杂的故障证据转化为清晰且可安全执行的恢复计划。
支持的智能体:
- Codex
- Claude
- Gemini
## 解决的问题
在故障发生期间,团队往往在分散的日志、薄弱的交接和不明确的后续行动上浪费时间。
Incident Sentinel 提供了一套可重复的响应框架,使响应人员能够以更低的风险从症状排查推进到故障缓解。
## 你将获得
- 带有时间戳的故障时间线
- 影响范围和用户影响摘要
- 按置信度排序的根因假设
- 最小化的安全修复计划
- 回滚计划
- 验证清单
- 后续预防措施
## 适用人群
- SRE 和值班工程师
- 平台团队
- 后端/API 团队
- 故障指挥官
## 工作原理
1. 摄取故障证据(日志、链路追踪、部署变更、指标)。
2. 区分已确认的事实与假设。
3. 根据置信度对候选根因进行排序。
4. 制定最小化的可逆缓解方案。
5. 输出标准化的故障报告。
## 仓库布局
- `SKILL.md`:核心技能工作流
- `skill.json`:元数据与兼容性
- `prompts/`:可复用的系统/任务提示词
- `adapters/`:特定智能体的适配器
- `templates/report.md`:最终输出格式
- `examples/`:示例输入与输出
- `scripts/validate.ps1`:包验证脚本
## 快速开始
```
cd "E:\Github Automation\incident-first-responder-skill"
powershell -ExecutionPolicy Bypass -File ".\scripts\validate.ps1"
```
使用以下适配器入口点:
- `adapters/codex/AGENTS.md`
- `adapters/claude/.claude/commands/incident-first-responder.md`
- `adapters/gemini/GEMINI.md`
## 质量原则
- 不捏造证据
- 明确置信度级别
- 优先执行可逆的初始操作
- 结项前进行明确验证
## 许可证
MIT
标签:AIOps, AI合规, Claude, Codex, CVE检测, DLL 劫持, Gemini, IT运维, Libemu, LLM Agent, On-Call, RCA, Socks5代理, SRE, 事件时间线, 修复计划, 偏差过滤, 分诊, 可靠性工程, 回滚方案, 多智能体, 大语言模型, 安全事件响应, 平台工程, 库, 应急响应, 影响范围分析, 故障排查, 智能化运维, 根因分析, 监控指标, 网络调试, 自动化, 诊断, 运维自动化, 链路追踪