wreggyy/incident-sentinel-skill

GitHub: wreggyy/incident-sentinel-skill

跨智能体的生产级故障响应技能,将杂散的故障证据转化为结构化的分诊、根因假设与安全修复计划。

Stars: 0 | Forks: 0

# Incident Sentinel Incident Sentinel 是一个跨智能体的故障响应技能,专为需要快速、可靠地进行生产环境故障分拣的团队而设计。 它能将嘈杂的故障证据转化为清晰且可安全执行的恢复计划。 支持的智能体: - Codex - Claude - Gemini ## 解决的问题 在故障发生期间,团队往往在分散的日志、薄弱的交接和不明确的后续行动上浪费时间。 Incident Sentinel 提供了一套可重复的响应框架,使响应人员能够以更低的风险从症状排查推进到故障缓解。 ## 你将获得 - 带有时间戳的故障时间线 - 影响范围和用户影响摘要 - 按置信度排序的根因假设 - 最小化的安全修复计划 - 回滚计划 - 验证清单 - 后续预防措施 ## 适用人群 - SRE 和值班工程师 - 平台团队 - 后端/API 团队 - 故障指挥官 ## 工作原理 1. 摄取故障证据(日志、链路追踪、部署变更、指标)。 2. 区分已确认的事实与假设。 3. 根据置信度对候选根因进行排序。 4. 制定最小化的可逆缓解方案。 5. 输出标准化的故障报告。 ## 仓库布局 - `SKILL.md`:核心技能工作流 - `skill.json`:元数据与兼容性 - `prompts/`:可复用的系统/任务提示词 - `adapters/`:特定智能体的适配器 - `templates/report.md`:最终输出格式 - `examples/`:示例输入与输出 - `scripts/validate.ps1`:包验证脚本 ## 快速开始 ``` cd "E:\Github Automation\incident-first-responder-skill" powershell -ExecutionPolicy Bypass -File ".\scripts\validate.ps1" ``` 使用以下适配器入口点: - `adapters/codex/AGENTS.md` - `adapters/claude/.claude/commands/incident-first-responder.md` - `adapters/gemini/GEMINI.md` ## 质量原则 - 不捏造证据 - 明确置信度级别 - 优先执行可逆的初始操作 - 结项前进行明确验证 ## 许可证 MIT
标签:AIOps, AI合规, Claude, Codex, CVE检测, DLL 劫持, Gemini, IT运维, Libemu, LLM Agent, On-Call, RCA, Socks5代理, SRE, 事件时间线, 修复计划, 偏差过滤, 分诊, 可靠性工程, 回滚方案, 多智能体, 大语言模型, 安全事件响应, 平台工程, 库, 应急响应, 影响范围分析, 故障排查, 智能化运维, 根因分析, 监控指标, 网络调试, 自动化, 诊断, 运维自动化, 链路追踪