pavangudiwada/awesome-ai-sre

GitHub: pavangudiwada/awesome-ai-sre

一个汇集了事件响应、可观测性、基础设施管理及成本优化等领域的 AI SRE 工具精选清单。

Stars: 17 | Forks: 5

![Awesome AI SRE](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/de2732cce4041013.png) 如果这个仓库有用,请考虑给它点个 :star:。 ## 工具 带有 :green_heart: 的条目表示开源项目。 跳转至:[事件响应](#incident-response) | [可观测性](#observability) | [基础设施](#infrastructure) | [成本优化](#cost-optimization) ### 事件响应 (28) | 名称 | 简介 | 部署方式 | 链接 | | --- | --- | --- | --- | | [AlertD](https://alertd.ai) | AlertD 是一位面向 AWS SRE 和 DevOps 的代理型 AI 队友,能够减少警报噪音和控制台疲劳,同时提供上下文相关的答案和自动化操作。 | SaaS | [Website](https://alertd.ai) [LinkedIn](https://www.linkedin.com/company/alertd) | | [Azure SRE Agent](https://azure.microsoft.com/products/sre-agent) | Azure 的 AI 可靠性助手,可自动化事件响应、根因分析和缓解工作流。 | SaaS | [Website](https://azure.microsoft.com/products/sre-agent) [GitHub](https://github.com/microsoft/sre-agent) [LinkedIn](https://www.linkedin.com/company/microsoft) [X](https://x.com/azure) | | [Bacca.ai](https://www.bacca.ai) | 使用 AI SRE 工具减少停机时间。自动化监控,精准定位根因,修复错误并优化站点性能。立即试用! | SaaS | [Website](https://www.bacca.ai) [LinkedIn](https://www.linkedin.com/company/bacca-ai) | | [Beeps](https://beeps.ai/) | AI 驱动的运维助手,专注于帮助团队更快地处理警报和事件工作流。 | SaaS | [Website](https://beeps.ai/) [LinkedIn](https://www.linkedin.com/company/beepsdev/) | | [BigPanda](https://www.bigpanda.io) | 面向现代 IT 运维的 AIOps 平台,用于事件关联、事件检测和响应编排。 | SaaS | [Website](https://www.bigpanda.io) [LinkedIn](https://www.linkedin.com/company/bigpanda) [X](https://x.com/bigpanda) | | [Cleric](https://cleric.ai) | Cleric 是一个自主 AI SRE,可帮助工程团队在复杂的云原生环境中快速诊断生产问题。 | SaaS | [Website](https://cleric.ai) [LinkedIn](https://www.linkedin.com/company/cleric-ai) | | [Cutover](https://www.cutover.com) | Cutover 的云托管协作自动化平台连接团队与技术,帮助您管理灾难恢复、迁移和发布。 | SaaS | [Website](https://www.cutover.com) [LinkedIn](https://www.linkedin.com/company/cutover/) [X](https://twitter.com/gocutover) | | [FireHydrant](https://firehydrant.com) | 面向现代团队的一体化事件管理软件。FireHydrant 通过智能警报、值班调度和 AI 功能,帮助您更快计划、响应和解决问题。 | SaaS | [Website](https://firehydrant.com) [LinkedIn](https://www.linkedin.com/company/firehydrant) | | [Harness Incident Response](https://www.harness.io/blog/introducing-harness-incident-response) | 大多数事件始于变更——为什么要孤立地管理它们?了解 Harness Incident Response 如何在 AI 的驱动下,将警报、变更和工作流联系起来。 | SaaS | [Website](https://www.harness.io/blog/introducing-harness-incident-response) [GitHub](https://github.com/harness) [LinkedIn](https://www.linkedin.com/company/harnessinc) [X](https://x.com/harnessio) | | [incident.io](https://incident.io) | incident.io 是一个一体化事件管理平台,统一了值班调度、实时事件响应和集成的状态页面——帮助团队解决问题。 | SaaS | [Website](https://incident.io) [LinkedIn](https://www.linkedin.com/company/incident-io) | | [IncidentFox](https://www.incidentfox.ai) | AI 事件响应平台,旨在帮助团队调查和解决运维问题。 | SaaS | [Website](https://www.incidentfox.ai) [GitHub](https://github.com/incidentfox/incidentfox) [LinkedIn](https://www.linkedin.com/company/incidentfox) | | [Lens K8s IDE](https://lenshq.io/products/lens-k8s-ide) | 用于集群操作和故障排除的 Kubernetes IDE,通过 Lens Prism 提供 AI 辅助诊断。 | Hybrid | [Website](https://lenshq.io/products/lens-k8s-ide) [GitHub](https://github.com/lensapp/lens) [LinkedIn](https://www.linkedin.com/company/k8slens) [X](https://x.com/k8slens) | | [Lightrun](https://lightrun.com) | Lightrun 的 AI SRE 负责处理警报,在开发期间通过实时运行时上下文提前预防问题,并通过经过验证的 RCA 在几分钟内解决警报。 | SaaS | [Website](https://lightrun.com) [LinkedIn](https://www.linkedin.com/company/lightruntech) | | [NeuBird AI](https://neubird.ai) | NeuBird AI 的代理型 AI SRE 提供自主事件解决功能,帮助团队将 MTTR 降低多达 90%,并夺回因故障排查而流失的工程时间。 | SaaS | [Website](https://neubird.ai) [LinkedIn](https://www.linkedin.com/company/neubird-ai) | | [NOFire AI](https://www.nofire.ai) | NOFire 处理警报,标记有风险的变更,将事件和部落知识转化为持久的可靠性记忆。 | SaaS | [Website](https://www.nofire.ai) [LinkedIn](https://www.linkedin.com/company/nofire-ai) | | [NudgeBee](https://nudgebee.ai) | 面向 SRE 和 DevOps 的 AI 助手。nudgebee 帮助您更快调试问题,优化云支出,并自动化繁琐的工作——安全且可扩展。 | SaaS | [Website](https://nudgebee.ai) [LinkedIn](https://www.linkedin.com/company/nudgebee) | | [OpsCompanion](https://opscompanion.ai) | OpsCompanion 是一个 AI 驱动的运维智能引擎,可自动化根因分析、解决警报并统一整个技术栈的可观测性。 | SaaS | [Website](https://opscompanion.ai) [LinkedIn](https://www.linkedin.com/company/opscompanion) | | [PagerDuty SRE Agent](https://www.pagerduty.com/platform/ai-agents/sre/) | 利用 PagerDuty 的 AI 优先运营平台变革关键运营。利用代理型 AI 和自动化加速工作并构建弹性。 | SaaS | [Website](https://www.pagerduty.com/platform/ai-agents/sre/) [GitHub](https://github.com/PagerDuty) [LinkedIn](https://www.linkedin.com/company/pagerduty) [X](https://x.com/pagerduty) | | [Phoebe](https://phoebe.ai) | 您软件的免疫系统。持续调查实时数据、诊断新兴问题并生成预防性修复的 AI 代理。 | SaaS | [Website](https://phoebe.ai) [LinkedIn](https://www.linkedin.com/company/phoebe-ai) | | [Resolve AI](https://resolve.ai) | Resolve AI 处理所有警报,执行根因分析,并在几分钟内排除事件故障。 | SaaS | [Website](https://resolve.ai) [LinkedIn](https://www.linkedin.com/company/resolveai) | | [RobinRelay](https://robinrelay.ai) | 适用于 Slack 的 AI 值班副驾驶,可将 MTTR 降低 75%。减少警报噪音,召回过去的事件修复方案,每年节省数千小时的工程时间。 | SaaS | [Website](https://robinrelay.ai) [LinkedIn](https://www.linkedin.com/company/robinrelay) | | [Rootly](https://rootly.com) | 一体化事件管理平台,包含 AI SRE 代理——专为快速发展的工程团队构建,以更快地检测、管理、学习和解决事件。 | SaaS | [Website](https://rootly.com) [LinkedIn](https://www.linkedin.com/company/rootlyhq) | | [Scoutflo](https://scoutflo.com) | 您的事件响应和调试 AI SRE。AI 处理警报,查找根因,并在几分钟内修复问题。 | SaaS | [Website](https://scoutflo.com) [LinkedIn](https://www.linkedin.com/company/scoutflo) | | [Sherlocks.ai](https://sherlocks.ai) | 利用 AI SRE 将 MTTR 降低 10 倍,全天候调查事件,自动化根因分析,并在停机发生前加以预防。免费试用 Sherlocks.ai。 | SaaS | [Website](https://sherlocks.ai) [LinkedIn](https://www.linkedin.com/company/sherlocks-ai) | | [TierZero AI](https://www.tierzero.ai) | TierZero 的 AI 代理调查事件、分类警报并自动修复生产问题——让您的工程师能够更快地交付。 | SaaS | [Website](https://www.tierzero.ai) [LinkedIn](https://linkedin.com/company/tierzeroai) | | [Traversal](https://traversal.com) | Traversal 消除警报噪音,揭示根因,并指导您的团队进行修复——让事件在几分钟而不是几小时内得到解决。 | SaaS | [Website](_URL_91/>) [LinkedIn](https://www.linkedin.com/company/traversal-ai/) | | [Vibranium Labs](https://vibraniumlabs.ai) | 专注于事件响应自动化和运维智能的 AI 可靠性工具公司。 | SaaS | [Website](https://vibraniumlabs.ai) [LinkedIn](https://www.linkedin.com/company/vibraniumlabs/) | | [Wild Moose](https://www.wildmoose.ai) | Wild Moose 帮助开发者更快解决生产问题,自动启动任何根因调查。由警报触发,AI Moose 自主进行。 | SaaS | [Website](https://www.wildmoose.ai) [LinkedIn](https://www.linkedin.com/company/wild-moose) |

返回顶部 ↑

### 可观测性 (14) | 名称 | 简介 | 部署方式 | 链接 | | --- | --- | --- | --- | | [Causely](https://www.causely.ai) | Causely 精准定位错误的根因,以便您在复杂的云原生环境中始终满足应用用户的可靠性期望。 | SaaS | [Website](https://www.causely.ai) [LinkedIn](https://www.linkedin.com/company/causely-ai) | | [DagKnows, Inc](https://www.dagknows.com) | 专注于改进事件诊断和可靠性工作流的 AI 运营公司。 | SaaS | [Website](https://www.dagknows.com) [LinkedIn](https://www.linkedin.com/company/dagknows-inc/) | | [Datadog (Bits AI)](https://www.datadoghq.com) | 使用 Datadog 的云监控即服务解决方案,在一个地方查看来自所有应用、工具和服务的指标。免费试用。 | SaaS | [Website](https://www.datadoghq.com) [GitHub](https://github.com/DataDog) [LinkedIn](https://www.linkedin.com/company/datadog) [X](https://x.com/datadoghq) | | [Deductive AI](https://www.deductive.ai) | Deductive AI 通过轻松理解您的整个代码库以及遥测数据,变革您的根因定位流程。 | SaaS | [Website](https://www.deductive.ai) [LinkedIn](https://www.linkedin.com/company/deductive-ai) | | [Deeptrace](https://deeptrace.com) | 利用 AI 自动化并将您的值班/调试时间缩短一半。 | SaaS | [Website](https://deeptrace.com) [LinkedIn](https://www.linkedin.com/company/deeptrace-ai/) | | [Edge Delta](https://www.edgedelta.com/) | 用于大规模处理遥测数据和加速事件调查的可观测性流水线和 AI 分析平台。 | SaaS | [Website](https://www.edgedelta.com/) [LinkedIn](https://www.linkedin.com/company/edgedelta/) | | [Elastic](https://www.elastic.co/observability) | 了解有关 Elastic Observability 的更多信息。Elastic Observability 通过开源、AI 驱动且准确的可观测性,以更低的成本更快地解决问题。 | SaaS | [Website](https://www.elastic.co/observability) [GitHub](https://github.com/elastic) [LinkedIn](https://www.linkedin.com/company/elastic-co) [X](https://x.com/elastic) | | [Logz.io](https://logz.io) | 别再追逐警报。利用 AI 驱动的可观测性抢占先机。 | SaaS | [Website](https://logz.io) [LinkedIn](https://www.linkedin.com/company/logz-io) | | [Mezmo](https://www.mezmo.com) | 将智能遥测与 AI 驱动的可观测性相结合,检测问题、精准定位根因,并支持跨日志、指标和跟踪的代理型运维。 | SaaS | [Website](https://www.mezmo.com) [LinkedIn](https://www.linkedin.com/company/mezmo) | | [Observe, Inc.](https://www.observeinc.com) | Observe 是一个构建在流式数据湖上的现代可观测性平台,以更低的成本实现更快的搜索和关联。 | SaaS | [Website](https://www.observeinc.com) [LinkedIn](https://www.linkedin.com/company/observe-inc) | | [Parity](https://www.parityinsights.com/) | 专注于通过上下文和分析改进可靠性决策的运维智能平台。 | SaaS | [Website](https://www.parityinsights.com/) [LinkedIn](https://www.linkedin.com/company/parity-insights) | | [Sentry](https://sentry.io) | 面向开发者和软件团队的应用性能监控,旨在让错误看得更清、问题解决更快、学习持续不断。从这里开始。 | SaaS | [Website](https://sentry.io) [GitHub](https://github.com/getsentry) [X](https://x.com/getsentry) | | [SIXTA](https://sixta.ai) | 面向数据库可靠性的 AI 驱动根因分析 | SaaS | [Website](https://sixta.ai) [LinkedIn](https://www.linkedin.com/in/efortune/) | | [SRE Bench](https://srebench.com/) | 用于 SRE 代理和运维 AI 可靠性工作流的评估与基准测试平台。 | SaaS | [Website](https://srebench.com/) [LinkedIn](https://www.linkedin.com/company/srebench) |

返回顶部 ↑

### 基础设施 (19) | 名称 | 简介 | 部署方式 | 链接 | | --- | --- | --- | --- | | [Agent SRE](https://agentsre.ai) | AgentSRE 专为无法承受停机的企业构建。一组 AI 代理自动化检测、根因分析和修复——实现更快的恢复、更低的云成本和弹性的运营 | Hybrid | [Website](https://agentsre.ai) | | [AutonomOps AI](https://autonomops.ai) | 应用 AI 改进 SRE 和事件管理工作流的自主运营平台。 | SaaS | [Website](https://autonomops.ai) [LinkedIn](https://www.linkedin.com/company/autonomops-ai/) | | [Ciroos](https://ciroos.ai) | Ciroos 利用 AI 驱动的自动化变革 SRE,减少琐事,早期检测异常,并加速事件调查。 | SaaS | [Website](https://ciroos.ai) [LinkedIn](https://www.linkedin.com/company/ciroos) | | [Cloudship AI](https://www.cloudshipai.com) | 专注于可靠性和运营的云与平台工程工作流 AI 平台。 | SaaS | [Website](https://www.cloudshipai.com) [LinkedIn](https://www.linkedin.com/company/cloudshipai/) | | [Cokpit](https://cokpit.ai) | Cokpit 随您的需求扩展——从初创公司到全球企业。 | SaaS | [Website](https://cokpit.ai) [LinkedIn](https://www.linkedin.com/company/cokpit-ai/) [X](https://x.com/Cokpit_ai) | | :green_heart:[HolmesGPT](https://robusta-dev.github.io/holmesgpt/) | 开源 AI SRE 代理,利用来自您的 Kubernetes 和可观测性技术栈的数据迭代调查事件。 | Hybrid | [Website](https://robusta-dev.github.io/holmesgpt/) [GitHub](https://github.com/robusta-dev/holmesgpt) [LinkedIn](https://www.linkedin.com/company/robusta-ai) [X](https://x.com/RobustaDev) | | :green_heart:[K8sGPT](https://k8sgpt.ai) | K8sGPT 是一款 AI 驱动的工具,通过智能洞察和自动故障排除帮助诊断和修复 Kubernetes 问题。 | Hybrid | [Website](https://k8sgpt.ai) [GitHub](https://github.com/k8sgpt-ai/k8sgpt) [X](https://x.com/K8sGPT) | | [Komodor](https://komodor.com) | Komodor 自动检测、调查和修复复杂问题,主动降低云成本,大幅缩短 MTTR 并消除 TicketOps。 | SaaS | [Website](https://komodor.com) [LinkedIn](https://www.linkedin.com/company/komodor) | | [Kura](https://www.usekura.com/) | 用于现代基础设施环境中的工程运营和事件响应自动化的 AI 平台。 | SaaS | [Website](https://www.usekura.com/) | | :green_heart:[Obot](https://github.com/obot-platform/obot) | 用于跨工作流创建、运行和集成自主助手的开源代理平台。 | Hybrid | [Website](https://github.com/obot-platform/obot) [GitHub](https://github.com/obot-platform/obot) | | [Ops0](https://www.ops0.com) | ops0 自动化基础设施的创建、管理和运营。将意图转化为 IaC,智能地应用更新,并在问题发生前解决——全程由 AI 驱动。 | SaaS | [Website](https://www.ops0.com) [LinkedIn](https://www.linkedin.com/company/ops0) [X](https://x.com/Ops0HQ) | | [Opsy](https://opsy.sh) | AI 驱动的可靠性运维平台,用于更快的事件响应和 SRE 工作流自动化。 | SaaS | [Website](https://opsy.sh) [GitHub](https://github.com/opsyhq/claw) | | [Rebase](https://rebase.run) | 每家公司都需要成为一家 AI 公司。Rebase 是实现这一目标的基础设施——连接您所有的系统,访问任何 LLM,并在您的整个环境中部署 AI 代理。 | SaaS | [Website](https://rebase.run) [LinkedIn](https://www.linkedin.com/company/rebase-ai/) | | [Robusta Dev](https://home.robusta.dev) | Robusta 的 AI 助手赋能团队更快地排查 Prometheus 和 Kubernetes 警报,从而降低 MTTR 并提高工程生产力。 | Multi | [Website](https://home.robusta.dev) [GitHub](https://github.com/robusta-dev/robusta) [LinkedIn](https://linkedin.com/company/robusta-dev) [X](https://x.com/RobustaDev) | | [RunLLM](https://www.runllm.com) | 面向关键任务系统的 AI SRE,提供透明的调查、有证据支持的根因分析以及持续的 Runbook 改进。 | SaaS | [Website](https://www.runllm.com) [LinkedIn](https://www.linkedin.com/company/runllm) | | [RunWhen](https://www.runwhen.com) | RunWhen 致力于利用 AI 驱动的工程助手简化复杂云系统的故障排除,这些助手能够建议运行内容。 | SaaS | [Website](https://www.runwhen.com) [LinkedIn](https://www.linkedin.com/company/runwhen) | | :green_heart:[Skyflo.ai](https://skyflo.ai) | Skyflo 是一个开源 AI 代理,用于 DevOps 和云运营。它规划、执行并验证跨 Kubernetes、CI/CD 和云平台的基础设施变更。 | Hybrid | [Website](https://skyflo.ai) [GitHub](https://github.com/skyflo-ai) [X](https://x.com/skyflo_ai) | | [SRE.ai](https://www.sre.ai) | SRE.ai 是最先进的自然语言 DevOps 平台,为大规模快速发展的组织提供自动化和软件交付支持,释放团队精力以专注于构建。 | SaaS | [Website](https://www.sre.ai) [LinkedIn](https://www.linkedin.com/company/sre-ai) | | [StarSling](https://www.starsling.dev) | 多代理自动化平台,编排用于运维、故障排除和修复的 AI 工作流。 | SaaS | [Website](https://www.starsling.dev) [LinkedIn](https://www.linkedin.com/company/starslingdev/) [X](http://x.com/starslingdev) |

返回顶部 ↑

### 成本优化 (1) | 名称 | 简介 | 部署方式 | 链接 | | --- | --- | --- | --- | | [Infrabase](https://infrabase.co) | Infrabase 扫描代码和组织上下文,在安全漏洞、成本激增和策略违规触及您的云环境之前将其揭示出来。 | SaaS | [Website](https://infrabase.co) |

返回顶部 ↑

标签:AIOps, AI SRE, API集成, AWS, Azure, C2, DevSecOps, DLL 劫持, DNS解析, DPI, IT 运维, RCA, Rust程序, SaaS, 上游代理, 可观测性, 告警降噪, 基础设施管理, 大语言模型, 子域名突变, 开源项目, 成本优化, 故障自愈, 根因分析, 监控工具, 站点可靠性工程, 绩效管理, 自动化运维, 自定义脚本