efremdedwards/enterprise-sre-aiops-lab

GitHub: efremdedwards/enterprise-sre-aiops-lab

Stars: 0 | Forks: 0

# 企业级 SRE / AIOps 实验室 ## 目的 本仓库是一个个人化的企业风格网站可靠性工程实验室。目标是使用生产环境中常见的工具和工作流,实践基于 Kubernetes 的应用环境的构建、运维、监控、故障排查和自动化。 该实验室也旨在支持 SRE、云运维、DevOps、Kubernetes、可观测性、事件响应和 AI 辅助运维的实践操作。 ## 当前环境 | 组件 | 工具 / 平台 | 状态 | |---|---|---| | 虚拟化 | VirtualBox | 运行中 | | 操作系统 | Ubuntu Server | 运行中 | | Kubernetes | 1 个控制平面节点和 1 个工作节点 | 运行中 | | 容器 | Docker | 运行中 | | 版本控制 | GitHub | 进行中 | | 项目跟踪 | Jira | 进行中 | | 文档 | Confluence / Markdown | 进行中 | | AI 编程助手 | GitHub Copilot | 已安装 | ## 计划技术栈 | 领域 | 工具 / 方法 | |---|---| | 版本控制 | Git + GitHub | | 拉取请求 | GitHub Pull Requests | | 持续集成 | GitHub Actions | | 持续交付 / GitOps | Argo CD | | 基础设施即代码 | Terraform | | 应用 | Python Flask API | | 数据库 | PostgreSQL | | 监控 | Prometheus + Grafana | | 日志 | Loki + Promtail | | 数据管道 | Python ETL 脚本 | | 事件响应 | 模拟生产故障 + RCA 笔记 | | AI/SRE 助手 | 基于 Python 的 AI 事件分类工作流 | ## 实验室目标 1. 构建并运营一个基于 Kubernetes 的应用平台。 2. 使用 GitHub 分支和拉取请求进行变更控制。 3. 使用 GitHub Actions 自动化验证。 4. 使用清单文件,后期过渡到 GitOps,将工作负载部署到 Kubernetes。 5. 使用 Terraform 管理基础设施和应用配置。 6. 使用 Prometheus 和 Grafana 增强可观测性。 7. 使用 Loki 和 Promtail 增强集中式日志记录。 8. 模拟生产事件并记录根本原因分析。 9. 针对日志、告警和 Kubernetes 事件,构建一个 AI 辅助的事件分类工作流。 ## 项目工作流 工作在 Jira 中使用看板式工作流进行跟踪: ``` To Do → In Progress → Blocked → PR Open → Testing → Done ```
标签:AIOps, AI辅助运维, API集成, Argo CD, CI/CD流水线, Confluence, DevOps实践, Docker, ECS, Flask, GitHub Copilot, GitOps, Grafana, Jira, Kubernetes运维, Linux 内核安全, Loki, NIDS, OISF, PostgreSQL, Promtail, Python, SRE实验室, Terraform, 云原生计算, 可观测性, 多引擎聚合, 安全可观测性, 安全防御评估, 容器化, 故障排除, 文档管理, 无后门, 日志管理, 根因分析, 版本控制, 监控系统, 网络调试, 自动化, 虚拟化, 项目管理