MichealBreedlove/Lab

GitHub: MichealBreedlove/Lab

一个四节点 AI 基础设施集群项目,集成本地 LLM 推理、SRE 自动化流水线、GitOps 备份和安全扫描功能,展示了企业级运维实践在家庭实验室的落地。

Stars: 0 | Forks: 0

# 实验室 — AI 基础设施与家庭实验室 运行 AI 推理、SRE 自动化和安全工具的多节点基础设施集群。由 OpenClaw、Ansible 和自定义 Python/Bash 自动化管理。 部分基础设施记录在 [michealbreedlove.com](https://michealbreedlove.com)。 ## 架构 | 节点 | 角色 | 硬件 | 操作系统 | |---|---|---|---| | **Jasper** | GPU 推理,网关,开发工作站 | i9-13900K, RTX 4090, 64 GB | Windows 11 Pro | | **Nova** | Ansible 控制器,存储,服务 | Intel N305, 32 GB DDR5 | Ubuntu (Proxmox) | | **Mira** | 通用计算 | i7-2600K, 16 GB | Ubuntu (Proxmox) | | **Orin** | 服务器工作负载 | 双路 Xeon E5-2667v4, 16 GB ECC | Ubuntu (Proxmox) | **网络:** 2.5 GbE + 10 GbE 网段,OPNsense 防火墙,UniFi AP,VLAN 分段 ## 本实验室展示内容 **站点可靠性工程** SLO 评估包含错误预算、跨 5 个时间窗口的燃尽率告警、事件跟踪、自动生成的复盘报告,以及在可靠性降级时阻断高风险自动化的安全门。 **基础设施自动化** 用于配置供应和配置管理的 Ansible Playbook,systemd 服务,计划备份任务,以及使用 GitHub Actions 的 CI/CD 流水线。 **安全实践** 秘密扫描(11 种正则表达式模式),每次提交时的凭证清理,VLAN 分段,最小权限访问,以及自动化恢复验证。 **AI/ML 运维** 通过 Ollama 进行的本地 LLM 推理(RTX 4090),通过 OpenClaw 进行的多模型编排,以及跨所有节点的分布式智能体执行。 ## 核心系统 | 系统 | 用途 | |---|---| | OpenClaw | 跨所有节点的 AI 智能体编排 | | Ollama | 本地 LLM 推理(在 Jasper 上的 GPU 加速) | | Proxmox | VM 和容器管理(3 节点集群) | | Ansible | 来自 Nova 的配置管理 | | TrueNAS | 网络存储 | | OPNsense | 防火墙,路由,VLAN 管理 | ## 可靠性流水线 运行在 Nova 上的端到端 SRE 自动化: 1. **SLO 评估** — 跨 5 个滑动窗口的 6 个服务级别目标 2. **燃尽率告警** — 在违规之前检测预算消耗趋势 3. **事件管理** — 自动检测、跟踪和升级 4. **复盘** — 自动生成包含时间线、根因和行动项 5. **安全门** — 当错误预算耗尽时阻断自动化 6. **验收测试** — 38+ 项测试验证每个流水线组件 → [案例研究:SRE 流水线](https://michealbreedlove.com/case-study-sre-pipeline.html) ## GitOps 与备份系统 来自所有 4 个节点的自动化每日备份,并具有 CI 强制执行: - 每个节点每日提交经过清理的状态 - GitHub Actions CI 门禁扫描 11 种秘密模式 - 恢复验证和节点重建文档 - 自部署以来零凭证泄露 → [案例研究:GitOps 备份](https://michealbreedlove.com/case-study-gitops-backups.html) ## 仓库结构 ``` Lab/ ├── docs/ # Architecture docs, runbooks ├── inventory/ # Hardware specs, IP plan, services catalog ├── nodes/ # Per-node configs and state (segregated) │ ├── jasper/ # Windows gateway + GPU inference │ ├── nova/ # Controller + homelab-controller system │ ├── mira/ # Utility compute │ └── orin/ # Server workloads ├── services/ # Cross-node service configs ├── site/ # MkDocs documentation site ├── snapshots/ # Daily/weekly infrastructure snapshots ├── tools/ # Backup and automation scripts └── .github/ # CI workflows (secret scanning) ``` ## 安全注意事项 - 所有提交在合并前通过 CI 秘密扫描 - 凭证存储在仓库之外;策略记录在 `inventory/creds_policy.md` 中 - VLAN 分段隔离 IoT、基础设施和个人设备 - 仅限 SSH 密钥认证;无基于密码的访问 - 所有面向公众的文档中的敏感值均已处理 ## 文档 - [架构](ARCHITECTURE.md) — 节点角色,控制平面设计,GitHub 策略 - [运维](OPERATIONS.md) — 日常工作流,CLI 命令,制品位置 - [灾难恢复](DISASTER_RECOVERY.md) — 恢复工作流,紧急访问协议,DR 演练 - [可观测性](OBSERVABILITY.md) — Prometheus/Grafana/Loki 栈,仪表盘,告警 - [平台 API](PLATFORM_API.md) — 内部控制接口,端点,证据生成 - [路线图](ROADMAP.md) — 项目阶段和未来计划 ## 链接 - [作品集](https://michealbreedlove.com) - [AI 集群架构](https://michealbreedlove.com/ai-cluster.html) - [证明包](https://michealbreedlove.com/proof.html)
标签:AI代理编排, AI基础设施, AI风险缓解, Ansible配置管理, GitOps, GPU计算, HTTP工具, Linux服务器, Ollama推理, OPNsense防火墙, Proxmox虚拟化, RTX 4090, SRE自动化, VLAN分段, 事件管理, 分布式系统, 响应大小分析, 基础架构即代码, 家庭实验室, 应用安全, 本地大模型, 燃烧率告警, 系统提示词, 网络安全, 网络安全审计, 自动化运维, 自定义请求头, 逆向工具, 错误预算, 隐私保护, 高可用集群