MichealBreedlove/Lab
GitHub: MichealBreedlove/Lab
一个四节点 AI 基础设施集群项目,集成本地 LLM 推理、SRE 自动化流水线、GitOps 备份和安全扫描功能,展示了企业级运维实践在家庭实验室的落地。
Stars: 0 | Forks: 0
# 实验室 — AI 基础设施与家庭实验室
运行 AI 推理、SRE 自动化和安全工具的多节点基础设施集群。由 OpenClaw、Ansible 和自定义 Python/Bash 自动化管理。
部分基础设施记录在 [michealbreedlove.com](https://michealbreedlove.com)。
## 架构
| 节点 | 角色 | 硬件 | 操作系统 |
|---|---|---|---|
| **Jasper** | GPU 推理,网关,开发工作站 | i9-13900K, RTX 4090, 64 GB | Windows 11 Pro |
| **Nova** | Ansible 控制器,存储,服务 | Intel N305, 32 GB DDR5 | Ubuntu (Proxmox) |
| **Mira** | 通用计算 | i7-2600K, 16 GB | Ubuntu (Proxmox) |
| **Orin** | 服务器工作负载 | 双路 Xeon E5-2667v4, 16 GB ECC | Ubuntu (Proxmox) |
**网络:** 2.5 GbE + 10 GbE 网段,OPNsense 防火墙,UniFi AP,VLAN 分段
## 本实验室展示内容
**站点可靠性工程**
SLO 评估包含错误预算、跨 5 个时间窗口的燃尽率告警、事件跟踪、自动生成的复盘报告,以及在可靠性降级时阻断高风险自动化的安全门。
**基础设施自动化**
用于配置供应和配置管理的 Ansible Playbook,systemd 服务,计划备份任务,以及使用 GitHub Actions 的 CI/CD 流水线。
**安全实践**
秘密扫描(11 种正则表达式模式),每次提交时的凭证清理,VLAN 分段,最小权限访问,以及自动化恢复验证。
**AI/ML 运维**
通过 Ollama 进行的本地 LLM 推理(RTX 4090),通过 OpenClaw 进行的多模型编排,以及跨所有节点的分布式智能体执行。
## 核心系统
| 系统 | 用途 |
|---|---|
| OpenClaw | 跨所有节点的 AI 智能体编排 |
| Ollama | 本地 LLM 推理(在 Jasper 上的 GPU 加速) |
| Proxmox | VM 和容器管理(3 节点集群) |
| Ansible | 来自 Nova 的配置管理 |
| TrueNAS | 网络存储 |
| OPNsense | 防火墙,路由,VLAN 管理 |
## 可靠性流水线
运行在 Nova 上的端到端 SRE 自动化:
1. **SLO 评估** — 跨 5 个滑动窗口的 6 个服务级别目标
2. **燃尽率告警** — 在违规之前检测预算消耗趋势
3. **事件管理** — 自动检测、跟踪和升级
4. **复盘** — 自动生成包含时间线、根因和行动项
5. **安全门** — 当错误预算耗尽时阻断自动化
6. **验收测试** — 38+ 项测试验证每个流水线组件
→ [案例研究:SRE 流水线](https://michealbreedlove.com/case-study-sre-pipeline.html)
## GitOps 与备份系统
来自所有 4 个节点的自动化每日备份,并具有 CI 强制执行:
- 每个节点每日提交经过清理的状态
- GitHub Actions CI 门禁扫描 11 种秘密模式
- 恢复验证和节点重建文档
- 自部署以来零凭证泄露
→ [案例研究:GitOps 备份](https://michealbreedlove.com/case-study-gitops-backups.html)
## 仓库结构
```
Lab/
├── docs/ # Architecture docs, runbooks
├── inventory/ # Hardware specs, IP plan, services catalog
├── nodes/ # Per-node configs and state (segregated)
│ ├── jasper/ # Windows gateway + GPU inference
│ ├── nova/ # Controller + homelab-controller system
│ ├── mira/ # Utility compute
│ └── orin/ # Server workloads
├── services/ # Cross-node service configs
├── site/ # MkDocs documentation site
├── snapshots/ # Daily/weekly infrastructure snapshots
├── tools/ # Backup and automation scripts
└── .github/ # CI workflows (secret scanning)
```
## 安全注意事项
- 所有提交在合并前通过 CI 秘密扫描
- 凭证存储在仓库之外;策略记录在 `inventory/creds_policy.md` 中
- VLAN 分段隔离 IoT、基础设施和个人设备
- 仅限 SSH 密钥认证;无基于密码的访问
- 所有面向公众的文档中的敏感值均已处理
## 文档
- [架构](ARCHITECTURE.md) — 节点角色,控制平面设计,GitHub 策略
- [运维](OPERATIONS.md) — 日常工作流,CLI 命令,制品位置
- [灾难恢复](DISASTER_RECOVERY.md) — 恢复工作流,紧急访问协议,DR 演练
- [可观测性](OBSERVABILITY.md) — Prometheus/Grafana/Loki 栈,仪表盘,告警
- [平台 API](PLATFORM_API.md) — 内部控制接口,端点,证据生成
- [路线图](ROADMAP.md) — 项目阶段和未来计划
## 链接
- [作品集](https://michealbreedlove.com)
- [AI 集群架构](https://michealbreedlove.com/ai-cluster.html)
- [证明包](https://michealbreedlove.com/proof.html)
标签:AI代理编排, AI基础设施, AI风险缓解, Ansible配置管理, GitOps, GPU计算, HTTP工具, Linux服务器, Ollama推理, OPNsense防火墙, Proxmox虚拟化, RTX 4090, SRE自动化, VLAN分段, 事件管理, 分布式系统, 响应大小分析, 基础架构即代码, 家庭实验室, 应用安全, 本地大模型, 燃烧率告警, 系统提示词, 网络安全, 网络安全审计, 自动化运维, 自定义请求头, 逆向工具, 错误预算, 隐私保护, 高可用集群