RafiDr00/AETHELGARD

GitHub: RafiDr00/AETHELGARD

基于ReAct推理循环和RAG引擎的分布式多智能体AIOps平台,实现从异常检测到自动化修复的完整事件响应闭环。

Stars: 0 | Forks: 0

# AETHELGARD [![CI](https://static.pigsec.cn/wp-content/uploads/repos/2026/04/45a586a888122436.svg)](https://github.com/RafiDr00/AETHELGARD/actions/workflows/ci.yml) [![Tests](https://img.shields.io/badge/tests-110%20passing-brightgreen)](https://github.com/RafiDr00/AETHELGARD/actions) [![Python](https://img.shields.io/badge/python-3.12-blue)](https://www.python.org/) ## 概述 Aethelgard 是一个分布式、异步的多智能体 AIOps 平台,用于自主事件响应。它弥合了可观测性信号与有效补救措施之间的差距——不仅仅是简单的告警,它还编排专门的智能体以自主恢复系统健康。 ## 核心能力 - **Job 编排:** 基于状态机的多阶段修复生命周期跟踪(Pending → Running → Success/Fail) - **异步 Agent Pipeline:** 使用具有 ReAct 推理循环的可扩展 worker-pool 模型,非阻塞地执行领域智能体 - **基于 Redis 的持久性:** 通过带有消费者组的 Redis Streams 进行可靠的消息传递和作业状态持久化 - **RAG 引擎:** 使用 sentence-transformers (all-MiniLM-L6-v2) + FAISS IndexFlatIP 进行语义相似性搜索 - **沙箱安全:** 在执行任何补丁之前进行 AST 级别的代码分析 —— 能够捕获正则表达式无法识别的混淆 eval() 调用 - **实时仪表盘:** 使用 SSE 进行实时遥测可视化,配备精密设计的运维控制台 - **混沌弹性测试:** 原生支持混沌注入(延迟峰值、内存泄漏、数据库故障)以验证编排逻辑 ## 架构 ``` flowchart LR User([User]) --> API[FastAPI Gateway] API --> ORCH[Workflow Engine] ORCH --> COORD[Agent Coordinator] COORD --> DET[Detection Agent] COORD --> DGN[Diagnosis Agent] COORD --> RMD[Remediation Agent] COORD --> VAL[Validation Agent] COORD --> DEP[Deployment Agent] DET & DGN & RMD & VAL & DEP --> BUS[(Redis Event Bus)] DGN --> RAG[RAG Engine / FAISS] RMD --> SAND[Sandbox Executor] ``` ## Agent Pipeline 每个智能体都实现了 **ReAct 推理循环** (Thought → Action → Observation → Decide): 1. **Detection Agent** — 分析指标流,通过统计阈值识别异常 2. **Diagnosis Agent** — 基于修复知识库使用 FAISS 语义搜索进行 RAG 增强的根本原因分析 3. **Remediation Agent** — 根据诊断结果生成基础设施补丁 4. **Validation Agent** — 在任何代码执行前进行 AST 级别的安全分析 + 策略检查 5. **Deployment Agent** — 在加固的沙箱执行器中应用经过验证的补丁 ## 技术栈 | 层级 | 技术 | |---|---| | **Backend** | Python 3.12, FastAPI, asyncio | | **Agent Reasoning** | ReAct loop, RAG, sentence-transformers, FAISS | | **Event Bus** | Redis Streams (consumer groups, back-pressure) | | **可观测性** | OpenTelemetry, Prometheus metrics, structured logging | | **安全** | AST 级别代码分析,沙箱执行 | | **部署** | Docker, Render, GitHub Pages | | **测试** | pytest, 110 个通过的测试 | ## 快速开始 ``` git clone https://github.com/RafiDr00/AETHELGARD.git cd AETHELGARD docker-compose up --build -d # 打开 http://localhost:8080 ``` ## 部署 **后端:** 连接仓库 → Render 检测到 `render.yaml` → 自动部署 **前端:** 从 `main` 分支的 `ui/` 文件夹提供服务 **Redis:** Upstash 免费层 ## 限制 - 合成遥测:指标由模拟器生成,而非实时生产环境 - 单节点部署:当前的编排引擎专为单实例操作设计 - 参考实现:旨在用于架构演示,而非即拿即用的生产环境 ## 未来工作 - 通过 Prometheus/Datadog 钩子接入真实遥测数据 - 使用强化学习进行策略学习,以优化修复策略 - 通过水平可扩展的编排器节点实现分布式扩展 - 持久化向量存储:将内存中的 FAISS 迁移到 Qdrant/Weaviate,以实现跨重启的知识保留
标签:AIOps平台, API集成, AST代码分析, AV绕过, DevSecOps, DLL 劫持, FAISS, FastAPI, GitOps, LLM, PyRIT, Python, RAG引擎, ReAct循环, Redis Streams, SOAR, SSE, Unmanaged PE, 上游代理, 事件驱动架构, 人工智能, 分布式系统, 可观测性, 向量数据库, 响应大小分析, 多智能体系统, 大语言模型, 安全规则引擎, 实时仪表盘, 工作流编排, 异常检测, 异步任务队列, 故障诊断, 无后门, 智能运维, 检索增强生成, 沙箱安全, 混沌工程, 状态机, 用户代理, 用户模式Hook绕过, 网络安全, 自主事件响应, 自动修复, 自定义请求头, 计算机取证, 请求拦截, 运维自动化, 隐私保护