KIM3310/Aegis-Air

GitHub: KIM3310/Aegis-Air

面向隔离环境团队的本地优先事件审查引擎,可在不发送遥测数据到公共 API 的情况下探测服务、分类事件并生成结构化的根本原因分析报告。

Stars: 0 | Forks: 0

# Aegis-Air Aegis-Air 是一款面向无法将生产遥测数据发送至公共 API 的团队的本地事件审查系统。它会探测目标服务,在本地对事件进行分类,并返回结构化的 RCA,其中包含严重程度、故障归类、证据和即时行动建议。该仓库还包含用于回归测试的回放用例。 ## 产品家族 Aegis-Air 是更广泛的 `Aegis` 事件分析产品家族中的本地优先 / 离线引擎。 配套仓库: - `AegisOps`:面向 SEV1 事件的多模态 Copilot,支持基于截图和日志的事件报告及运维交接 ## 演示 / 链接 - GitHub: https://github.com/KIM3310/Aegis-Air - 在线演示: https://aegis-air.pages.dev Pages 部署在没有本地 FastAPI 引擎时使用录制的审查数据,因此无需单独部署后端,回放控制台和事件审查流程依然可用。 ## 包含内容 - 针对目标 API 的实时探测循环 - 由 Ollama 支持的叙事流进行的本地 RCA 生成 - 涵盖四个故障归类并通过 `32/32` 评分标准检查的回放用例 - 来自 `/api/incidents/report` 和 `/webhook/alert` 的结构化输出 - 本地控制台,显示严重程度、故障归类、置信度、证据、行动和回放结果 ## 架构 1. `app/main.py` - 模拟电商 API,注入了结账故障和 Prometheus 指标。 2. `aegis_engine/main.py` - FastAPI 引擎,运行实时探测循环,为前端提供服务,并暴露回放/评估端点。 3. `aegis_engine/replay_evals.py` - 回放用例、故障分类法、结构化 RCA 构建器和评分标准评分。 4. `frontend/*` - 本地运维控制台,用于实时事件审查和回放套件可视化。 5. `infrastructure/aws/*` - Terraform 草案,展示了如何将该模式部署到 AWS。 ## 回放套件 回放套件目前涵盖四个归类: - `dependency-outage` - `dependency-timeout` - `latency-saturation` - `auth-regression` 当前回放结果: - `4` 个用例 - 通过 `32/32` 项评分标准检查 - `100%` 严重程度准确率 - `100%` 故障归类准确率 - `100%` 分类法覆盖率 本地运行: ``` python scripts/run_replay_suite.py ``` 更多详情:[docs/INCIDENT_REPLAY_EVALS.md](docs/INCIDENT_REPLAY_EVALS.md) ## API 接口 - `GET /health` - `GET /api/meta` - `GET /api/chaos/trigger` - `POST /api/incidents/report` - `POST /webhook/alert` - `GET /api/replays` - `GET /api/evals/replays` `POST /api/incidents/report` 的响应示例: ``` { "status": "success", "report": { "severity": "SEV1", "failure_bucket": "dependency-outage", "summary": "checkout api is failing because a required dependency is unavailable...", "supporting_evidence": [ "Observed error rate: 42.9% across 14 probes.", "Representative failure: Database connection lost to postgres-primary during checkout commit." ], "immediate_actions": [ "Restore database connectivity or fail traffic over to a healthy dependency replica.", "Roll back recent dependency changes before widening blast radius." ] } } ``` ## 快速开始 ``` python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt -r requirements-dev.txt ``` 终端 1: ``` uvicorn app.main:app --port 8000 ``` 终端 2: ``` uvicorn aegis_engine.main:app --port 8001 ``` 然后打开: - `http://127.0.0.1:8001` ## 验证 ``` python -m compileall -q . pytest -q python scripts/run_replay_suite.py ``` ## 备注 - `chaos_engine/chaos_mesh.py` 保留为 CLI 驱动程序,现在从 `/webhook/alert` 接收真实的 `rca_report`。 - Ollama 对于叙事流是可选的。没有它,结构化报告路径仍然可以正常工作。
标签:AIOps, AI风险缓解, API监控, API集成, AV绕过, AWS, DLL 劫持, DPI, ECS, FastAPI, LLM, LLM评估, Ollama, Python, RCA, SRE, Terraform, Unmanaged PE, Webhook, 事件分析, 事故响应, 企业级安全, 偏差过滤, 力导向图, 可观测性, 回归测试, 大语言模型, 故障分类, 数据可视化, 数据隐私, 无后门, 智能运维, 本地部署, 根本原因分析, 气隙网络, 离线环境, 站点可靠性工程, 网络安全, 自动驾驶运维, 自定义请求头, 逆向工具, 配置错误, 隐私保护