Kritagya123611/FixFLow-AI
GitHub: Kritagya123611/FixFLow-AI
基于 TypeScript + Node.js 构建的自主 DevOps 事件响应系统,通过 AI 驱动的实时日志分类与自动修复流水线,实现从故障检测到解决的端到端自动化,大幅缩短平均恢复时间。
Stars: 2 | Forks: 0
# FixFlow AI
### *检测。分类。修复。循环往复。*
**自主的 DevOps 事件响应系统,在你的 PagerDuty 甚至还没唤醒你之前,就将宕机时间扼杀于摇篮中。**
[开始使用](#-getting-started) · [系统架构](#️-architecture) · [路线图](#-roadmap) · [联系方式](#-contact)
## 问题所在
你的系统在凌晨 3 点崩溃。警报响起。值班工程师被唤醒,通过 SSH 登录,查看日志,翻阅操作手册,并运行恢复脚本——而此时你的用户正在大声抱怨。这整个循环?**FixFlow 将其彻底消除。**
FixFlow AI 摄取实时日志,利用 AI 原生智能对事件进行分类,并自主触发正确的修复流水线——将 MTTR 从*分钟级*缩短至*秒级*。
## 核心功能
### 零延迟日志摄取
基于推送的 Webhook 架构意味着日志在发出的那一刻就会到达——无需轮询,没有延迟,没有任何借口。每个事件都会被捕获、加上时间戳,并实时排队等待分析。
### AI 原生事件分类
一个像资深 SRE 一样思考的三层分类引擎:
| 严重性 | 信号 | 自主操作 |
|----------|--------|-------------------|
| 🔴 **严重** | 基础设施故障、崩溃循环、数据损坏 | 紧急回滚 + 服务重启 |
| 🟡 **中等** | 性能下降、错误率升高、超时 | 警报路由 + 诊断快照 |
| 🟢 **低** | 轻微异常、一般警告、边缘情况噪音 | 记录日志 + 排队等待优化 |
### 自主修复引擎
无需操作手册。FixFlow 直接集成到你的 CI/CD 流水线中,并在诊断确认的瞬间触发预定义的恢复脚本——全程无需人工干预。
### 可观测性仪表板
一个 TypeScript 原生界面,用于跟踪:
- 随时间变化的**事件趋势**
- 每次诊断的 **AI 置信度得分**
- **修复结果**和 MTTR 历史
- 一目了然的**流水线健康状况**
## 系统架构
```
┌─────────────────────────────────────────────────────────┐
│ EXTERNAL SOURCES │
│ GitHub Actions · Sentry · Custom App Logs · APMs │
└───────────────────────┬─────────────────────────────────┘
│ Webhook Push (Real-Time)
▼
┌─────────────────────────────────────────────────────────┐
│ FIXFLOW INGESTION LAYER │
│ High-performance webhook receiver (Node.js) │
│ Non-blocking event loop · Zero dropped events │
└───────────────────────┬─────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ AI TRIAGE ENGINE (TypeScript) │
│ Classifies severity · Scores confidence · Routes │
└──────────┬──────────────────────┬────────────────────────┘
│ │
▼ ▼
┌─────────────────┐ ┌──────────────────────────────────┐
│ ALERT ROUTER │ │ REMEDIATION PIPELINE │
│ PagerDuty/Slack │ │ Rollback · Restart · Diagnose │
└─────────────────┘ └──────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ OBSERVABILITY DASHBOARD │
│ Incident trends · Confidence scores · MTTR │
└─────────────────────────────────────────────────────────┘
```
**技术栈:**
- **运行时:** Node.js v18+ 结合 TypeScript——类型安全、极速的事件循环
- **传输层:** Webhook(基于推送,而非轮询——因为轮询就是技术债)
- **处理层:** 事件驱动、非阻塞 I/O——分析过程永远不会阻塞日志摄取
- **集成:** REST API + 自定义 Hook,适配任何 DevOps 技术栈
## 开始使用
### 前置条件
- Node.js `v18+`
- 一个 Webhook 来源(GitHub Actions、Sentry、Datadog 或自定义来源)
### 安装说明
**1. 克隆仓库**
```
git clone https://github.com/yourusername/fixflow-ai.git
cd fixflow-ai
```
**2. 安装依赖**
```
npm install
```
**3. 配置你的环境**
```
cp .env.example .env
```
打开 `.env` 并填入你的凭证:
```
AI_API_KEY=your_key_here
WEBHOOK_SECRET=your_webhook_secret
PIPELINE_ENDPOINT=https://your-ci-cd-hook.example.com
```
**4. 启动程序**
```
npm run start:dev
```
FixFlow 现已开始监听。将你的 Webhook 来源指向摄取 Endpoint,看着事件被自动处理。
## Webhook 集成
通过标准的 `POST` 请求将日志发送到 FixFlow:
```
curl -X POST https://your-fixflow-instance/ingest \
-H "Content-Type: application/json" \
-H "X-Webhook-Secret: $WEBHOOK_SECRET" \
-d '{
"source": "production-api",
"level": "error",
"message": "Database connection pool exhausted",
"timestamp": "2025-04-29T03:22:11Z",
"metadata": { "service": "auth", "region": "us-east-1" }
}'
```
剩下的交给 FixFlow 处理。
## 路线图
| 状态 | 功能 |
|--------|---------|
| 1 | 实时 Webhook 摄取 |
| 2 | AI 原生三层分类 |
| 3 | 自主修复流水线 |
| 4 | 可观测性仪表板 |
| 5 | **多 Agent 编排** — 一个 Supervisor Agent 协调跨微服务的修复工作 |
| 6 | **预测性故障分析** — 对历史日志进行训练,在故障发生前将其捕获 |
| 7 | **AST 级别代码解析** — 将日志错误直接关联到导致该错误的代码更改 |
| 8 | **多云支持** — AWS CloudWatch、GCP Logging、Azure Monitor |
## 🤝 联系方式
由 **Kritagya Jha** 构建 — 后端与系统工程师
[](
*如果你的事件仍然需要人类来处理,那么你的 DevOps 做法就是错的。*
**如果 FixFlow 拯救了你的值班安排,请为本仓库点个 ⭐。**
标签:AIOps, GNU通用公共许可证, IT运维, MITM代理, Node.js, OpenCanary, PagerDuty替代, Socks5代理, SRE, TypeScript, webhook, 代码生成, 偏差过滤, 告警路由, 告警降噪, 子域名变形, 安全插件, 故障自愈, 故障诊断, 智能运维, 根因分析, 渗透测试工具, 生成Pull Request, 系统稳定性, 自动修复, 自动化攻击, 自动化运维, 自动回滚, 降本增效