Kritagya123611/FixFLow-AI

GitHub: Kritagya123611/FixFLow-AI

基于 TypeScript + Node.js 构建的自主 DevOps 事件响应系统,通过 AI 驱动的实时日志分类与自动修复流水线,实现从故障检测到解决的端到端自动化,大幅缩短平均恢复时间。

Stars: 2 | Forks: 0

# FixFlow AI ### *检测。分类。修复。循环往复。* **自主的 DevOps 事件响应系统,在你的 PagerDuty 甚至还没唤醒你之前,就将宕机时间扼杀于摇篮中。** [开始使用](#-getting-started) · [系统架构](#️-architecture) · [路线图](#-roadmap) · [联系方式](#-contact)
## 问题所在 你的系统在凌晨 3 点崩溃。警报响起。值班工程师被唤醒,通过 SSH 登录,查看日志,翻阅操作手册,并运行恢复脚本——而此时你的用户正在大声抱怨。这整个循环?**FixFlow 将其彻底消除。** FixFlow AI 摄取实时日志,利用 AI 原生智能对事件进行分类,并自主触发正确的修复流水线——将 MTTR 从*分钟级*缩短至*秒级*。 ## 核心功能 ### 零延迟日志摄取 基于推送的 Webhook 架构意味着日志在发出的那一刻就会到达——无需轮询,没有延迟,没有任何借口。每个事件都会被捕获、加上时间戳,并实时排队等待分析。 ### AI 原生事件分类 一个像资深 SRE 一样思考的三层分类引擎: | 严重性 | 信号 | 自主操作 | |----------|--------|-------------------| | 🔴 **严重** | 基础设施故障、崩溃循环、数据损坏 | 紧急回滚 + 服务重启 | | 🟡 **中等** | 性能下降、错误率升高、超时 | 警报路由 + 诊断快照 | | 🟢 **低** | 轻微异常、一般警告、边缘情况噪音 | 记录日志 + 排队等待优化 | ### 自主修复引擎 无需操作手册。FixFlow 直接集成到你的 CI/CD 流水线中,并在诊断确认的瞬间触发预定义的恢复脚本——全程无需人工干预。 ### 可观测性仪表板 一个 TypeScript 原生界面,用于跟踪: - 随时间变化的**事件趋势** - 每次诊断的 **AI 置信度得分** - **修复结果**和 MTTR 历史 - 一目了然的**流水线健康状况** ## 系统架构 ``` ┌─────────────────────────────────────────────────────────┐ │ EXTERNAL SOURCES │ │ GitHub Actions · Sentry · Custom App Logs · APMs │ └───────────────────────┬─────────────────────────────────┘ │ Webhook Push (Real-Time) ▼ ┌─────────────────────────────────────────────────────────┐ │ FIXFLOW INGESTION LAYER │ │ High-performance webhook receiver (Node.js) │ │ Non-blocking event loop · Zero dropped events │ └───────────────────────┬─────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────┐ │ AI TRIAGE ENGINE (TypeScript) │ │ Classifies severity · Scores confidence · Routes │ └──────────┬──────────────────────┬────────────────────────┘ │ │ ▼ ▼ ┌─────────────────┐ ┌──────────────────────────────────┐ │ ALERT ROUTER │ │ REMEDIATION PIPELINE │ │ PagerDuty/Slack │ │ Rollback · Restart · Diagnose │ └─────────────────┘ └──────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────┐ │ OBSERVABILITY DASHBOARD │ │ Incident trends · Confidence scores · MTTR │ └─────────────────────────────────────────────────────────┘ ``` **技术栈:** - **运行时:** Node.js v18+ 结合 TypeScript——类型安全、极速的事件循环 - **传输层:** Webhook(基于推送,而非轮询——因为轮询就是技术债) - **处理层:** 事件驱动、非阻塞 I/O——分析过程永远不会阻塞日志摄取 - **集成:** REST API + 自定义 Hook,适配任何 DevOps 技术栈 ## 开始使用 ### 前置条件 - Node.js `v18+` - 一个 Webhook 来源(GitHub Actions、Sentry、Datadog 或自定义来源) ### 安装说明 **1. 克隆仓库** ``` git clone https://github.com/yourusername/fixflow-ai.git cd fixflow-ai ``` **2. 安装依赖** ``` npm install ``` **3. 配置你的环境** ``` cp .env.example .env ``` 打开 `.env` 并填入你的凭证: ``` AI_API_KEY=your_key_here WEBHOOK_SECRET=your_webhook_secret PIPELINE_ENDPOINT=https://your-ci-cd-hook.example.com ``` **4. 启动程序** ``` npm run start:dev ``` FixFlow 现已开始监听。将你的 Webhook 来源指向摄取 Endpoint,看着事件被自动处理。 ## Webhook 集成 通过标准的 `POST` 请求将日志发送到 FixFlow: ``` curl -X POST https://your-fixflow-instance/ingest \ -H "Content-Type: application/json" \ -H "X-Webhook-Secret: $WEBHOOK_SECRET" \ -d '{ "source": "production-api", "level": "error", "message": "Database connection pool exhausted", "timestamp": "2025-04-29T03:22:11Z", "metadata": { "service": "auth", "region": "us-east-1" } }' ``` 剩下的交给 FixFlow 处理。 ## 路线图 | 状态 | 功能 | |--------|---------| | 1 | 实时 Webhook 摄取 | | 2 | AI 原生三层分类 | | 3 | 自主修复流水线 | | 4 | 可观测性仪表板 | | 5 | **多 Agent 编排** — 一个 Supervisor Agent 协调跨微服务的修复工作 | | 6 | **预测性故障分析** — 对历史日志进行训练,在故障发生前将其捕获 | | 7 | **AST 级别代码解析** — 将日志错误直接关联到导致该错误的代码更改 | | 8 | **多云支持** — AWS CloudWatch、GCP Logging、Azure Monitor | ## 🤝 联系方式 由 **Kritagya Jha** 构建 — 后端与系统工程师 [![GitHub](https://img.shields.io/badge/GitHub-yourusername-181717?style=for-the-badge&logo=github)]() [![LinkedIn](https://img.shields.io/badge/LinkedIn-Connect-0077B5?style=for-the-badge&logo=linkedin)]()
*如果你的事件仍然需要人类来处理,那么你的 DevOps 做法就是错的。* **如果 FixFlow 拯救了你的值班安排,请为本仓库点个 ⭐。**
标签:AIOps, GNU通用公共许可证, IT运维, MITM代理, Node.js, OpenCanary, PagerDuty替代, Socks5代理, SRE, TypeScript, webhook, 代码生成, 偏差过滤, 告警路由, 告警降噪, 子域名变形, 安全插件, 故障自愈, 故障诊断, 智能运维, 根因分析, 渗透测试工具, 生成Pull Request, 系统稳定性, 自动修复, 自动化攻击, 自动化运维, 自动回滚, 降本增效