takutakutakkun0420-hue/gcp-ai-incident-response-poc
GitHub: takutakutakkun0420-hue/gcp-ai-incident-response-poc
一个基于FastAPI和GCP的PoC项目,利用LLM分析Cloud Monitoring告警并为SRE生成恢复命令建议。
Stars: 0 | Forks: 0
# GCP AI Incident Response – 概念验证
一个小型 PoC,用于接收 **GCP Cloud Monitoring** webhook,使用 LLM(OpenAI 风格)分析告警,并为 SRE 建议 **恢复命令**(例如 `kubectl`, `gcloud`)。
## 目录
| 文件 | 描述 |
|------|-------------|
| `main.py` | FastAPI 应用:webhook 端点、prompt 构建、mock LLM、结构化响应 |
| `main.tf` | Terraform:Cloud Run 服务、Pub/Sub 主题、IAM |
| `Dockerfile` | Cloud Run 的容器镜像 |
| `requirements.txt` | Python 依赖 |
## 快速开始(本地)
```
pip install -r requirements.txt
uvicorn main:app --reload --port 8080
# POST JSON 到 http://localhost:8080/webhook/alert (见 /docs 的 OpenAPI)
```
## 部署到 GCP
1. 构建并推送镜像(例如 Artifact Registry):
gcloud builds submit --tag REGION-docker.pkg.dev/PROJECT_ID/REPO/ai-incident-response:latest
2. 应用 Terraform:
terraform init
terraform apply -var="project_id=YOUR_PROJECT" -var="container_image=REGION-docker.pkg.dev/PROJECT_ID/REPO/ai-incident-response:latest"
3. 配置 Cloud Monitoring 告警策略以使用 **Webhook** 渠道,URL 为:
`https://YOUR_CLOUD_RUN_URL/webhook/alert`
## 许可证
MIT(或者根据您的作品集用途自由选择)。
标签:AIOps, AV绕过, Cloud Monitoring, Cloud Run, DLL 劫持, ECS, FastAPI, gcloud, GCP, Google Cloud Platform, kubectl, LLM, Petitpotam, PoC, Python, SRE, Terraform, Unmanaged PE, Webhook, 偏差过滤, 力导向图, 大语言模型, 故障恢复, 无后门, 智能运维, 暴力破解, 概念验证, 监控告警, 站点可靠性工程, 自动化运维, 请求拦截, 逆向工具