Raj-glitch-max/kubernetes-llm-incident-response-benchmark
GitHub: Raj-glitch-max/kubernetes-llm-incident-response-benchmark
面向Kubernetes事件响应的LLM基准测试框架,用于量化评估大模型在故障根因分析中的准确性与日志忠实度。
Stars: 0 | Forks: 0
# Kubernetes LLM 事件响应基准测试
## 🚨 关键发现 — “自信的说谎者”问题
**在所有模型给出的正确诊断中,有 71% 没有任何真实的日志证据支持。**
完整分析:[`data/confident_liar_analysis.json`](data/confident_liar_analysis.json)
## 🏆 完整排行榜 (35 次运行, 15 个混沌场景)
```
Model | n | RCA↑ | Halluc↓ | LogFaith↑ | CmdExec↑ | Latency↓
-----------------------------|-----|-------|---------|-----------|----------|--------
z-ai/glm4.7 | 5 | 1.000 | 0.134 | 0.866 | 0.300 | 128.1s ← Slow but Trustworthy
mistralai/mistral-7b-v0.3 | 15 | 0.800 | 0.700 | 0.300 | 0.000 | 6.8s ← Fast but Blind
meta/llama-3.1-70b-instruct | 14 | 0.714 | 0.857 | 0.143 | 0.059 | 3.9s ← Fast but Blind
```
**Tier 1 — 快速但盲目:** Mistral-7B + Llama-3.1-70B。在 3-7 秒内给出正确标签。70-90% 的情况下没有基于日志的证据。
**Tier 2 — 缓慢但可信:** GLM4.7 (~9B 参数)。在准确率上与 GPT-4 持平。86.6% 有证据支撑。参数量比 Llama 少 8 倍。
## 📐 行为模式分布
每一次 (模型 × 事件) 运行都被归类为五种模式之一:
| 模式 | % | 含义 | 操作 |
|---|---|---|---|
| **CONFIDENT_LIAR** | **54%** | 标签正确,零证据 | ❌ 切勿自动执行 |
| HONEST_FAILURE | 23% | 错误 + 无证据 | 升级给人工处理 |
| PARTIAL_GROUNDING | 23% | 正确 + 基于关键词锚定 | ⚠️ 行动前需审查 |
| TRUSTED_DIAGNOSIS | — | 正确 + 逐字引用日志 | ✅ 可安全执行 |
## 🆕 指标
| 指标 | 描述 | 新颖性? |
|---|---|---|
| `rca_accuracy` | 正确的根因类别标签 | 标准 |
| `hallucination_penalty` | 引用的证据中不在日志里的比例 | 标准 |
| `log_faithfulness` | **基于规则的确定性**证据评分器 (无 LLM 评判) | **新颖** ✅ |
| `cmd_executability` | 通过 `--dry-run=client` 的 kubectl 命令比例 | **新颖** ✅ |
| `severity_risk` | P1 + conf≥0.9 + halluc=1.0 — 最危险的失效模式 | **新颖** ✅ |
| `regime` | CONFIDENT_LIAR / HONEST_FAILURE / PARTIAL_GROUNDING / TRUSTED_DIAGNOSIS | **新颖** ✅ |
| `remediation_safe` | 无破坏性命令模式 | 标准 |
## P1 严重性风险
**41.7% 的 P1 事件** 至少有一个模型同时满足:最大置信度 + 完全幻觉。
| Model | P1 严重性风险率 |
|---|---|
| mistralai/mistral-7b | **83.3%** 🔴 |
| meta/llama-3.1-70b | **50.0%** 🟠 |
| z-ai/glm4.7 | **0%** 🟢 |
## 支持的模型
```
--model nvidia-glm47 # z-ai/glm4.7 (NVIDIA NIM)
--model nvidia-llama # meta/llama-3.1-70b-instruct (NVIDIA NIM)
--model nvidia-mistral # mistralai/mistral-7b-instruct-v0.3 (NVIDIA NIM)
--model gpt-4-turbo # OpenAI
--model claude-3-sonnet # Anthropic
# 或直接传入任意 NVIDIA NIM 模型 slug:
--model meta/llama-3.3-70b-instruct
```
## 项目结构
```
kubernetes-llm-incident-response-benchmark/
├── terraform/ # IaC — EKS, VPC, IAM (Raj)
├── k8s/ # Manifests + 8 chaos scripts (Raj)
│ └── chaos/ # pod_kill, crash_loop, oom_kill, cpu_stress,
│ # memory_hog, network_partition, adversarial_logs,
│ # cascading_failure
├── ai/ # LLM engine — 5 models + evaluate.py (Soham)
├── eval/ # Scoring + leaderboard + confident_liar + migrate
├── data/ # k8s_rca_bench_final.csv, incidents.csv, models_used.json
│ └── raw_logs/ # INC-000 to INC-015 (each with 4 telemetry files)
├── docs/ # Research docs + paper draft + ADRs
└── ansible/ security/ # Cluster hardening (Pranav)
```
## 快速开始
```
# 1. 部署基础设施
make deploy
# 2. 运行完整事件 (chaos + capture + eval)
make run INCIDENT=INC-016 SCENARIO=pod_kill MODEL=nvidia-llama
# 3. 查看排行榜
make leaderboard
# 4. 运行 Confident Liar 分析
source venv/bin/activate && python3 eval/confident_liar.py
# 5. 生成最终清理 CSV (移除 MOCK,添加 regime/severity 列)
python3 eval/phase1_migrate.py
# 6. 销毁
make destroy
```
## 可复现性
模型快照 ID:[`data/models_used.json`](data/models_used.json)
数据集:`data/k8s_rca_bench_final.csv` (35 行真实评估数据,无占位符)
评估:`eval/evaluate.py` — 基于规则,确定性,评分无需 API 调用
标签:AIOps, AI安全, API密钥扫描, API集成, Chat Copilot, DevSecOps, DLL 劫持, GLM4, Homebrew安装, Kubectl, Llama3, LLM, Mistral, osquery, Pandas, Petitpotam, RCA, Unmanaged PE, 上游代理, 反取证, 可观测性, 大语言模型, 子域名突变, 安全评估, 库, 应急响应, 故障诊断, 根本原因分析, 模型可信度, 混沌工程, 系统提示词, 证据溯源, 运维安全, 逆向工具