Mioulin/llm-eval-toolkit
GitHub: Mioulin/llm-eval-toolkit
面向前沿 LLM 的对抗性评估工具包,专注于发现模型在统计推理、幻觉检测、思维链质量和数学推理方面的系统性失败模式。
Stars: 0 | Forks: 0
license: mit
title: LLM 推理评估器
sdk: gradio
colorFrom: blue
colorTo: indigo
app_file: app.py
pinned: true
short_description: 前沿语言模型对抗性评估工具包
tags:
- llm-evaluation
- rlhf
- hallucination-detection
- chain-of-thought
- bayesian
- benchmark
由 **Zalina Dezhina 博士** 构建 — AI 评估科学家
*为前沿 AI 系统(GPT-4、Claude、Gemini 级别)开发的方法论。*
## 功能说明
四个评估类别,每个类别针对一种系统性 LLM 失败模式:
| 类别 | 测试内容 | 重要性 |
|---|---|---|
| 📊 **统计推理** | 因果推断、p 值解读、抽样偏差 | 大多数 LLM 自信地给出统计上无效的结论 |
| 🔍 **幻觉检测** | 虚构引用、虚假前提接受、API 杜撰 | 模型倾向于杜撰而非表达不确定性 |
| 🧠 **思维链质量** | 真正的中间推理 vs 事后合理化 | 表面上的 CoT 结构 ≠ 正确的推理 |
| 🔢 **数学与多步推理** | 代数、概率、贝叶斯推断 | 多步错误会累积;很少进行验证 |
## 快速开始
```
pip install llm-eval-toolkit
```
```
import os
os.environ["ANTHROPIC_API_KEY"] = "sk-ant-..."
from llm_eval import EvalSuite, StatisticalReasoningEvaluator
# 运行完整套件
suite = EvalSuite(model="claude-sonnet-4-20250514")
result = suite.run()
print(result)
# SuiteResult(model='claude-sonnet-4-20250514', tasks=11, score=0.78, pass_rate=73%)
print(result.by_category())
# {'statistical_reasoning': 0.71, 'hallucination': 0.85, 'chain_of_thought': 0.82, 'math_reasoning': 0.73}
print(result.failure_mode_summary())
# {'base-rate neglect': 2, 'causal confusion': 2, 'shallow CoT': 1}
# 运行单一类别
stat_eval = StatisticalReasoningEvaluator(model="claude-haiku-4-5-20251001")
stat_result = stat_eval.run()
for r in stat_result.results:
print(r)
```
## 评估设计
### 默认对抗性
每个任务的设计都遵循以下原则:
- **直觉/朴素答案是错误的**
- 不进行推理而仅进行模式匹配的模型 **将会失败**
- 正确答案需要 **明确的中间步骤**
示例:
- 贝叶斯基础率任务(医学检验)— 大多数 LLM 报告约 99%,而正确答案是约 2%
- 医院死亡率任务 — 需要辛普森悖论推理,而非原始比率比较
- 虚构的论文引用 — 一个校准良好的模型必须说"我无法验证此内容"
### LLM 即评判者
评分使用 Claude Opus 作为评判者,使用结构化评分标准检查:
- **标准覆盖** — 响应是否涵盖所有关键推理步骤?
- **失败模式检测** — 是否存在已知的失败模式?
- **分数 0.0–1.0**(通过阈值:0.6)
这与生产级 RLHF 评估方法论一致。
## 任务注册表
```
from llm_eval import TASK_REGISTRY
for task in TASK_REGISTRY:
print(f"{task.task_id:12} | {task.category:25} | {task.difficulty}")
```
```
stat_001 | statistical_reasoning | medium
stat_002 | statistical_reasoning | easy
stat_003 | statistical_reasoning | hard
halluc_001 | hallucination | medium
halluc_002 | hallucination | hard
halluc_003 | hallucination | easy
cot_001 | chain_of_thought | easy
cot_002 | chain_of_thought | medium
cot_003 | chain_of_thought | hard
math_001 | math_reasoning | medium
math_002 | math_reasoning | hard
math_003 | math_reasoning | hard
```
## 方法论背景
这个工具包源于我的工作,我为前沿 AI 系统设计和执行了对抗性 STEM 评估任务。四个类别反映了我在 GPT-4 级别和 Claude 级别模型进行科学和定量推理时观察到的最一致的失败模式。
贝叶斯推理任务(stat_003、cot_003、math_003)直接来自我计算神经科学博士研究中对严格概率推理的要求。
**相关出版物:**
Dezhina, Z. 等 (2023). *Establishing Brain States in Neuroimaging Data.*
PLOS Computational Biology.
## 路线图
- [ ] 多模型排行榜(比较 Sonnet vs Haiku vs GPT-4o)
- [ ] 导出结果为 CSV / JSON
- [ ] 自定义任务注入(`EvalSuite.add_task(...)`)
- [ ] 选择熵指标用于 token 级不确定性分析
## 引用
```
@software{dezhina2025llmeval,
author = {Dezhina, Zalina},
title = {LLM Reasoning Evaluator: Adversarial Evaluation Toolkit},
year = {2025},
url = {https://huggingface.co/spaces/zalinadezhina/llm-reasoning-evaluator}
}
```
## 联系方式
[LinkedIn](https://linkedin.com/in/zalina-dezhina) · dezhina@gmail.com
*寻求 AI 研究科学家、LLM 评估和高级 ML 工程师职位。*
标签:AI安全, AI评估, chain-of-thought, Chat Copilot, Clair, Gradio, LLM评估, NLP评估, Ollama, Python, p值解释, RLHF, 前沿AI, 因果推理, 多步推理, 对抗性测试, 思维链, 数学推理, 无后门, 模型对齐, 模型评估, 统计推理, 评估工具包, 语言模型, 贝叶斯推理, 逆向工具, 采样偏差