Mioulin/llm-eval-toolkit

GitHub: Mioulin/llm-eval-toolkit

面向前沿 LLM 的对抗性评估工具包，专注于发现模型在统计推理、幻觉检测、思维链质量和数学推理方面的系统性失败模式。

Stars: 0 | Forks: 0

license: mit title: LLM 推理评估器 sdk: gradio colorFrom: blue colorTo: indigo app_file: app.py pinned: true short_description: 前沿语言模型对抗性评估工具包 tags: - llm-evaluation - rlhf - hallucination-detection - chain-of-thought - bayesian - benchmark 由 **Zalina Dezhina 博士** 构建 — AI 评估科学家 *为前沿 AI 系统（GPT-4、Claude、Gemini 级别）开发的方法论。* ## 功能说明四个评估类别，每个类别针对一种系统性 LLM 失败模式： | 类别 | 测试内容 | 重要性 | |---|---|---| | 📊 **统计推理** | 因果推断、p 值解读、抽样偏差 | 大多数 LLM 自信地给出统计上无效的结论 | | 🔍 **幻觉检测** | 虚构引用、虚假前提接受、API 杜撰 | 模型倾向于杜撰而非表达不确定性 | | 🧠 **思维链质量** | 真正的中间推理 vs 事后合理化 | 表面上的 CoT 结构 ≠ 正确的推理 | | 🔢 **数学与多步推理** | 代数、概率、贝叶斯推断 | 多步错误会累积；很少进行验证 | ## 快速开始 ``` pip install llm-eval-toolkit ``` ``` import os os.environ["ANTHROPIC_API_KEY"] = "sk-ant-..." from llm_eval import EvalSuite, StatisticalReasoningEvaluator # 运行完整套件 suite = EvalSuite(model="claude-sonnet-4-20250514") result = suite.run() print(result) # SuiteResult(model='claude-sonnet-4-20250514', tasks=11, score=0.78, pass_rate=73%) print(result.by_category()) # {'statistical_reasoning': 0.71, 'hallucination': 0.85, 'chain_of_thought': 0.82, 'math_reasoning': 0.73} print(result.failure_mode_summary()) # {'base-rate neglect': 2, 'causal confusion': 2, 'shallow CoT': 1} # 运行单一类别 stat_eval = StatisticalReasoningEvaluator(model="claude-haiku-4-5-20251001") stat_result = stat_eval.run() for r in stat_result.results: print(r) ``` ## 评估设计 ### 默认对抗性每个任务的设计都遵循以下原则： - **直觉/朴素答案是错误的** - 不进行推理而仅进行模式匹配的模型 **将会失败** - 正确答案需要 **明确的中间步骤** 示例： - 贝叶斯基础率任务（医学检验）— 大多数 LLM 报告约 99%，而正确答案是约 2% - 医院死亡率任务 — 需要辛普森悖论推理，而非原始比率比较 - 虚构的论文引用 — 一个校准良好的模型必须说"我无法验证此内容" ### LLM 即评判者评分使用 Claude Opus 作为评判者，使用结构化评分标准检查： - **标准覆盖** — 响应是否涵盖所有关键推理步骤？ - **失败模式检测** — 是否存在已知的失败模式？ - **分数 0.0–1.0**（通过阈值：0.6）这与生产级 RLHF 评估方法论一致。 ## 任务注册表 ``` from llm_eval import TASK_REGISTRY for task in TASK_REGISTRY: print(f"{task.task_id:12} | {task.category:25} | {task.difficulty}") ``` ``` stat_001 | statistical_reasoning | medium stat_002 | statistical_reasoning | easy stat_003 | statistical_reasoning | hard halluc_001 | hallucination | medium halluc_002 | hallucination | hard halluc_003 | hallucination | easy cot_001 | chain_of_thought | easy cot_002 | chain_of_thought | medium cot_003 | chain_of_thought | hard math_001 | math_reasoning | medium math_002 | math_reasoning | hard math_003 | math_reasoning | hard ``` ## 方法论背景这个工具包源于我的工作，我为前沿 AI 系统设计和执行了对抗性 STEM 评估任务。四个类别反映了我在 GPT-4 级别和 Claude 级别模型进行科学和定量推理时观察到的最一致的失败模式。贝叶斯推理任务（stat_003、cot_003、math_003）直接来自我计算神经科学博士研究中对严格概率推理的要求。 **相关出版物：** Dezhina, Z. 等 (2023). *Establishing Brain States in Neuroimaging Data.* PLOS Computational Biology. ## 路线图 - [ ] 多模型排行榜（比较 Sonnet vs Haiku vs GPT-4o） - [ ] 导出结果为 CSV / JSON - [ ] 自定义任务注入（`EvalSuite.add_task(...)`） - [ ] 选择熵指标用于 token 级不确定性分析 ## 引用 ``` @software{dezhina2025llmeval, author = {Dezhina, Zalina}, title = {LLM Reasoning Evaluator: Adversarial Evaluation Toolkit}, year = {2025}, url = {https://huggingface.co/spaces/zalinadezhina/llm-reasoning-evaluator} } ``` ## 联系方式 [LinkedIn](https://linkedin.com/in/zalina-dezhina) · dezhina@gmail.com *寻求 AI 研究科学家、LLM 评估和高级 ML 工程师职位。*

标签：AI安全, AI评估, chain-of-thought, Chat Copilot, Clair, Gradio, LLM评估, NLP评估, Ollama, Python, p值解释, RLHF, 前沿AI, 因果推理, 多步推理, 对抗性测试, 思维链, 数学推理, 无后门, 模型对齐, 模型评估, 统计推理, 评估工具包, 语言模型, 贝叶斯推理, 逆向工具, 采样偏差