yubol-bobo/MT-Consistency
GitHub: yubol-bobo/MT-Consistency
一套用于评估和改善大语言模型在多轮交互中响应一致性的研究框架,包含基准数据集、位置加权一致性指标和置信度感知生成方法。
Stars: 39 | Forks: 1
# 坚定还是善变?评估 LLM 在多轮交互中的一致性
本官方代码库伴随我们的论文 [**"Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions"**](arxiv.org/abs/2503.22353) 发布。
这项工作引入了一个系统性的评估框架,用于评估大型语言模型(LLMs)在多轮交互中的一致性。它还提出了一种新颖的位置加权一致性(PWC)得分和置信度感知响应生成(CARG)框架,旨在实现高风险领域中 LLMs 在多轮交互下的稳健一致性。
🔊 [播放音频演示](https://raw.githubusercontent.com/yubol-bobo/Multi_Turn_PWC/main/audio/firm_or_fickle.mp4)
## 摘要
大型语言模型在各种任务中展现出了卓越的能力,但要将其部署在高风险领域中,就需要在多轮交互中保持一致的性能。本文介绍了一个用于评估和改进 LLM 响应一致性的综合框架,并做出了三项主要贡献。首先,我们提出了一种新颖的位置加权一致性(PWC)得分,该得分综合考虑了多轮交互中早期阶段的稳定性和恢复模式的重要性。其次,我们提供了一个精心策划的基准数据集,涵盖了不同领域和难度级别,专门用于评估 LLM 在各种具有挑战性的后续场景下的一致性。第三,我们引入了置信度感知响应生成(CARG),这是一个通过将模型置信度信号纳入生成过程来显著提高响应稳定性的框架。实证结果表明,CARG 在不牺牲准确性的前提下显著提高了响应的稳定性,突显了其在关键应用中实现 LLM 可靠部署的潜力。
## 实验设计与 CARG 框架概述

我们的实验设计包含两个互补的实验,旨在评估大型语言模型在多轮交互中的一致性:
- **实验 1:重复跟进:**
对于每一个最初回答正确的问题,相同的后续消息(选自封闭式、开放式、误导性等一系列类型)将在多轮中被重复应用。此设置分离了特定提示类型对维持或降低响应一致性的影响。
- **实验 2:多样化跟进:**
在此实验中,每个问题都配以一系列以随机顺序呈现的不同后续消息。这种设计模拟了更自然的对话动态,使我们能够评估不同的提示类型及其出现顺序是否会随着时间的推移影响模型的稳定性。
除了这些实验之外,我们还提出了**置信度感知响应生成(CARG)**框架。CARG 通过以下方式增强一致性:
- **提取** token 级别的对数概率,以计算每个响应的置信度得分。
- **嵌入**这些置信度信号到对话历史中,以便后续的响应能够基于先前的确定性水平进行生成。
- **指导**生成过程,帮助模型区分坚定和不确定的响应,从而缓解一致性退化的问题。
这些方法结合在一起,全面深入地揭示了 LLM 在不同后续场景下的一致性,并证明了纳入置信度信号的有效性。
有关完整的方法论、实验细节和进一步分析,请参阅我们的原论文。
## 主要结果
|  |  |
|:------------------------------:|:------------------------------:|
### 图 1:LLMs 在基准任务上的初始准确率
- **目标:** 通过测量两个独立实验中初始轮次的准确率(零样本响应),评估 LLMs 的基础性能。
- **发现:**
- 观察到了明显的分层现象:商业模型(如 **Claude (85%)** 和 **GPT (78%)**)显著优于开源模型(如 **LLaMA (65%)** 和 **Mistral**)。
- 性能差距约为 20 个百分点(∆ = 0.18,*p* < 0.001,通过配对置换检验得出)。
- 结果表明,模型的**内部知识**——即无需迭代优化即可提供正确答案的能力——是其更广泛能力的一个强有力的指标。
### 图 2:后续轮次中的准确率趋势
- **目标:** 将基线模型与我们提出的 **CARG(置信度感知响应生成)** 方法在多轮交互中的表现进行比较。
- **发现:**
- **CARG 框架**展现出了极其稳定的性能,平均准确率为 0.7482 (σ = 0.0058),从第 1 轮 (0.7543) 到第 8 轮 (0.7414) 保持了一致性。
- 在基线方法中,**gpt_default** 展现出了最强的一致性(平均值 = 0.7134,σ = 0.0157),但 CARG 依然显著优于它(p < 0.001,配对 t 检验)。
- 这一比较突显了 CARG 在缓解多轮交互中一致性退化方面的有效性。
## 用法
### 运行实验
要使用不同的模型和配置运行实验:
```
python run_experiment.py
```
实验脚本支持重复跟进和多样化跟进两种场景。通过编辑 `run_experiment.py` 中的变量来配置实验参数:
- `exp`:设置为 'diverse' 或 'repetitive'
- `model_list`:从可用的模型中进行选择
- `batch_size`:每批次的的问题数量
- `rounds`:后续跟进的轮数
### 评估
要评估实验结果并生成可视化图表:
```
python evaluate.py
```
## 引用
如果您觉得我们的调查有用,请按以下方式引用:
```
@inproceedings{li-etal-2025-firm,
title = "Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions",
author = "Li, Yubo and
Miao, Yidi and
Ding, Xueying and
Krishnan, Ramayya and
Padman, Rema",
editor = "Che, Wanxiang and
Nabende, Joyce and
Shutova, Ekaterina and
Pilehvar, Mohammad Taher",
booktitle = "Findings of the Association for Computational Linguistics: ACL 2025",
month = jul,
year = "2025",
address = "Vienna, Austria",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2025.findings-acl.347/",
doi = "10.18653/v1/2025.findings-acl.347",
pages = "6679--6700",
ISBN = "979-8-89176-256-5",
abstract = "Large Language Models (LLMs) have shown remarkable capabilities across various tasks, but their deployment in high-stake domains requires consistent and coherent behavior across multiple rounds of user interaction. This paper introduces a comprehensive framework for evaluating and improving LLM response consistency, making three key contributions . First, we introduce Position-Weighted Consistency (PWC), a metric designed to capture both the importance of early-stage stability and recovery patterns in multi-turn interactions. Second, we present MT-Consistency, a carefully curated benchmark dataset spanning diverse domains and difficulty levels, specifically designed to evaluate LLM consistency under various challenging follow-up scenarios. Third, we introduce Confidence-Aware Response Generation (CARG), a framework that significantly improves response stability by explicitly integrating internal model confidence scores during the generation process. Experimental results demonstrate that CARG significantly improves response stability without sacrificing accuracy, offering a practical path toward more dependable LLM behavior in critical, real-world deployments."
}
```
标签:AI安全, Chat Copilot, DLL 劫持, LLM, NLP, Petitpotam, Unmanaged PE, 一致性评估, 代码复现, 多轮对话, 大语言模型, 密钥管理, 对话生成, 模型评估, 置信度, 评估框架, 逆向工具, 问答系统, 顺从偏见