yeo-donignon-sekou/LLM-Hallucination-Detection-and-Classification

GitHub: yeo-donignon-sekou/LLM-Hallucination-Detection-and-Classification

利用机器学习与数据科学技术，对多个大语言模型生成回答中的幻觉现象进行分析、检测和分类的数据科学项目。

Stars: 0 | Forks: 0

# LLM-Hallucination-Detection-and-Classification 使用 Machine Learning、EDA、Feature Engineering 和分类模型（Random Forest、Extra Trees、Gradient Boosting）对 LLM 的幻觉进行分析与检测。 # 🧠 LLM 幻觉检测与 Machine Learning 分类 ## 📌 项目概述诸如 GPT-4o、Claude、Gemini 或 Llama 这样的大型语言模型（LLM）正在彻底改变人工智能领域。然而，它们面临的主要挑战之一是生成**幻觉**，即看起来可信但实际上包含虚假、捏造或自相矛盾信息的回答。本项目旨在利用 Data Science 和 Machine Learning 技术，对 LLM 产生的幻觉进行分析、理解和预测。本 notebook 包含： * 探索性数据分析（EDA） * 统计分析 * 数据预处理 * Feature Engineering * 监督分类 * 模型评估 * 解释与幻觉相关的风险因素最终目标是构建能够预测 LLM 生成的回答是否为幻觉的模型。 # 🎯 项目目标本项目的主要目标是： * 研究多个 LLM 生成的幻觉 * 比较不同模型之间的幻觉率 * 识别风险最高的 prompt 类型 * 研究最敏感的领域 * 评估缓解策略的有效性 * 构建相关特征变量 * 训练多个 Machine Learning 模型 * 自动检测幻觉回答 # 📂 Dataset 描述该 dataset 包含由多个语言模型生成的 **200 条标注回答**。每条观测数据包含以下信息： | 变量 | 描述 | | ----------------------- | ---------------------- | | `model_name` | 使用的语言模型 | | `prompt_type` | prompt 类型 | | `domain` | 主题领域 | | `task_type` | NLP 任务类型 | | `language` | 使用的语言 | | `hallucination_label` | 目标变量 | | `hallucination_type` | 幻觉类型 | | `severity` | 严重程度 | | `domain_risk` | 领域风险等级 | | `annotation_confidence` | 标注者置信度 | | `mitigation_strategy` | 使用的缓解策略 | # 🎯 目标变量项目的目标变量为： ``` hallucination_label ``` 其中： * `1` → 幻觉回答 * `0` → 非幻觉回答因此，该问题被表述为**二元分类**问题。 # 🔍 探索性数据分析（EDA）探索性数据分析用于从多个维度研究幻觉的表现。进行的分析包括： * 缺失值分析 * 幻觉分布 * 严重程度分析 * LLM 模型比较 * prompt 类型分析 * 高风险领域分析 * 语言分析 * 缓解策略研究 * 标注者置信度分析 * 相关性研究 # 📊 主要结果 ## ✅ 总体幻觉率 * 生成的回答中有 **34.5 %** 包含幻觉 * 大约 **45 %** 的幻觉被归类为高严重程度这些结果表明了幻觉检测系统的重要性，尤其是在敏感领域。 ## 🤖 模型比较在测试的模型中： * **Llama-3.1-70B** 的幻觉率最高 * **GPT-4o** 和 **Claude-3.5-Sonnet** 表现最佳这突显了不同 LLM 架构在可靠性上的重要差异。 ## ⚠️ Prompt 类型的影响分析表明： * **对抗性 prompt** 产生的幻觉最多 * **Multi-Hop** prompt 的风险也非常高需要复杂推理的任务增加了出错的风险。 ## 🏥 高风险领域最敏感的领域是： * 医学 * 法律这些领域需要极高的事实可靠性水平。 ## 🛡️ 缓解策略缓解策略显著减少了幻觉。观察到的最有效方法包括： 1. RAG（Retrieval-Augmented Generation） 2. Self-Consistency 3. Structured Prompting 观察到的降幅： * 幻觉率降低了约 **13 个百分点** # 🛠️ Feature Engineering 为了提升模型性能，创建了多个衍生变量： | 创建的变量 | 作用 | | ----------------------- | ------------------------ | | `log_prompt_len` | prompt 复杂度 | | `log_response_len` | 回答复杂度 | | `response_prompt_ratio` | 冗长程度 | | `is_high_stakes` | 敏感领域 | | `is_adversarial` | 对抗性 prompt | | `is_multihop` | 多步推理 | | `mit_applied_int` | 已应用缓解策略 | 这些变量有助于更好地捕捉与幻觉相关的信号。 # 🤖 Machine Learning 模型训练并比较了多种监督学习算法： * 逻辑回归 * K-Nearest Neighbors (KNN) * Naive Bayes * Decision Tree * Random Forest * Extra Trees * Gradient Boosting # 📈 模型评估使用以下指标对模型进行评估： * Accuracy * F1-Score * ROC-AUC * 交叉验证基于树的模型获得了最佳性能。最佳模型： ✅ Random Forest ✅ Extra Trees 这些模型能够有效捕捉变量之间的非线性关系。 # 🔥 特征重要性预测幻觉时最重要的变量包括： * `annotation_confidence` * `model_name_enc` * `domain_risk_enc` * `prompt_type_enc` * `mit_applied_int` 这些结果表明，幻觉高度依赖于： * 使用的模型， * prompt 的类型， * 领域的风险等级， * 缓解策略的使用。 # 📉 项目局限性本项目存在一些局限性： * dataset 较小（200 条观测数据） * 存在抽样偏差的风险 * 交叉验证中的方差较高 * 文本的语义表示有限因此，在解释结果时应当谨慎。 # 🚀 可能的改进可以考虑进行几项改进： * 增加 dataset 的规模 * 使用高级 NLP embeddings * 对 BERT / RoBERTa 模型进行 Fine-tuning * 实时幻觉检测 * 集成 Deep Learning 架构 * AI + 人工验证的混合系统 # 🧰 使用的技术 ## Data Science 与编程 * Python * Pandas * NumPy * Scikit-learn * Matplotlib * Seaborn ## Machine Learning * Random Forest * Extra Trees * Gradient Boosting * Logistic Regression ## 可视化 * 热力图 * ROC 曲线 * 相关性矩阵 * 特征重要性 # 📌 结论本项目展示了如何利用 Data Science 和 Machine Learning 来分析和预测大型语言模型生成的幻觉。除了模型的性能之外，本 notebook 还突显了现代人工智能面临的一个重大挑战：随着 LLM 被整合到医疗、金融、法律或教育等关键领域，幻觉检测变得至关重要。因此，该项目为开发更安全、更可靠的 AI 系统奠定了坚实的基础。 # 👨‍💻 作者 **YEO Donignon Sékou** 硕士二年级 — 数学工程与 Data Science 蔚蓝海岸大学 📌 兴趣领域： * Data Science * Machine Learning * 人工智能 * NLP * 量化金融 * AI 系统的可靠性

标签：Apex, DLL 劫持, hallucination检测, 人工智能, 大语言模型, 数据科学, 文本分类, 机器学习, 用户模式Hook绕过, 资源验证, 逆向工具