OneiroNexus/echo-payload

GitHub: OneiroNexus/echo-payload

一套用于缓解 LLM 幻觉、校准输出行为的结构化微调数据包与多指标评估工具集。

Stars: 0 | Forks: 0

# ⟁ echo-payload [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![Stars](https://img.shields.io/github/stars/OneiroNexus/echo-payload?style=social)](https://github.com/OneiroNexus/echo-payload/stargazers) [![Forks](https://img.shields.io/github/forks/OneiroNexus/echo-payload?style=social)](https://github.com/OneiroNexus/echo-payload/network/members) [![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg)](CONTRIBUTING.md) [![LLM Safety](https://img.shields.io/badge/focus-llm--safety-blue)](https://github.com/OneiroNexus/echo-payload) [![Eval Harness](https://img.shields.io/badge/eval-7--metric--harness-orange)](docs/evaluation-harness.md) **实用的 payload,用于缓解 LLM 幻觉、进行校准训练以及对抗过度拒答。** 10 个带标签的结构化数据包 · 7 项指标的评估套件 · 支持 JSONL · 兼容所有主流 LLM [这是什么](#what-this-is) · [适用人群](#who-its-for) · [快速开始](#quick-start) · [数据包](#the-10-packets) · [基准测试](#benchmarks) · [LLM 兼容性](#llm-compatibility) · [贡献指南](#contributing)
## 这是什么 这是一个即开即用的集合,包含 **10 个结构化 payload 数据包**(带有标注的正确/错误示例)、用于校准回答的行为规范,以及一个 **7 项指标的评估套件**。 专为在生产环境的 LLM 工作流中直接使用而设计: - ✅ 微调与偏好优化(DPO、ORPO、SFT) - ✅ RAG 接地和引用忠实度测试 - ✅ 红队测试与 prompt injection 抵抗性评估 - ✅ 校准与弃权训练 - ✅ 构建自定义安全评估 - ✅ 多 LLM 基准测试(GPT-4o、Claude 3.5、Gemini 1.5、Llama 3、Mistral、Qwen、Phi-3) 所有数据包均采用简洁的 Markdown 格式,可直接转换为 **JSONL、CSV 或 Parquet** 以供训练 pipeline 使用。 ## 适用人群 | 受众 | 用例 | |---|---| | LLM 微调工程师 | 使用数据包 01–06 构建 DPO/ORPO/SFT 偏好数据集 | | RAG 与上下文工程团队 | 使用数据包 02、08、09 构建检索测试集 | | AI 安全研究员 | 使用数据包 07、10 进行红队测试 | | 评估实践者 | 适用于任何模型的 7 项指标评估套件 | | 生产团队 | 直接引入以改善幻觉率和过度拒答问题 | ## 快速开始 ``` # Clone 该 repo git clone https://github.com/OneiroNexus/echo-payload.git cd echo-payload # 在任何 model 上运行 evaluation harness python evals/harness.py --model gpt-4o --packets all # 将 packet 转换为 JSONL 用于 fine-tuning python scripts/convert_to_jsonl.py --packet packets/05-anti-sycophancy.md --output training.jsonl # 运行 doctor check bash doctor.sh ``` ## 10 个数据包 | # | 数据包 | 重点 | 关键指标 | |---|---|---|---| | 01 | [校准与置信度](packets/01-calibration-confidence.md) | 置信度标注,ECE 降低 | Calibration Error | | 02 | [引用忠实度](packets/02-citation-faithfulness.md) | 来源接地,引用准确性 | Citation F1 | | 03 | [弃权训练](packets/03-abstention-training.md) | “我不知道”的行为 | Abstention Precision | | 04 | [时间接地](packets/04-temporal-grounding.md) | 对日期敏感的事实,截止日期意识 | Temporal Error Rate | | 05 | [反盲从](packets/05-anti-sycophancy.md) | 反驳错误前提 | Sycophancy Rate | | 06 | [数值精度](packets/06-numeric-precision.md) | 数字准确性、四舍五入、不确定性 | Numeric Hallucination % | | 07 | [Prompt Injection 抵抗](packets/07-prompt-injection-resistance.md) | 对抗性注入,系统 prompt 泄漏 | Injection Resistance % | | 08 | [RAG 上下文接地](packets/08-rag-context-grounding.md) | 上下文忠实度,检索保真度 | Faithfulness Score | | 09 | [来源出处](packets/09-source-provenance.md) | 来源归属,出处链 | Provenance Accuracy | | 10 | [对抗鲁棒性](packets/10-adversarial-robustness.md) | 已知的幻觉攻击,越狱探测 | Robustness Score | ## 基准测试 | 模型 | 幻觉率 | 校准误差 | 过度拒答率 | Injection 抵抗率 | |---|---|---|---|---| | Llama-3-8B-Instruct (base) | 17–22% | 0.19–0.25 | 21–28% | 55–65% | | GPT-4o (base, no SFT) | 8–12% | 0.10–0.14 | 12–18% | 74–82% | | Claude 3.5 Sonnet (base) | 7–11% | 0.08–0.12 | 10–15% | 80–88% | | Llama-3-8B + echo-payload SFT | 9–12% | 0.11–0.15 | 12–17% | 78–85% | | Mistral-7B + echo-payload SFT | 11–14% | 0.13–0.17 | 14–19% | 72–79% | ## LLM 兼容性 | 提供商 | 模型 | 集成方式 | |---|---|---| | OpenAI | GPT-4o, GPT-4o-mini, o1, o3 | Axolotl, OpenAI 微调 API | | Anthropic | Claude 3.5 Sonnet, Claude 3 Haiku | Constitutional AI + DPO | | Google DeepMind | Gemini 1.5 Pro, Gemini 2.0 Flash | Vertex AI 微调 | | Meta | Llama 3.1, Llama 3.3 | Llama-Factory, Axolotl | | Mistral AI | Mistral 7B, Mistral Large | Mistral 微调 API | | Alibaba | Qwen2.5-7B, Qwen2.5-72B | LLaMA-Factory | | Microsoft | Phi-3, Phi-4 | Azure AI 微调 | | EleutherAI | Pythia, GPT-NeoX | lm-evaluation-harness | 有关各模型的集成指南,请参阅 [`docs/llm-compatibility.md`](docs/llm-compatibility.md)。 ## 仓库结构 ``` echo-payload/ ├── packets/ # 10 structured payload packets (Markdown) ├── docs/ # Evaluation harness, benchmarks, architecture ├── evals/ # Python evaluation scripts ├── scripts/ # JSONL conversion, batch eval utilities ├── assets/ # Visual assets, diagrams, social cards ├── .github/ # Issue templates, PR templates, CI workflows ├── doctor.sh # Repo health check └── README.md ``` ## 许可协议 MIT — 详见 [LICENSE](LICENSE)。
Oneiron Holdings LLC 构建 · Antgall 框架生态系统的一部分
标签:DLL 劫持, RAG, 人工智能, 大模型评估, 大语言模型, 时序数据库, 模型微调, 模型校准, 用户模式Hook绕过, 逆向工具, 防御加固