OneiroNexus/echo-payload
GitHub: OneiroNexus/echo-payload
一套用于缓解 LLM 幻觉、校准输出行为的结构化微调数据包与多指标评估工具集。
Stars: 0 | Forks: 0
# ⟁ echo-payload
[](https://opensource.org/licenses/MIT)
[](https://github.com/OneiroNexus/echo-payload/stargazers)
[](https://github.com/OneiroNexus/echo-payload/network/members)
[](CONTRIBUTING.md)
[](https://github.com/OneiroNexus/echo-payload)
[](docs/evaluation-harness.md)
**实用的 payload,用于缓解 LLM 幻觉、进行校准训练以及对抗过度拒答。**
10 个带标签的结构化数据包 · 7 项指标的评估套件 · 支持 JSONL · 兼容所有主流 LLM
[这是什么](#what-this-is) · [适用人群](#who-its-for) · [快速开始](#quick-start) · [数据包](#the-10-packets) · [基准测试](#benchmarks) · [LLM 兼容性](#llm-compatibility) · [贡献指南](#contributing)
## 这是什么
这是一个即开即用的集合,包含 **10 个结构化 payload 数据包**(带有标注的正确/错误示例)、用于校准回答的行为规范,以及一个 **7 项指标的评估套件**。
专为在生产环境的 LLM 工作流中直接使用而设计:
- ✅ 微调与偏好优化(DPO、ORPO、SFT)
- ✅ RAG 接地和引用忠实度测试
- ✅ 红队测试与 prompt injection 抵抗性评估
- ✅ 校准与弃权训练
- ✅ 构建自定义安全评估
- ✅ 多 LLM 基准测试(GPT-4o、Claude 3.5、Gemini 1.5、Llama 3、Mistral、Qwen、Phi-3)
所有数据包均采用简洁的 Markdown 格式,可直接转换为 **JSONL、CSV 或 Parquet** 以供训练 pipeline 使用。
## 适用人群
| 受众 | 用例 |
|---|---|
| LLM 微调工程师 | 使用数据包 01–06 构建 DPO/ORPO/SFT 偏好数据集 |
| RAG 与上下文工程团队 | 使用数据包 02、08、09 构建检索测试集 |
| AI 安全研究员 | 使用数据包 07、10 进行红队测试 |
| 评估实践者 | 适用于任何模型的 7 项指标评估套件 |
| 生产团队 | 直接引入以改善幻觉率和过度拒答问题 |
## 快速开始
```
# Clone 该 repo
git clone https://github.com/OneiroNexus/echo-payload.git
cd echo-payload
# 在任何 model 上运行 evaluation harness
python evals/harness.py --model gpt-4o --packets all
# 将 packet 转换为 JSONL 用于 fine-tuning
python scripts/convert_to_jsonl.py --packet packets/05-anti-sycophancy.md --output training.jsonl
# 运行 doctor check
bash doctor.sh
```
## 10 个数据包
| # | 数据包 | 重点 | 关键指标 |
|---|---|---|---|
| 01 | [校准与置信度](packets/01-calibration-confidence.md) | 置信度标注,ECE 降低 | Calibration Error |
| 02 | [引用忠实度](packets/02-citation-faithfulness.md) | 来源接地,引用准确性 | Citation F1 |
| 03 | [弃权训练](packets/03-abstention-training.md) | “我不知道”的行为 | Abstention Precision |
| 04 | [时间接地](packets/04-temporal-grounding.md) | 对日期敏感的事实,截止日期意识 | Temporal Error Rate |
| 05 | [反盲从](packets/05-anti-sycophancy.md) | 反驳错误前提 | Sycophancy Rate |
| 06 | [数值精度](packets/06-numeric-precision.md) | 数字准确性、四舍五入、不确定性 | Numeric Hallucination % |
| 07 | [Prompt Injection 抵抗](packets/07-prompt-injection-resistance.md) | 对抗性注入,系统 prompt 泄漏 | Injection Resistance % |
| 08 | [RAG 上下文接地](packets/08-rag-context-grounding.md) | 上下文忠实度,检索保真度 | Faithfulness Score |
| 09 | [来源出处](packets/09-source-provenance.md) | 来源归属,出处链 | Provenance Accuracy |
| 10 | [对抗鲁棒性](packets/10-adversarial-robustness.md) | 已知的幻觉攻击,越狱探测 | Robustness Score |
## 基准测试
| 模型 | 幻觉率 | 校准误差 | 过度拒答率 | Injection 抵抗率 |
|---|---|---|---|---|
| Llama-3-8B-Instruct (base) | 17–22% | 0.19–0.25 | 21–28% | 55–65% |
| GPT-4o (base, no SFT) | 8–12% | 0.10–0.14 | 12–18% | 74–82% |
| Claude 3.5 Sonnet (base) | 7–11% | 0.08–0.12 | 10–15% | 80–88% |
| Llama-3-8B + echo-payload SFT | 9–12% | 0.11–0.15 | 12–17% | 78–85% |
| Mistral-7B + echo-payload SFT | 11–14% | 0.13–0.17 | 14–19% | 72–79% |
## LLM 兼容性
| 提供商 | 模型 | 集成方式 |
|---|---|---|
| OpenAI | GPT-4o, GPT-4o-mini, o1, o3 | Axolotl, OpenAI 微调 API |
| Anthropic | Claude 3.5 Sonnet, Claude 3 Haiku | Constitutional AI + DPO |
| Google DeepMind | Gemini 1.5 Pro, Gemini 2.0 Flash | Vertex AI 微调 |
| Meta | Llama 3.1, Llama 3.3 | Llama-Factory, Axolotl |
| Mistral AI | Mistral 7B, Mistral Large | Mistral 微调 API |
| Alibaba | Qwen2.5-7B, Qwen2.5-72B | LLaMA-Factory |
| Microsoft | Phi-3, Phi-4 | Azure AI 微调 |
| EleutherAI | Pythia, GPT-NeoX | lm-evaluation-harness |
有关各模型的集成指南,请参阅 [`docs/llm-compatibility.md`](docs/llm-compatibility.md)。
## 仓库结构
```
echo-payload/
├── packets/ # 10 structured payload packets (Markdown)
├── docs/ # Evaluation harness, benchmarks, architecture
├── evals/ # Python evaluation scripts
├── scripts/ # JSONL conversion, batch eval utilities
├── assets/ # Visual assets, diagrams, social cards
├── .github/ # Issue templates, PR templates, CI workflows
├── doctor.sh # Repo health check
└── README.md
```
## 许可协议
MIT — 详见 [LICENSE](LICENSE)。
由 Oneiron Holdings LLC 构建 · Antgall 框架生态系统的一部分
标签:DLL 劫持, RAG, 人工智能, 大模型评估, 大语言模型, 时序数据库, 模型微调, 模型校准, 用户模式Hook绕过, 逆向工具, 防御加固