j1374483500-dot/delphi-energy

GitHub: j1374483500-dot/delphi-energy

一个基于多角色对抗推理的AI决策审计系统，通过7个推理角色交叉审查、证据分级和事前验尸分析，帮助用户在高风险决策中识别认知偏见与思维盲区。

Stars: 0 | Forks: 0

# Delphi Energy **状态**: v1.1 — 功能已完全符合设计规范。采用 MIT 许可证。 ## 它的作用大多数 AI 助手表现得像顺从的总结器。它们验证你的框架，整理信息，并生成看似合理的答案。这在写作时很有用。**但对于高风险决策来说却是危险的。** Delphi Energy 会像一位值得信赖的战略顾问那样向你提出挑战。它会让你的问题经过以下环节： - **7 个并行推理角色** — Advocate（倡导者）、Skeptic（怀疑者）、Realist（现实主义者）、Long-Termist（长期主义者）、Game Theorist（博弈论者）、Black Swan Scout（黑天鹅侦察员）、Analogist（类比者） - **交叉审查** — Skeptic 拷问 Advocate - **红蓝对抗** — 攻击的是*你*，而不是问题（沉没成本、身份防御、动机性推理） - **多模型 Skeptic 异议** — 在高风险问题上，在两个不同的 LLM 上运行 Skeptic 并揭示分歧 - **反事实基线** — 生成 2-3 个真实的备选方案，确保最终结论不是稻草人对比 - **证据审计员** — 为每个主要主张评定 A/B/C/D 等级 - **Judge（裁判）** — 综合所有信息，包括 Pre-Mortem（事前验尸）、时间跨度划分（当前 / 3-12个月 / 1-3年 / 3-10年）、矛盾图、证据阈值检查、噪音警告、置信度（频率框架表述——“在 10 个类似案例中，此判断大约正确 7 次”）、一句话赌注、最大风险，以及 24小时第一张多米诺骨牌行动计划 - **第二轮交叉审查** — 如果 Pre-Mortem 暴露了第一轮遗漏的攻击向量，则自动触发 - **可选深入追问** — `--drill skeptic:"如果资金链只能维持 1 个月呢？"` 可以向任何角色提出后续问题输出分为两层：一份决策简报（适合在 Discord 中展示），以及一份可以在 6 周后重新查阅的完整审计追踪 Markdown 账本。 ## 快速开始 ``` git clone delphi-energy cd delphi-energy pip install -r requirements.txt export OPENAI_API_KEY=sk-... python delphi.py "should I take the job offer?" ``` 你将在终端中看到决策简报，完整的审计追踪将保存到 `./ledger/2026-MM-DD_.md`，并且每个阶段的进度会实时流式传输到标准错误输出 (stderr)。 ## 配置全部通过环境变量进行配置（无需配置文件）： | 变量名 | 默认值 | 用途 | |---|---|---| | `OPENAI_API_KEY` | （必填） | LLM 身份验证 | | `OPENAI_BASE_URL` | OpenAI 默认值 | 覆盖基础 URL — 适用于 DeepSeek、Together、Groq、OpenRouter、vLLM 等。 | | `DELPHI_DEFAULT_MODEL` | `gpt-4o-mini` | 大多数角色使用的模型 | | `DELPHI_JUDGE_MODEL` | （与默认值相同）| Judge 阶段使用的模型（如果预算允许，建议使用更强的模型） | | `DELPHI_INTAKE_MODEL` | （与默认值相同）| 输入阶段使用的模型（低成本实用型） | | `DELPHI_SKEPTIC_ALT_PROVIDER` | （主提供商） | 用于多模型异议 Skeptic 的提供商 | | `DELPHI_SKEPTIC_ALT_MODEL` | `gpt-4o` | 用于多模型异议 Skeptic 的模型 | | `DELPHI_LEDGER_DIR` | `./ledger/` | 账本 md 文件的存放目录 | | `DELPHI_BUDGET_USD` | `1.00` | 每次运行的软预算上限 | | `DELPHI_DISCORD_WEBHOOK_URL` | （关闭） | 启用 DiscordWebhookNotifierAdapter | ## CLI ``` python delphi.py "" # standard pipeline python delphi.py "" --dry-run # preview structure, no LLM calls python delphi.py "" --no-vault # stdout only, don't write file python delphi.py "" --no-notify # skip Discord/etc, vault + stdout python delphi.py "" --no-stream # suppress per-stage progress python delphi.py --describe # print metadata JSON, exit python delphi.py "" --drill skeptic:"if runway were 1 month?" ``` ## 适配器模式（用于插件集成）管道（Pipeline）与 4 个抽象适配器进行通信： | 适配器插槽 | 默认实现 | 作用 | |---|---|---| | `llm` | `OpenAILLMAdapter` | LLM 调用（必填） | | `memory` | `NoOpMemoryAdapter` | 长期上下文（例如 Honcho 辩证记忆） | | `bias` | `NoOpBiasAdapter` | 历史用户偏见警告（偏好层） | | `notifier` | 如果有环境变量配置则为 Discord，否则为 no-op | 将简报推送到外部某处 | 在模块加载时覆盖它们中的任何一个： ``` from delphi import ADAPTERS, run_delphi # 接入你自己的 LLM（例如 Anthropic、本地模型、自定义 proxy） ADAPTERS["llm"] = MyAnthropicAdapter() # 连接长期记忆 ADAPTERS["memory"] = MyHonchoAdapter(...) transcript = run_delphi("your question") print(transcript.render()) ``` 请参阅 `examples/` 中的模板： - `examples/basic.py` — 最基础的 Python 用法 - `examples/openclaw_adapter.py` — 与 OpenClaw 集成（或任何 agent 框架 — 适配器模式是相同的） - `examples/hermes_adapter.py` — 与 Hermes 集成（Delphi 最初为之构建的框架） - `examples/honcho_adapter.py` — 接入 Honcho 记忆适配器 - `examples/multi_provider.py` — 将不同的角色路由到不同的提供商 ## 设计哲学 7 项原则，全部由管道强制执行： 1. **回答前先重构问题** — 许多糟糕的判断源于糟糕的提问框架 2. **生成结构化的反对意见** — 至少有一个角色会攻击用户陈述或暗示的偏好 3. **评定证据等级** — A/B/C/D，确凿数据 ≠ 媒体炒作 ≠ 创始人魅力 4. **应用能量约束** — 仅在可能改变结论时才进行深入挖掘 5. **将判断转化为行动** — 每次运行都以一个 24 小时的“第一张多米诺骨牌”行动计划结束 6. **使不确定性可审计** — 置信度 + 什么能改变我的想法 + 最大风险是必填字段 7. **不要在声称降噪的同时制造噪音** — 简短的简报优先，深度的审计其次完整设计文档：参见 `DESIGN.md`。 ## 成本与延迟使用 `gpt-4o-mini` 负责大多数角色 + `gpt-4o` 负责 Judge 的实际测量数据： | 路径 | LLM 调用次数 | 实际运行时间 | 成本 | |---|---|---|---| | Lite（高频 / 低成本问题） | 6 | ~120s | ~$0.02 | | Standard | 12 | ~240s | ~$0.05 | | High-stakes（包含多模型异议 + 第二轮审查） | 16 | ~330s | ~$0.10 | 实际运行时间主要取决于 Judge 调用（60-100秒）。成本上限为 `DELPHI_BUDGET_USD`（默认为 $1.00）—— 当达到上限的 80% 时，Delphi 会裁剪后续阶段。 ## 反幻觉早期版本会产生具体细节的幻觉。v0.9 修复了这个问题： - Intake（输入）阶段会提取一个 `user_asserted_facts` 白名单 - Judge 的提示词强制要求：任何具体的数字 / 版本 / 竞争对手都必须能追溯到用户 / 记忆 / 过去账本 / 角色输出，否则必须使用条件性语言（“如果 X 那么 Y”）或标记为 `[推测]` ## 许可证 MIT — 详见 `LICENSE`。 ## 致谢 Delphi Energy 最初是在 Hermes 项目中作为一项私有技能设计和开发的。本仓库是其开源提取版本；原始设计文档是规格基准，并且管道经历了 9 个版本（v0.1 → v1.1）的迭代后才得以发布。最初的设计理念（为什么每个阶段存在，哪些被舍弃以及原因）保留在 `DESIGN.md` 中。

标签：AI智能体, AI红队, C2, DLL 劫持, MIT开源, Petitpotam, Pre-Mortem, Python, 交叉检验, 人工智能, 决策支持系统, 单文件应用, 复杂决策, 多模型集成, 多角色辩论, 大语言模型, 对抗性推理, 思维链, 战略顾问, 提示词工程, 无后门, 用户模式Hook绕过, 策略决策点, 自动审计日志, 证据审计, 适配器模式, 逆向工具, 逆向思维