ashioyajotham/ai_research

GitHub: ashioyajotham/ai_research

个人维护的AI研究笔记与实验日志，涵盖从统计语言模型到Transformer的技术演进、大模型对齐与可解释性等前沿话题，附带可复现的代码片段和论文指引。

Stars: 1 | Forks: 0

# AI 研究 — 笔记与日志本仓库是一个持续更新的研究日志：包含笔记、实验记录、短文以及我在探索机器学习、对齐和大模型时使用的小工具。内容由我个人筛选和维护 — 我不接受外部贡献。内容务实且以证据为导向：可复现的代码片段、论文指引以及可运行的笔记。请参阅顶层文件夹以获取整理好的资料（例如 `LangChain/`、`Finetuning/`、`Embeddings/`）。 ## 意图与信号 * 目的：个人研究日志和参考索引。 * 基调：在适当之处保持技术性和批判性；在可能的情况下保持简洁。 * 可用性：私人整理；请勿提交 pull request 或期待正式审查。 ## 技术演变史：从 N-grams 到 Transformers（及其重要性）本节追溯了塑造现代序列建模的思想脉络和失败模式。我之所以包含这部分内容，是因为理解每次转变*为何*发生——什么崩坏了，又获得了什么——对于理解当前的局限性至关重要。 ### N-grams 和统计语言建模早期的语言模型（香农的信息论、马尔可夫链、Katz 平滑）通过统计 n-gram 并应用平滑技术（Good-Turing、Kneser-Ney 等）来估计 $P(\text{next token} | \text{context})$。这些模型具有可解释性：你可以看到哪些 n-gram 驱动了预测并调试失败案例。但它们存在硬性限制： * 上下文窗口是固定且较小的（通常为 2–5 个 token）。 * 统计稀疏性：即使使用平滑技术，罕见 n-gram 的估计效果也很差。 * 没有习得的表示；词语之间的相似性必须手动编码。尽管存在这些限制，n-gram 模型在几十年里一直为搜索引擎和语音识别提供支持，并且在异常检测和语言学分析中仍然有用。 **关键参考文献：** Shannon (1951), Katz (1987) 关于回退平滑，Kneser & Ney (1995) 关于修正计数。 ### 神经网络方法：RNN、LSTM 与序列瓶颈在 1990 年代和 2000 年代，循环神经网络（RNN）和长短期记忆网络（LSTM；Hochreiter & Schmidhuber, 1997）提供了习得的表示，并且比固定窗口的 n-gram 拥有更好的长程建模能力。核心洞见在于：隐藏状态 $h_t$ 总结了历史信息，使网络能够在长序列中传递信息。重要性：LSTM 解决了梯度消失问题，并证明了神经序列模型可以学习层次化的抽象表示。它们推动了机器翻译、语音和序列标注的进步。局限性： * **序列瓶颈：** 处理 token $t$ 需要来自 token $t-1$ 的输出。这阻碍了训练期间的并行化（随着数据和模型规模的增长，这是一个主要的可扩展性问题）。 * **长程依赖仍然脆弱：** 即使是 LSTM 也难以可靠地关注远处的上下文；注意力权重会衰减或淹没在噪声中。 * **没有有效的方法来重新加权序列中的重要性：** 隐藏状态是一个瓶颈，所有历史信息都必须通过它传递。 **关键参考文献：** Hochreiter & Schmidhuper (1997, LSTMs), Cho et al. (2014, GRUs), Bahdanau et al. (2015, 加性注意力)。 ### 注意力机制与 Transformer (2017) Bahdanau 等人 (2015) 引入了*注意力*：一种计算编码器输出加权和的机制，让解码器能够“查看”输入的相关部分，而没有紧密的瓶颈。这是关键的一步，但注意力是嫁接在 RNN 上的；你仍然面临顺序编码的问题。 Vaswani 等人 (2017) 在《Attention Is All You Need》中走得更远：完全移除循环。使用*自注意力*（并行计算所有 token 之间的交互）并将它们堆叠成 Transformer。核心洞见： $$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$ 其中 $Q$、$K$、$V$（查询、键、值）是习得的投影。这允许： * **大规模并行训练：** 所有 token 在一次前向传递中交互；没有序列依赖性。 * **直接的长程连接：** 任何 token 都可以通过一跳（或多头/多层注意力中的几跳）关注任何其他 token。 * **高效扩展：** 有了合适的硬件（GPU、TPU），你可以在更大的数据集和模型上进行训练。这种架构选择被证明是语言的正确抽象。当与大规模预训练（BERT、GPT）结合时，它成为了现代 LLM 的基石。 **关键参考文献：** Vaswani et al. (2017), Devlin et al. (2019, BERT), Radford et al. (2019, GPT-2)。 ### 联系：解决特定瓶颈叙述不是“神经优于统计”——而是“每一步都消除了阻碍规模化学习的计算瓶颈”。N-gram 受限于上下文大小和稀疏性。RNN 消除了上下文大小限制，但遇到了序列训练瓶颈。Transformer 消除了序列瓶颈，从而能够在多样化数据上进行大规模预训练。讽刺的是：每一步都带来了新问题。LSTM 难以并行化，但仍然可解释。Transformer 并行化完美，但其注意力模式和内部表示是不透明的。这种不透明性部分解释了为什么我们今天面临“幻觉”、脆弱的推理和对齐挑战。 ## 当前关注领域 * 对齐与安全：失败模式、奖励错置以及鲁棒监督的方法。 * 幻觉与接地：当模型产生自信但错误的输出时，以及如何将输出锚定到可验证的上下文。 * 可解释性：机制调查、电路级结构和表示分析。 * 扩展与能力分析：跟踪随规模变化的行为，同时避免简单的涌现叙事。 * 世界模型：支持规划和长程推理的潜在模拟器和基于模型的方法。 ## 预测：为何是世界模型，而不仅仅是更大的 LLM 我怀疑仅靠扩展语言建模是否能通向 AGI 或鲁棒的推理。以下是我的观点： **LLM 的天花板：** 大语言模型是统计压缩引擎。它们擅长在训练数据覆盖良好的领域预测合理的文本续写。但是： * 它们不规划；它们不在心智模型中形成并验证假设。 * 当被要求推理训练分布之外的场景时，它们会胡编乱造（分布鲁棒性很差）。 * 它们没有关于因果或后果的内部模型；它们学习文本中的相关性，有时偶然提取出因果结构。 * 仅靠扩展无法解决这些问题；它只会让胡编乱造更加流畅。 **世界模型假设：** 相反，我相信下一个前沿是*学习紧凑的、可模拟的环境模型*——世界模型。这些将支持： * **规划：** 运行前向模拟以评估行动序列的智能体。 * **反事实推理：** “如果我做 X 会怎样？” * **迁移与泛化：** 从一个领域学习的物理或社会动力学模型可以应用于新领域。 * **可解释性：** 习得的模拟器具有明确的动力学，可以被检查和调试。这并非新想法（Ha & Schmidhuber, 2018; Schmidhuber 在 1990 年代关于好奇智能体的工作）。但我认为相对于 LLM 扩展，这一领域被探索不足。Yann LeCun 1989 年关于基于能量的模型的工作以及他最近关于 AI 未来的文章都指向世界模型的核心地位。这种趋同并非偶然。 **当前研究：** 像 V-JEPA (LeCun et al., 2023)、MuZero (Schaal et al., 2020) 这样的模型以及最近在基于模型的 RL 方面的工作表明这是可行的。但这种范式不如 LLM 扩展那样受炒作和资金青睐。我将世界模型视为更有趣的前沿。 **警告：** LLM 可能仍将作为组件（推理引擎、书面输出、规划辅助）保持有用。我的主张是仅靠 LLM 是不够的；我们需要它们*嵌入在*世界模型中，而不是作为顶层系统。 ## 灵感来源与实验室一些塑造我研究思考方式的人和组织： **Yann LeCun。** 他 1989 年关于基于能量的模型和卷积网络的工作确立了支撑现代深度学习的原则（习得的层次结构、归纳偏置、高效架构）。最近，他关于“AI 的未来”和世界模型的文章很有先见之明：他令人信服地论证了仅靠 LLM 的方法是不够的，学习世界模型至关重要。他几十年来的一致性罕见且令人敬佩。 **Dario Amodei 和 Anthropic。** Dario 联合创立了 OpenAI，但离开并创立了 Anthropic，专注于可解释性和安全。Anthropic 关于机制可解释性的研究（例如电路、叠加、导向向量）是我见过的最严谨和可复现的研究之一。他们将安全视为塑造架构选择的约束，而不是事后诸葛亮。这种智识上的诚实——发表负面结果、承认不确定性——在一个充满炒作的领域里是罕见的。 **Chris Olah 和机制可解释性。** 他关于神经网络的可视化文章（例如“Distill”博客）设定了清晰度和严谨性的标准。他关于叠加和多义神经元的工作开启了关于习得表示中实际发生了什么的新问题。启发了 Anthropic 的可解释性议程。 **Neel Nanda 和 Janus。** Neel 关于机制可解释性和电路分析的公开工作（在 LessWrong、Alignment Research Center 上）极其彻底且可复现。他专注于小型、可解释的模型作为试验台是务实的——在声称理解 GPT-4 之前先理解 GPT-2。Janus 关于智能体、世界模型和认知结构的文章非常独到，往往领先于主流话语。 **Andrej Karpathy。** 他的教学（神经网络课程，“Neural Networks: Zero to Hero”）揭开了深度学习的神秘面纱，让你仔细思考你在构建什么。他加入 Tesla 然后回归 AI 研究的举动反映了他愿意在现实世界中检验想法。他对单纯 AI 扩展的怀疑（隐含在他的轨迹中）与世界模型思维相一致。 **DeepMind。** 以聘请顶尖数学家和科学家并给他们空间追求长期、高风险赌注而闻名。他们的工作涵盖因果推理（Pearl 的工作、因果图）、世界模型（RSSM、Dreamer）以及 RL 的基本问题。他们将 AI 视为科学发现的工具，而不仅仅是预测。这种框架吸引着提出更深层次问题的人。 **OpenAI。** OpenAI 将 LLM 扩展到了主流视野。但他们最近在推理方面的工作（o1 思维链）以及对能力基准的强调表明，他们也认识到了 LLM 的局限性并正在探索下一步。尽管如此，我认为他们更专注于扩展和部署，而不是机制理解或安全。 **Anthropic（再次）。** 我两次列出他们，因为他们将可解释性作为首要研究目标——而不是副业——是独一无二的。Dario 关于 AI 风险和可解释性的公开写作深思熟虑，拒绝简单的叙事。他们的招聘和研发方向表明，他们正在认真对待“LLM 令人印象深刻”与“LLM 安全或可控”之间的差距。 **我的观点：** AI 中最有趣的工作发生在怀疑主义与严谨性交汇的地方。DeepMind 和 Anthropic 培养了这种文化。OpenAI 拥有规模和资源，但我怀疑其内部批判较少。Yann 对世界模型优于 LLM 扩展的坚持是对炒作的有益制衡。Neel 对*小型*模型可解释性的关注（因为你可以真正调试它们）是正确的研究策略。我追随他们的步伐。 ## 我关注的关键 AI 安全问题 1. 规范与奖励设计：错误指定的目标会导致不良的优化。 2. 可解释性差距：从内部状态到行为的有限映射阻碍了安全干预。 3. 鲁棒性与分布偏移：新条件下的隐性失败是系统性风险。 4. 能力过剩与滥用：能力的快速提升可能超越治理和理解。 5. 可扩展监督：人类反馈、自动化评估和鲁棒的评估工具需要研究投入。 ## 精选阅读与指引 * Vaswani et al., "Attention Is All You Need" (2017) — Transformer 架构。 * 关于世界模型的工作（Ha & Schmidhuber）以及基于模型的表示学习的后续研究。 * 最近关于幻觉、扩展定律和机制可解释性的调查和论文（见文件夹中的本地副本和笔记）。如需精选的公开资料，请参阅我的网站：[ashioyajotham.github.io](https://ashioyajotham.github.io/)（研究、项目和博客链接都在那里）。研究中的首批收藏***************** 1. [Exploiting Novel GPT-4 APIs](https://arxiv.org/abs/2312.14302) 2. [Orca: Progressive Learning from Complex Explanation Traces of GPT-4](https://arxiv.org/pdf/2306.02707) * *大型语言模型能自己训练自己吗？* 致谢：[Cameron Wolfe](https://cameronrwolfe.substack.com/p/orca-properly-imitating-proprietary)，通过此 [twitter 线程](https://twitter.com/cwolferesearch/status/1673398297304911872) 发现。 ## 我如何使用本仓库 * 快速笔记和书签：记录观察结果的简短 markdown 文件。 * 笔记本：实验轨迹和可复现步骤（查看 `Finetuning/`、`Embeddings/`、`LangChain/`）。 * 脚本和：用于测试或复现想法的小工具。 ## 实际事项 * 许可和贡献：个人收藏；不接受贡献。 * 联系方式和来源：公开资料和博客链接在我的网站上；请使用这些渠道进行咨询。

标签：AI研究, Apex, DLL 劫持, LangChain, N-gram, NoSQL, Transformer, 个人知识库, 人工智能, 信息论, 凭据扫描, 大语言模型, 实验记录, 序列建模, 微调, 技术日记, 机器学习, 模型对齐, 深度学习, 用户模式Hook绕过, 研究笔记, 系统调用监控, 论文阅读, 词嵌入, 轻量级, 逆向工具