inclusionAI/AReaL

GitHub: inclusionAI/AReaL

面向大语言模型推理与智能体的大规模异步强化学习训练系统，支持多种主流RL算法和训练/推理后端。

Stars: 3995 | Forks: 338

AReaL：大规模异步强化学习系统

AReaL 是一个开源的**全异步**强化学习训练系统，专为大型**推理与智能体模型**（reasoning and agentic models）设计，由清华大学交叉信息研究院（IIIS）成员与蚂蚁集团 AReaL 团队联合开发。该项目基于开源项目 [ReaLHF](https://github.com/openpsi-project/ReaLHF) 构建，我们坚定奉行开源原则，提供了复现结果所需的训练细节、数据和基础设施，以及模型本身。AReaL 旨在帮助每个人轻松且低成本地构建属于自己的 AI Agent。我们的团队热爱奶茶，因为它美味、可定制且实惠——我们希望您喜欢这个项目，就像喜欢真正的奶茶一样。干杯！ **AReaL 亮点** - ⚡ **灵活性**：只需替换 `base_url`，即可无缝定制 [智能体 RL](https://inclusionai.github.io/AReaL/en/tutorial/agentic_rl.html) 和 [在线 RL 训练](./examples/openclaw/)。 - 📈 **扩展性**：具备**行业领先速度**且**稳定**的全异步 RL 训练。 - ✨ **前沿性能**：提供最先进的 [数学](/blog/AReaL_v0_2.md)、[编程](/blog/AReaL_v0_3.md)、[搜索](https://github.com/inclusionAI/ASearcher) 和 [客户服务](https://arxiv.org/abs/2601.22607) 智能体。 ## 📰 新闻 **\[2026/03/02\]** 我们提供了 [一个完整的示例](./examples/openclaw/)，只需将 `base_url` 和 `api_key` 替换为 AReaL 的 RL 服务，即可训练您自己的 🦞 OpenClaw 智能体——无复杂依赖，无需修改代码，适用于任何智能体运行时！ **\[2026/02/06\]** 我们很高兴推出 **AReaL-SEA**，一个自进化数据合成引擎。结合 AReaL 上的 RL 训练，该 235B MoE 模型超越了 GPT 5，并在 $\tau^2$-bench 上取得了与 Gemini 3.0 Pro 相当的性能！请查看 [论文](https://arxiv.org/pdf/2601.22607)、[模型](https://huggingface.co/inclusionAI/AReaL-SEA-235B-A22B)、[数据](https://huggingface.co/datasets/inclusionAI/AReaL-tau2-data) 和 [代码](https://github.com/inclusionAI/AReaL/tree/main/examples/tau2)。 **\[2026/01/15\]** 祝贺我们的朋友 [CAMEL-AI](https://www.camel-ai.org/) 开源了 [SETA](https://github.com/camel-ai/seta)，这是一个使用 AReaL 训练的终端智能体 RL 项目！请查看 [他们的训练工作流](https://github.com/camel-ai/seta/tree/main/training/tbench_areal_workflow) 和 [X 上的公告](https://x.com/guohao_li/status/2009678513574408636)。

📋 历史版本

**\[2026/01/01\]** 新年快乐！感谢 @HwVanICI 的杰出贡献，我们激动地宣布 AReaL 现已正式支持在 **Ascend NPU 设备**上进行训练！代码在 [`ascend` 分支](https://github.com/inclusionAI/AReaL/tree/ascend) 中积极维护并持续更新。请查看 [我们的文档](https://inclusionai.github.io/AReaL/en/tutorial/installation_npu.html) 以开始使用，欢迎反馈任何问题！ **\[2025/08/30\]** 推出 ASearcher，一个通过 AReaL 端到端异步 RL 训练构建的最先进搜索智能体。请查看 [论文](assets/paper.pdf) 和 [开源仓库](https://github.com/inclusionAI/ASearcher)！ **\[2025/07/31\] (AReaL-lite)** 我们推出 AReaL-lite，这是 AReaL 的一个**轻量级**版本，专为 AI 研究人员和快速原型设计而打造。AReaL-lite 采用了**算法优先**的 API 设计，优先考虑易用性和算法开发，同时原生支持**全异步智能体 RL**。代码量减少 80%，但保留了 AReaL 90% 的性能和核心功能。请查看 [我们的 AReaL-lite 设计文档](/areal/README.md) 和 [快速入门指南](https://inclusionai.github.io/AReaL/en/tutorial/quickstart.html)，开启您的 **AReaL-lite** 之旅！ **\[2025/06/03\] (v0.3, boba²)** 我们发布了 **boba²** (double-boba) 用于全异步 RL 训练，与同步系统相比，它实现了 **2.77 倍的加速，同时提供了相当或更优的训练性能**。此外，异步 RL 显著简化了多轮智能体 RL 训练的设置！请查看 [我们的 v0.3 概览博客](/blog/AReaL_v0_3.md) 和 [研究论文](assets/paper.pdf)。 **\[2025/03/31\] (v0.2, boba)** 介绍我们的里程碑版本——boba！请叫它 A-ReaL-boba！此版本通过 SGLang 支持显著加快了训练速度，并提供了用于数学推理的最先进 7B 和 32B 模型。请查看我们的 [v0.2 技术博客](/blog/AReaL_v0_2.md)。 **\[2025/02/24\] (v0.1)** 我们的初始版本包含 1.5B 和 7B 大型推理模型 (LRM) 的可复现结果。请查看我们的 [v0.1 技术博客](/blog/AReaL_v0_1.md)。

## 🚀 快速入门首先，安装该包： ``` git clone https://github.com/inclusionAI/AReaL cd AReaL pip install uv uv sync --extra cuda ``` 我们的训练脚本会自动下载所需的数据集 (openai/gsm8k) 和模型 (Qwen/Qwen2-1.5B-Instruct)。要在单节点上运行： ``` python3 examples/math/gsm8k_rl.py --config examples/math/gsm8k_grpo.yaml scheduler.type=local ``` 要在包含 2 个节点且每个节点 8 个 GPU 的 Ray 集群上运行（请记得更新 YAML 文件中的路径以指向您的共享存储）： ``` python3 examples/math/gsm8k_rl.py --config examples/math/gsm8k_grpo.yaml \ cluster.n_nodes=2 cluster.n_gpus_per_node=8 \ scheduler.type=ray ``` 有关全面的设置说明，请参阅 [我们的快速入门指南](https://inclusionai.github.io/AReaL/en/tutorial/quickstart.html)。 ## 📚 示例 ### 数学与推理 | 任务 | 描述 | 性能 | | --------------------------------------------------- | -------------------------------------------------------------------------------------------- | ----------------------------------------------------------------- | | **[数学](examples/math/)** | 使用 GRPO, PPO, DAPO, REINFORCE, RLOO, LitePPO, DR-GRPO, GSPO 等进行 GSM8K 数学推理 | - | | **[多轮数学](examples/multi_turn_math/)** | 具有跨轮次奖励折扣的多轮数学智能体 | [训练曲线](examples/multi_turn_math/reward_curve.png) | | **[LoRA 数学](examples/math/gsm8k_grpo_lora.yaml)** | 使用 LoRA 进行参数高效的数学训练 (SGLang/vLLM 后端) | - | | **[倒计时](examples/countdown/)** | 带有自定义奖励的倒计时数字游戏 | [训练曲线](examples/countdown/countdown_training_curve.png) | ### 智能体 RL | 任务 | 描述 | 性能 | | -------------------------------------------------------- | ---------------------------------------------------------------------- | ---------------------------------------------------------------------------- | | **[通用智能体](examples/agent_workflow/)** | 使用任意智能体框架进行的通用智能体训练 | [指南](docs/tutorial/agentic_rl.md) | | **[Tau2 客户服务](examples/tau2/)** | Tau2-Bench 上的客户服务智能体（零售、航空、电信） | [论文](https://arxiv.org/abs/2601.22607) | | **[搜索智能体](examples/search_agent/)** | 具有 Tongyi-DeepResearch 工作流的端到端搜索智能体 | [训练曲线](examples/search_agent/tongyi_deepresearch/reward_curve.png) | | **[工具集成推理](examples/tir/)** | 推理过程中的多轮工具调用（Python 执行器、计算器） | [训练曲线](examples/tir/figures/task_reward.png) | | **[OpenAI Agents 集成](examples/openai_agents/)** | 与 OpenAI Agents SDK 集成用于智能体工作流 | - | | **[CAMEL-AI 集成](examples/camel/)** | 与 CAMEL-AI 框架集成用于智能体 RL | - | ### 视觉-语言模型 | 任务 | 描述 | 性能 | | ----------------------------------- | --------------------------------------------------------- | ----------------------------------------------- | | **[VLM](examples/vlm/)** | 使用 GRPO 进行 Geometry3K 和 CLEVR Count 70K 视觉推理 | - | | **[NPU 上的 VLM](examples/vlm_npu/)** | 在华为 NPU 火件上进行 VLM 训练 | [基准测试结果](examples/vlm_npu/README.md) | ### 对齐与基础设施 | 任务 | 描述 | 性能 | | ----------------------------------------------- | ----------------------------------------------------- | ------------------------------------------------- | | **[RLHF 奖励建模](examples/alignment/)** | Anthropic HH-RLHF 上的 Bradley-Terry 奖励建模 | [训练曲线](examples/alignment/rw_curve.png) | | **[SkyPilot 部署](examples/skypilot/)** | 使用 SkyPilot (GCP, AWS, Kubernetes) 进行云部署 | [截图](examples/skypilot/README.md) | ## 🔧 支持矩阵 ### 🧠 算法所有 RL 算法均支持异步和同步版本，只需设置 `max_head_offpolicyness=0`。参见 [异步 RL 指南](docs/algorithms/async.md)。 | 算法 | 文档 | 论文 | 配置 | | ------------------------ | ----------------------------------------- | ---------------------------------------------- | ------------------------------------------------------------ | | **GRPO** | [📖 文档](docs/algorithms/grpo_series.md) | [📄 论文](https://arxiv.org/pdf/2402.03300) | [🔗 GSM8K 示例](examples/math/gsm8k_grpo.yaml) | | **GSPO** | [📖 文档](docs/algorithms/grpo_series.md) | [📄 论文](https://arxiv.org/abs/2507.18071) | [🔗 GSM8K 示例](examples/math/gsm8k_gspo.yaml) | | **PPO** | [📖 文档](docs/algorithms/grpo_series.md) | [📄 论文](https://arxiv.org/pdf/2203.02155) | [🔗 GSM8K 示例](examples/math/gsm8k_ppo.yaml) | | **DAPO** | [📖 文档](docs/algorithms/grpo_series.md) | [📄 论文](https://arxiv.org/abs/2503.14476) | [🔗 GSM8K 示例](examples/math/gsm8k_dapo_dynamic_bs.yaml) | | **LitePPO** | [📖 文档](docs/algorithms/grpo_series.md) | [📄 论文](https://arxiv.org/abs/2508.08221) | [🔗 GSM8K 示例](examples/math/gsm8k_liteppo.yaml) | | **Dr.GRPO** | [📖 文档](docs/algorithms/grpo_series.md) | [📄 论文](https://arxiv.org/abs/2503.20783) | [🔗 GSM8K 示例](examples/math/gsm8k_drgrpo.yaml) | | **REINFORCE++** | - | [📄 论文](https://arxiv.org/pdf/2501.03262) | [🔗 GSM8K 示例](examples/math/gsm8k_reinforce.yaml) | | **RLOO** | [📖 文档](docs/algorithms/grpo_series.md) | [📄 论文](https://arxiv.org/pdf/2402.14740v1) | [🔗 GSM8K 示例](examples/math/gsm8k_rloo.yaml) | | **SAPO** | [📖 文档](docs/algorithms/grpo_series.md) | [📄 论文](https://arxiv.org/abs/2511.20347) | [🔗 GSM8K 示例](examples/math/gsm8k_sapo.yaml) | | **M2PO** | [📖 文档](docs/algorithms/m2po.md) | [📄 论文](https://arxiv.org/abs/2510.01161) | [🔗 GSM8K 示例](examples/math/gsm8k_m2po.yaml) | | **RLHF 奖励建模** | - | - | [🔗 RLHF 示例](examples/alignment/) | | **SFT** | - | - | [🔗 GSM8K 示例](examples/math/gsm8k_sft.py) | ### 模型 | 模型系列 | Megatron | PyTorch FSDP | PyTorch Archon | 备注 | | -------------------------- | -------- | ------------ | -------------- | -------------------------------------------------------- | | **Qwen2/3** | ✅ | ✅ | ✅ | - | | **Qwen3-MoE** | ✅ | ✅ | ✅ | - | | **Qwen2.5-VL** | ❌ | ✅ | ❌ | 视觉-语言模型 | | **Qwen3-VL** | ❌ | ✅ | ❌ | 视觉-语言模型 | | **Gemma 3** | ❌ | ✅ | ❌ | 视觉-语言模型 | | **其他 Hugging Face LLM** | ❌ | ✅ | ❌ | 兼容性取决于 `transformers` 的版本 | 请查看 [AI 编程助手指南](docs/reference/ai_assisted_dev.md) 和 [Archon 参考]()，了解如何将新模型集成到 AReaL 中。 ### 训练后端 | 后端 | DP | 张量并行 | TP 内序列并行 | 上下文并行 | 流水线并行 | 专家并行 | 1D 序列打包 | LoRA | | ------------------ | ----------- | --------------- | --------------------------- | ---------------- | ----------------- | --------------- | ------------------- | ---- | | **Megatron** | ✅ (ZeRO-1) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | | **PyTorch FSDP** | ✅ (FSDP2) | ✅ | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ | | **PyTorch Archon** | ✅ (FSDP2) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ### 推理后端 | 后端 | 张量并行 | 上下文并行 | 流水线并行 | 数据并行注意力 | 专家并行 | | ---------- | --------------- | ---------------- | ----------------- | ----------------------- | --------------- | | **vLLM** | ✅ | ❓ | ✅ | ❓ | ❓ | | **SGLang** | ✅ | ❌ | ❌ | ✅ | ✅ | ## 📖 资源 ### 教程 - [安装](docs/en/tutorial/installation.md) - [快速入门](docs/en/tutorial/quickstart.md) - [智能体 RL](docs/en/tutorial/agentic_rl.md) - [评估](docs/en/tutorial/eval.md) - [使用 Megatron 训练大型 MoE](docs/en/tutorial/megatron.md) - [使用 PyTorch Archon 训练大型 MoE](docs/en/tutorial/archon.md) ### 代码解析 - [在 GSM8K 数据集上运行 GRPO](docs/en/tutorial/gsm8k_grpo.md) ### 最佳实践 - [提升算法性能](docs/en/best_practices/algo_perf.md) - [智能体工作流最佳实践](docs/en/best_practices/workflow.md) - [调试](docs/en/best_practices/debugging.md) - [处理 OOM (显存溢出) 问题](docs/en/best_practices/handling_oom.md) - [性能分析](docs/en/best_practices/perf_profiling.md) ### 定制化 - [自定义数据集](docs/en/customization/dataset.md) - [自定义智能体/RVLR Rollout 工作流](docs/en/customization/agent.md) ### 算法 - [异步 RL 详解](docs/en/algorithms/async.md) - [PPO、GRPO 及相关算法](docs/en/algorithms/grpo_series.md) - [M2PO](docs/en/algorithms/m2po.md) ### 参考 - [CLI 配置](docs/en/cli_reference.md) - [检查点](docs/en/reference/checkpointing.md) - [指标追踪](docs/en/reference/metrics_tracking.md) - [分配模式](docs/en/reference/alloc_mode.md) - [Rollout 工作流](docs/en/reference/rollout_workflow.md) - [智能体工作流](docs/en/reference/agent_workflow.md) - [AI 辅助开发](docs/en/reference/ai_assisted_dev.md) ## 🗺️ 未来路线图 - **[完整路线图](ROADMAP.md)** - **[2025 Q4 路线图](https://github.com/inclusionAI/AReaL/issues/542)** AReaL 正处于活跃开发中，计划每周发布小版本，每月发布大版本。我们热忱欢迎社区参与和贡献。我们也**正在积极招聘实习生和全职员工**，在美国和中国均有开放职位。 ## 📄 引用 ``` @inproceedings{mei2025real, author = {Mei, Zhiyu and Fu, Wei and Li, Kaiwei and Wang, Guangju and Zhang, Huanchen and Wu, Yi}, title = {ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation}, booktitle = {Proceedings of the Eighth Conference on Machine Learning and Systems, MLSys 2025, Santa Clara, CA, USA, May 12-15, 2025}, publisher = {mlsys.org}, year = {2025}, } ``` ``` @misc{fu2025areal, title={AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning}, author={Wei Fu and Jiaxuan Gao and Xujie Shen and Chen Zhu and Zhiyu Mei and Chuyi He and Shusheng Xu and Guo Wei and Jun Mei and Jiashu Wang and Tongkai Yang and Binhang Yuan and Yi Wu}, year={2025}, eprint={2505.24298}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2505.24298}, } ```

标签：Agentic RL, Ant Group, DLL 劫持, DNS解析, HPC, LLM, LLM训练系统, ReaLHF, Reasoning, RL, Scaling Law, SOTA, Tsinghua, Unmanaged PE, Vectored Exception Handling, 代码生成, 全异步系统, 凭据扫描, 分布式训练, 在线学习, 大语言模型, 开源项目, 异步训练, 强化学习, 微调, 推理能力, 搜索算法, 数学推理, 机器学习框架, 深度学习, 清华大学, 渗透测试工具, 蚂蚁集团, 逆向工具, 高性能计算