nex-agi/Nex-N2
GitHub: nex-agi/Nex-N2
Nex-N2 是一款具备 Agentic Thinking 能力的开源智能体模型,旨在通过统一推理与执行闭环来高效完成编码、工具调用等复杂长周期任务。
Stars: 231 | Forks: 20
🤗 模型   |   
💻 Github   |   
🧭 ModelScope   |   
🚀 Nex-AGI   |   
🔀 OpenRouter(6月9日起免费体验两周!)
# Nex-N2
**具备 Agentic Thinking 的智能体模型。**
今天,我们正式发布并开源下一代模型 **Nex-N2** —— 一款专为真实生产力场景打造的智能体模型。凭借一流的 coding 和 agentic 能力,Nex-N2 能够在真实环境中持续推动复杂的长周期任务,以交付稳定、端到端的结果。
在过去的一年中,由 Vibe Coding 和 Harness Engineering 引领的范式转变正在重新定义 LLM 智能体的极限。从对话,到推理,再到结合环境反馈执行长周期任务的智能体,模型所需处理的任务难度不断提升,上下文越来越长,环境也愈发贴近现实。下一代模型竞争的核心不再在于*模型是否能够思考*,而在于它能否可靠、高效地将思考转化为可执行、可验证且可迭代的行动。
Nex-N2 不再将推理、工具使用和环境执行视为孤立的能力,而是通过 **Agentic Thinking** 框架将它们统一起来,将需求理解、任务规划、代码实现、环境反馈、评估与调试以及持续迭代连接成一个单一的闭环。该框架包含两部分:
- **Adaptive Thinking** 让模型自主决定何时思考以及思考的深度 —— 对简单动作快速执行,同时对关键决策进行充分推理。
- **Coherent Thinking** 在通用推理和多样的智能体任务中贯穿一致的推理范式,在跨任务和跨模态间保持一致,从而实现稳定的能力迁移。
在真实的智能体工作流中 —— agentic coding、深度研究、工具调用和终端执行 —— Nex-N2 均达到了一流水平,并在多个权威基准测试中相较上一代的 Nex-N1 取得了显著提升。在 OpenClaw 一人公司工作流、端到端游戏开发以及网络和多模态生成等真实生产力场景中,它同样展现出了卓越的可用性、鲁棒性和稳定性。
## 开源
秉持对开源的承诺,我们即日起将 **Nex-N2-Pro** 和 **Nex-N2-mini** 作为开源模型发布。
- **Nex-N2-Pro:** [Hugging Face](https://huggingface.co/nex-agi/Nex-N2-Pro) | [ModelScope](https://www.modelscope.cn/models/nex-agi/Nex-N2-Pro)
- **Nex-N2-mini:** [Hugging Face](https://huggingface.co/nex-agi/Nex-N2-mini) | [ModelScope](https://www.modelscope.cn/models/nex-agi/Nex-N2-mini)
- **抢先体验:** [SiliconFlow](https://cloud.siliconflow.cn/me/models?target=nex-agi%2FNex-N2-Pro)
我们欢迎开发者和企业集成并体验 Nex-N2,并分享您的反馈。
## 性能表现
我们沿着三个方向 —— agentic 任务、coding 任务和通用任务 —— 在真实的智能体工作流中评估了 Nex-N2,涵盖了工具调用、基于搜索的决策、软件工程和终端执行等基准测试。Nex-N2-Pro 表现强劲,与 GPT-5.5 和 Opus 4.7 等顶尖模型并驾齐驱:它在 coding(例如在 Terminal-Bench 2.1 上取得 75.3)和长周期任务(在 GDPval 上取得 1585)上表现出色,并在 SWE-Atlas 和 DeepSWE 等较新的基准测试中展现出尤为出色的泛化能力和竞争力。在通用能力和核心推理方面,它与领先的 frontier 模型不相上下。

Nex-N2 提供两个版本,均在 Qwen3.5 系列基础上进行 post-training:**Nex-N2-Pro**(基于 `Qwen3.5-397B-A17B` 构建)和 **Nex-N2-mini**(基于 `Qwen3.5-35B-A3B-Base` 构建),以覆盖不同的延迟与质量权衡。下表展示了它们在我们的完整评估套件中与领先的闭源及开源模型的得分对比。
| Benchmark | **Nex-N2-mini** | **Nex-N2-Pro** | GPT-5.5 | Opus 4.7 | Kimi-K2.6 | GLM-5.1 | MiniMax M3 | DeepSeek-V4-Pro |
| --- | --- | --- | --- | --- | --- | --- | --- | --- |
| **Agent** | | | | | | | | |
| BrowseComp | 74.1 | 83.7 | 84.4 | 79.8 | 83.2 | 79.3 | 83.5 | 83.4 |
| GDPval | 1402 | 1585 | 1769 | 1753 | 1481 | 1535 | - | 1554 |
| Toolathlon | 33.3 | 51.9 | 55.6 | 52.8 | 50.0 | 40.7 | - | 51.8 |
| WildClawBench | 47.7 | 53.5 | 58.2 | 62.2 | - | 48.2 | - | 43.7 |
| WideSearch | 62.0 | 75.6 | - | - | 80.8 | - | - | - |
| TAU3 | 65.9 | 71.1 | - | - | - | 70.6 | - | - |
| **Coding & SWE** | | | | | | | | |
| SWE-Bench Pro | 50.2 | 58.8 | 58.6 | 64.3 | 58.6 | 58.4 | 59.0 | 55.4 |
| Terminal-Bench 2.1 | 60.7 | 75.3 | 83.4 | 69.7 | - | 58.7 | 66.0 | 72.0 |
| DeepSWE | 8.0 | 33.6 | 70 | 54 | 24 | 18 | - | 8 |
| SWE-Bench Verified | 74.4 | 80.8 | 82.9 | 87.6 | 80.2 | - | 80.5 | 80.6 |
| SWE Atlas QnA | 31.5 | 37.9 | 45.4 | 45.2 | - | - | 37.9 | - |
| SWE Atlas RF | 30.0 | 32.9 | 44.8 | 48.6 | - | - | - | - |
| SWE Atlas TW | 23.3 | 40.0 | 42.6 | 38.2 | - | - | 30.8 | - |
| **General & Reasoning** | | | | | | | | |
| GPQA Diamond | 82.6 | 90.7 | 93.6 | 94.2 | 90.5 | 86.2 | - | 90.1 |
| IFEval | 89.1 | 94.0 | - | - | 94.5 | 94.5 | - | 91.9 |
| Apex | 9.4 | 36.5 | - | - | 24.0 | 11.5 | - | 38.3 |
## 用法
### 本地部署
首先,安装我们的 `sglang` fork 版本:
```
# 使用定制的 `sglang` 分支
git clone https://github.com/nex-agi/sglang.git
cd sglang
# 安装 python 包
pip install --upgrade pip
pip install -e "python"
```
#### Nex-N2-Pro
启动服务(示例为在两台 8× H100 服务器上使用 CUDA 13.0):
```
# 多节点(2个节点)。在每个节点上运行相同的命令,其中:
# 标签:DLL 劫持, Vectored Exception Handling, 人工智能, 代码生成, 任务自动化, 大语言模型, 模型权重, 渗透测试工具, 用户模式Hook绕过, 请求拦截, 逆向工具