Mobile-Agent: The Powerful GUI Agent Family by Tongyi Lab, Alibaba Group
👏 欢迎通过我们的 **[

ModelScope 在线演示](http://modelscope.cn/studios/MobileAgentTest/computer_use)** 或 **[

百炼在线演示](https://bailian.console.aliyun.com/next?tab=demohouse#/experience/adk-computer-use/pc)** 体验 Mobile-Agent-v3.5!
❗️我们在

百炼上提供限时免费的 Mobile-Agent-v3 API,以便快速体验。请查看[文档](https://help.aliyun.com/zh/model-studio/ui-agent-api)。
🤗 GUI-Owl-1.5 Collection |
GUI-Owl-1.5 Collection
🤗 GUI-Owl-32B |
GUI-Owl-32B |
🤗 GUI-Owl-7B |
GUI-Owl-7B
## 📢新闻
- `[2026.2.14]`🔥🔥 **GUI-Owl 1.5** 已发布,这是一个新的原生多平台 GUI agent 基础模型系列(2B/4B/8B/32B/235B;Instruct & Thinking)。这是基于 Qwen3-VL 构建的下一代原生 GUI agent 模型系列,支持 **桌面/移动端/浏览器** 自动化,并在 **20+ GUI 基准测试中取得了 SOTA 结果**,在端到端任务、grounding、工具/MCP 调用以及长时记忆方面表现强劲。模型权重可在 [HuggingFace](https://huggingface.co/collections/mPLUG/gui-owl-15) 获取。技术报告可在 [链接](https://arxiv.org/abs/2602.16855) 查看。详情请参见 [GUI-Owl 1.5 README](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3.5)。
- `[2025.11.25]`🔥 GUI-Owl 系列模型现已支持在线推理,感谢 [**阿里云百炼**](https://bailian.console.aliyun.com/?spm=5176.21213303.J_qCOwPWspKEuWcmp8qiZNQ.131.39712f3dOmFAxI&scm=20140722.S_card%40%40%E4%BA%A7%E5%93%81%40%402983180.S_card0.ID_card%40%40%E4%BA%A7%E5%93%81%40%402983180-RL_%E7%99%BE%E7%82%BC-LOC_search%7EUND%7Ecard%7EUND%7Eitem-OR_ser-V_3-P0_0&tab=model#/model-market/detail/gui-plus) 提供算力支持。请参考 [链接](https://modelscope.cn/models/iic/GUI-Owl-7B)。
- `[2025.10.30]` 我们发布了 **OSWorld-MCP**,这是一个用于在真实场景中评估模型上下文协议(MCP)工具调用能力的基准。请参见 [链接](https://github.com/X-PLUG/OSWorld-MCP)。
- `[2025.9.24]` 我们在 ModelScope 上发布了基于无影云电脑和云手机的演示。无需在本地部署模型或准备设备,只需输入您的指令即可体验 Mobile-Agent-v3
ModelScope 演示链接](https://modelscope.cn/studios/wangjunyang/Mobile-Agent-v3) 和 [

百炼演示链接](https://bailian.console.aliyun.com/next?tab=demohouse#/experience/adk-computer-use/pc)。关于限时免费的 Mobile-Agent-v3 API,请查看[文档](https://help.aliyun.com/zh/model-studio/ui-agent-api)。基于 Qwen-3-VL 的新版本即将推出。
- `[2025.9.19]` GUI-Critic-R1 已被 **The Thirty-ninth Annual Conference on Neural Information Processing Systems (NeurIPS 2025)** 录用。
- `[2025.9.16]` 我们发布了最新的工作 **UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning**。[论文](https://www.arxiv.org/abs/2509.11543)、[代码](https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1)、[数据集](https://huggingface.co/datasets/mPLUG/UI_S1_dataset) 和 [模型](https://huggingface.co/mPLUG/UI-S1-7B) 现已开源。
- `[2025.9.16]` 我们已开源 GUI-Owl 和 Mobile-Agent-v3 在 OSWorld、AndroidWorld 和真实移动场景下的代码。请参见 [OSWorld 代码](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3#evaluation-on-osworld)。同时发布了 GUI-Owl 在 OSWorld 上 RL 微调的[检查点](https://huggingface.co/mPLUG/GUI-Owl-7B-Desktop-RL)。请参见 [AndroidWorld 代码](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3#evaluation-on-androidworld) 和 [真实场景代码](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3#deploy-mobile-agent-v3-on-your-mobile-device)。
- `[2025.8.20]` 全新的 **GUI-Owl** 和 **Mobile-Agent-v3** 已发布!技术报告可在[此处](https://arxiv.org/abs/2508.15144)找到。模型检查点将在 [GUI-Owl-7B](https://huggingface.co/mPLUG/GUI-Owl-7B) 和 [GUI-Owl-32B](https://huggingface.co/mPLUG/GUI-Owl-32B) 上发布。
- GUI-Owl 是一个多模态跨平台 GUI VLM,具备 GUI 感知、grounding 和端到端操作能力。
- Mobile-Agent-v3 是一个基于 GUI-Owl 的跨平台多智能体框架。它提供了规划、进度管理、反思和记忆等能力。
- `[2025.8.14]` Mobile-Agent-v3 在 ***第 24 届中国计算语言学大会*** (CCL 2025) 上获得了 **最佳演示奖**。
- `[2025.3.17]` PC-Agent 已被 **ICLR 2025 Workshop** 录用。
- `[2024.9.26]` Mobile-Agent-v2 已被 **The Thirty-eighth Annual Conference on Neural Information Processing Systems (NeurIPS 2024)** 录用。
- `[2024.7.29]` Mobile-Agent 在 ***第 23 届中国计算语言学大会*** (CCL 2024) 上获得了 **最佳演示奖**。
- `[2024.3.10]` Mobile-Agent 已被 **ICLR 2024 Workshop** 录用。
## 📊结果
## 👀特性
## 📝系列工作
- [**Mobile-Agent-v3.5**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3.5) (Preprint): 多平台基础 GUI Agent。 [**[论文]**](https://arxiv.org/abs/2602.16855) [**[代码]**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3.5)
- [**Mobile-Agent-v3**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3) (Preprint): 多模态和多平台 GUI agent。 [**[论文]**](https://arxiv.org/abs/2508.15144) [**[代码]**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3)
- [**UI-S1**](https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1) (Preprint): 通过半在线强化学习推进 GUI 自动化。 [**[论文]**](https://arxiv.org/abs/2509.11543) [**[代码]**](https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1) [**[数据集]**](https://huggingface.co/datasets/mPLUG/UI_S1_dataset)
- [**GUI-Critic-R1**](https://github.com/X-PLUG/MobileAgent/tree/main/GUI-Critic-R1) (NeurIPS 2025): 一种用于术前错误诊断的 GUI-Critic 方法。 [**[论文]**](https://arxiv.org/abs/2506.04614) [**[代码]**](https://github.com/X-PLUG/MobileAgent/tree/main/GUI-Critic-R1)
- [**PC-Agent**](https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent) (ICLR 2025 Workshop): 用于多模态 PC 操作的多智能体。 [**[论文]**](https://arxiv.org/abs/2502.14282) [**[代码]**](https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent)
- [**Mobile-Agent-E**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-E) (Preprint): 用于自我进化的手机操作的多智能体。 [**[论文]**](https://arxiv.org/abs/2501.11733) [**[代码]**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-E)
- [**Mobile-Agent-v2**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v2) (NeurIPS 2024): 用于多模态手机操作的多智能体。 [**[论文]**](https://arxiv.org/abs/2406.01014) [**[代码]**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v2)
- [**Mobile-Agent-v1**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v1) (ICLR 2024 Workshop): 用于多模态手机操作的单智能体。 [**[论文]**](https://arxiv.org/abs/2401.16158) [**[代码]**](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v1)
## 📺演示
了解 Mobile-Agent-v3.5
### 💻PC + 🌐Web
分别搜索苹果和英伟达的股价。然后在 WPS Office 中创建一个新的电子表格。在 A 列输入公司名称,在 B 列输入检索到的股价。
在 WPS Office 中创建一个新文档,用 12 号字体写一段关于阿里巴巴的简介。然后在 Edge 浏览器中搜索阿里巴巴的 logo,复制一张图片,并将其粘贴到文档末尾。
### 📱手机
今天是 2025 年 2 月 15 日,星期日。在携程上搜索五天后从广州到成都的航班,查看最便宜的航班,然后搜索同一航线最便宜的火车票,并告诉我它们的价格。
查看小红书和抖音上的“魔搭ModelScope社区”账号,然后告诉我两个平台的总粉丝数。
## ⭐Star 趋势
[](https://star-history.com/#X-PLUG/MobileAgent&Date)
## 📑引用
如果您发现 Mobile-Agent 对您的研究和应用有用,请使用此 BibTeX 进行引用:
```
@article{xu2026mobile,
title={Mobile-Agent-v3. 5: Multi-platform Fundamental GUI Agents},
author={Xu, Haiyang and Zhang, Xi and Liu, Haowei and Wang, Junyang and Zhu, Zhaozai and Zhou, Shengjie and Hu, Xuhao and Gao, Feiyu and Cao, Junjie and Wang, Zihua and others},
journal={arXiv preprint arXiv:2602.16855},
year={2026}
}
@article{ye2025mobile,
title={Mobile-Agent-v3: Foundamental Agents for GUI Automation},
author={Ye, Jiabo and Zhang, Xi and Xu, Haiyang and Liu, Haowei and Wang, Junyang and Zhu, Zhaoqing and Zheng, Ziwei and Gao, Feiyu and Cao, Junjie and Lu, Zhengxi and others},
journal={arXiv preprint arXiv:2508.15144},
year={2025}
}
@article{lu2025ui,
title={UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning},
author={Lu, Zhengxi and Ye, Jiabo and Tang, Fei and Shen, Yongliang and Xu, Haiyang and Zheng, Ziwei and Lu, Weiming and Yan, Ming and Huang, Fei and Xiao, Jun and others},
journal={arXiv preprint arXiv:2509.11543},
year={2025}
}
@article{wanyan2025look,
title={Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation},
author={Wanyan, Yuyang and Zhang, Xi and Xu, Haiyang and Liu, Haowei and Wang, Junyang and Ye, Jiabo and Kou, Yutong and Yan, Ming and Huang, Fei and Yang, Xiaoshan and others},
journal={arXiv preprint arXiv:2506.04614},
year={2025}
}
@article{liu2025pc,
title={PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC},
author={Liu, Haowei and Zhang, Xi and Xu, Haiyang and Wanyan, Yuyang and Wang, Junyang and Yan, Ming and Zhang, Ji and Yuan, Chunfeng and Xu, Changsheng and Hu, Weiming and Huang, Fei},
journal={arXiv preprint arXiv:2502.14282},
year={2025}
}
@article{wang2025mobile,
title={Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks},
author={Wang, Zhenhailong and Xu, Haiyang and Wang, Junyang and Zhang, Xi and Yan, Ming and Zhang, Ji and Huang, Fei and Ji, Heng},
journal={arXiv preprint arXiv:2501.11733},
year={2025}
}
@article{wang2024mobile2,
title={Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration},
author={Wang, Junyang and Xu, Haiyang and Jia, Haitao and Zhang, Xi and Yan, Ming and Shen, Weizhou and Zhang, Ji and Huang, Fei and Sang, Jitao},
journal={arXiv preprint arXiv:2406.01014},
year={2024}
}
@article{wang2024mobile,
title={Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception},
author={Wang, Junyang and Xu, Haiyang and Ye, Jiabo and Yan, Ming and Shen, Weizhou and Zhang, Ji and Huang, Fei and Sang, Jitao},
journal={arXiv preprint arXiv:2401.16158},
year={2024}
}
```