bytedance/UI-TARS
GitHub: bytedance/UI-TARS
字节跳动开源的基于视觉语言模型的多模态 GUI 自动化 Agent,能通过理解屏幕内容自主执行桌面、移动端和浏览器交互任务。
Stars: 10426 | Forks: 770
## 🚀 快速入门指南:部署和使用我们的模型 为了帮助您快速上手我们的模型,我们建议按顺序执行以下步骤。这些步骤将指导您完成部署以及预测后处理,使模型能够在您的环境中采取行动。 ### ✅ 步骤 1:部署与推理 👉 部署与推理。 这包括使用 huggingface endpoint 进行模型部署以及运行您的第一次预测的说明。 ### ✅ 步骤 2:后处理 #### 安装 ``` pip install ui-tars # 或 uv pip install ui-tars ``` #### 使用 ``` from ui_tars.action_parser import parse_action_to_structure_output, parsing_response_to_pyautogui_code response = "Thought: Click the button\nAction: click(start_box='(100,200)')" original_image_width, original_image_height = 1920, 1080 parsed_dict = parse_action_to_structure_output( response, factor=1000, origin_resized_height=original_image_height, origin_resized_width=original_image_width, model_type="qwen25vl" ) print(parsed_dict) parsed_pyautogui_code = parsing_response_to_pyautogui_code( responses=parsed_dict, image_height=original_image_height, image_width=original_image_width ) print(parsed_pyautogui_code) ``` ##### 仅供参考:坐标可视化 为了帮助您更好地理解坐标处理,我们还提供了一份关于坐标处理可视化的指南。 ## Prompt 使用指南 为了适应不同的设备环境和任务复杂性,codes/ui_tars/prompt.py 中设计了以下三个 prompt 模板。这些模板旨在指导 GUI Agent 生成适当的操作。请选择最适合您用例的模板: ### 🖥️ `COMPUTER_USE` **推荐用于**:在 **桌面环境**(如 Windows、Linux 或 macOS)上的 GUI 任务。 **特点**: - 支持常见的桌面操作:鼠标点击(单击、双击、右键)、拖动操作、键盘快捷键、文本输入、滚动等。 - 非常适合浏览器导航、办公软件交互、文件管理以及其他基于桌面的任务。 ### 📱 `MOBILE_USE` **推荐用于**:在 **移动设备或 Android 模拟器** 上的 GUI 任务。 **特点**: - 包含特定于移动设备的动作:`long_press`、`open_app`、`press_home`、`press_back`。 - 适用于启动应用程序、滚动视图、填充输入字段以及在移动应用程序中进行导航。 ### 📌 `GROUNDING` **推荐用于**:仅关注 **动作输出** 的轻量级任务,或用于模型训练和评估。 **特点**: - 仅输出 `Action`,不进行任何推理(`Thought`)。 - 适用于评估定位能力。 在开发或评估多模态交互系统时,请根据您的目标平台(桌面与移动端)选择合适的 prompt 模板。 ## 性能 **在线基准测试评估** | 基准测试类型 | 基准测试 | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 之前的 SOTA | |----------------|--------------------------------------------------------------------------------------------------------------------------------------------------|-------------|-------------|-------------|----------------------| | **Computer Use** | [OSworld](https://arxiv.org/abs/2404.07972) (100 步) | **42.5** | 36.4 | 28 | 38.1 (200 步) | | | [Windows Agent Arena](https://arxiv.org/abs/2409.08264) (50 步) | **42.1** | - | - | 29.8 | | **Browser Use** | [WebVoyager](https://arxiv.org/abs/2401.13919) | 84.8 | **87** | 84.1 | 87 | | | [Online-Mind2web](https://arxiv.org/abs/2504.01382) | **75.8** | 71 | 62.9 | 71 | | **Phone Use** | [Android World](https://arxiv.org/abs/2405.14573) | **64.2** | - | - | 59.5 | **定位能力评估** | 基准测试 | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 之前的 SOTA | |-----------|-------------|------------|------------|----------------| | [ScreenSpot-V2](https://arxiv.org/pdf/2410.23218) | **94.2** | 87.9 | 87.6 | 91.6 | | [ScreenSpotPro](https://arxiv.org/pdf/2504.07981v1) | **61.6** | 23.4 | 27.7 | 43.6 | **Poki 游戏** | 模型 | [2048](https://poki.com/en/g/2048) | [cubinko](https://poki.com/en/g/cubinko) | [energy](https://poki.com/en/g/energy) | [free-the-key](https://poki.com/en/g/free-the-key) | [Gem-11](https://poki.com/en/g/gem-11) | [hex-frvr](https://poki.com/en/g/hex-frvr) | [Infinity-Loop](https://poki.com/en/g/infinity-loop) | [Maze:Path-of-Light](https://poki.com/en/g/maze-path-of-light) | [shapes](https://poki.com/en/g/shapes) | [snake-solver](https://poki.com/en/g/snake-solver) | [wood-blocks-3d](https://poki.com/en/g/wood-blocks-3d) | [yarn-untangle](https://poki.com/en/g/yarn-untangle) | [laser-maze-puzzle](https://poki.com/en/g/laser-maze-puzzle) | [tiles-master](https://poki.com/en/g/tiles-master) | |-------------|-----------|--------------|-------------|-------------------|-------------|---------------|---------------------|--------------------------|-------------|--------------------|----------------------|---------------------|------------------------|---------------------| | OpenAI CUA | 31.04 | 0.00 | 32.80 | 0.00 | 46.27 | 92.25 | 23.08 | 35.00 | 52.18 | 42.86 | 2.02 | 44.56 | 80.00 | 78.27 | | Claude 3.7 | 43.05 | 0.00 | 41.60 | 0.00 | 0.00 | 30.76 | 2.31 | 82.00 | 6.26 | 42.86 | 0.00 | 13.77 | 28.00 | 52.18 | | UI-TARS-1.5 | 100.00 | 0.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | **Minecraft** | 任务类型 | 任务名称 | [VPT](https://openai.com/index/vpt/) | [DreamerV3](https://www.nature.com/articles/s41586-025-08744-2) | 之前的 SOTA | UI-TARS-1.5 w/o Thought | UI-TARS-1.5 w/ Thought | |-------------|---------------------|----------|----------------|--------------------|------------------|-----------------| | Mine Blocks | (oak_log) | 0.8 | 1.0 | 1.0 | 1.0 | 1.0 | | | (obsidian) | 0.0 | 0.0 | 0.0 | 0.2 | 0.3 | | | (white_bed) | 0.0 | 0.0 | 0.1 | 0.4 | 0.6 | | | **200 任务平均** | 0.06 | 0.03 | 0.32 | 0.35 | 0.42 | | Kill Mobs | (mooshroom) | 0.0 | 0.0 | 0.1 | 0.3 | 0.4 | | | (zombie) | 0.4 | 0.1 | 0.6 | 0.7 | 0.9 | | | (chicken) | 0.1 | 0.0 | 0.4 | 0.5 | 0.6 | | | **100 任务平均** | 0.04 | 0.03 | 0.18 | 0.25 | 0.31 | ## 模型规模对比 在这里,我们比较了 UI-TARS 在 OSworld 基准测试上不同模型规模的性能。 | **基准测试类型** | **基准测试** | **UI-TARS-72B-DPO** | **UI-TARS-1.5-7B** | **UI-TARS-1.5** | |--------------------|------------------------------------|---------------------|--------------------|-----------------| | Computer Use | [OSWorld](https://arxiv.org/abs/2404.07972) | 24.6 | 27.5 | **42.5** | | GUI Grounding | [ScreenSpotPro](https://arxiv.org/pdf/2504.07981v1) | 38.1 | 49.6 | **61.6** | ### 局限性 虽然 UI-TARS-1.5 在多模态 Agent 能力方面代表了重大进步,但我们承认它存在一些重要的局限性: - **滥用**:鉴于其在 GUI 任务中具有更强的性能,包括成功应对像 CAPTCHA 这样的身份验证挑战,UI-TARS-1.5 有可能被滥用于未经授权的访问或自动化受保护的内容。为了降低这种风险,我们正在进行广泛的内部安全评估。 - **计算量**:UI-TARS-1.5 仍然需要大量的计算资源,特别是对于大规模任务或长时间的游戏场景。 - **幻觉**:UI-TARS-1.5 偶尔可能会生成不准确的描述、错误识别 GUI 元素,或基于不正确的推断采取次优行动——尤其是在模糊或不熟悉的环境中。 - **模型规模**:此次发布的 UI-TARS-1.5-7B 主要侧重于增强通用的计算机使用能力,针对游戏场景进行专门优化,而在游戏场景中 UI-TARS-1.5 仍然具有显著优势。 ## 后续计划 我们提供了性能最佳的 UI-TARS-1.5 模型的早期研究访问权限,以促进合作研究。感兴趣的研究人员可以通过 TARS@bytedance.com 联系我们。 展望未来,我们希望 UI-TARS 能够演变成日益复杂的 Agent 体验,能够执行现实世界中的操作,从而赋能 [doubao](https://team.doubao.com/en/) 等平台为您完成更复杂的任务 :) ## Star 历史 [](https://www.star-history.com/#bytedance/UI-TARS&Date) ## 引用 如果您发现我们的论文和模型在您的研究中很有用,欢迎引用我们。 ``` @article{qin2025ui, title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents}, author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and Liang, Shihao and Tian, Shizuo and Zhang, Junda and Li, Jiahao and Li, Yunxin and Huang, Shijue and others}, journal={arXiv preprint arXiv:2501.12326}, year={2025} } ```