bytedance/UI-TARS-desktop
GitHub: bytedance/UI-TARS-desktop
字节跳动开源的多模态AI Agent技术栈,通过视觉语言模型驱动自然语言控制桌面和浏览器GUI自动化操作。
Stars: 32044 | Forks: 3180
## 介绍
English | [简体中文](./README.zh-CN.md)
[](https://trendshift.io/repositories/13584)
TARS\* 是一个多模态 AI Agent 技术栈,目前主要推出两个项目:[Agent TARS](#agent-tars) 和 [UI-TARS-desktop](#ui-tars-desktop):
| Agent TARS |
UI-TARS-desktop |
|
|
|
Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和 Vision 的强大能力带入你的终端、电脑、浏览器和产品中。
它主要提供 CLI 和 Web UI 供用户使用。
它旨在通过前沿的多模态 LLM 以及与各种真实世界 MCP 工具的无缝集成,提供一种更接近人类完成任务的工作流。
|
UI-TARS Desktop 是一款桌面应用程序,提供基于 UI-TARS 模型的原生 GUI Agent。
它主要提供
本地 和
远程 电脑以及浏览器操作器。
|
## 目录
- [新闻](#news)
- [Agent TARS](#agent-tars)
- [用例展示](#showcase)
- [核心功能](#core-features)
- [快速开始](#quick-start)
- [文档](#documentation)
- [UI-TARS Desktop](#ui-tars-desktop)
- [用例展示](#showcase-1)
- [功能特性](#features)
- [快速开始](#quick-start-1)
- [贡献](#contributing)
- [许可证](#license)
- [引用](#citation)
## 新闻
- **\[2025-11-05\]** 🎉 我们很高兴地宣布发布 [Agent TARS CLI v0.3.0](https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.3.0)!此版本为多种工具(shell 命令、多文件结构化显示)引入了流式支持,带有工具调用和深度思考耗时统计的运行时设置,以及用于数据流跟踪和调试的 Event Stream Viewer。此外,它还独家支持将 [AIO agent Sandbox](https://github.com/agent-infra/sandbox) 作为隔离的一体化工具执行环境。
- **\[2025-06-25\]** 我们发布了 Agent TARS Beta 和 Agent TARS CLI - [Introducing Agent TARS Beta](https://agent-tars.com/blog/2025-06-25-introducing-agent-tars-beta.html),这是一个多模态 AI Agent,旨在通过丰富的多模态能力(例如 GUI Agent、Vision)以及与各种真实世界工具的无缝集成,探索一种更接近人类任务完成形式的工作流。
- **\[2025-06-12\]** - 🎁 我们很高兴地宣布发布 UI-TARS Desktop v0.2.0!此更新引入了两项强大的新功能:**远程电脑操作器**和**远程浏览器操作器**——均完全免费。无需配置:只需点击即可远程控制任何电脑或浏览器,体验前所未有的便捷和智能。
- **\[2025-04-17\]** - 🎉 我们非常高兴地宣布发布全新 UI-TARS Desktop 应用程序 v0.1.0,采用了重新设计的 Agent UI。该应用程序增强了计算机使用体验,引入了新的浏览器操作功能,并支持 [先进的 UI-TARS-1.5 模型](https://seed-tars.com/1.5) 以实现更好的性能和精准控制。
- **\[2025-02-20\]** - 📦 推出了 [UI TARS SDK](./docs/sdk.md),这是一个强大的跨平台工具包,用于构建 GUI 自动化 Agent。
- **\[2025-01-23\]** - 🚀 我们在中文版:[GUI模型部署教程](https://bytedance.sg.larkoffice.com/docx/TCcudYwyIox5vyxiSDLlgIsTgWf#U94rdCxzBoJMLex38NPlHL21gNb) 的 **[Cloud Deployment](./docs/deployment.md#cloud-deployment)** 章节中更新了与 ModelScope 平台相关的新信息。您现在可以使用 ModelScope 平台进行部署。
## Agent TARS
Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和 Vision 的强大能力带入你的终端、电脑、浏览器和产品中。
它主要提供
CLI 和
Web UI 供用户使用。
它旨在通过前沿的多模态 LLM 以及与各种真实世界
MCP 工具的无缝集成,提供一种更接近人类完成任务的工作流。
### 用例展示
```
Please help me book the earliest flight from San Jose to New York on September 1st and the last return flight on September 6th on Priceline
```
https://github.com/user-attachments/assets/772b0eef-aef7-4ab9-8cb0-9611820539d8
| 预订酒店 |
配合额外的 MCP Server 生成图表 |
|
|
|
|
指令: 我 9 月 1 日到 9 月 6 日在洛杉矶,预算是 5000 美元。请帮我在 booking.com 上预订一家离机场最近的丽思卡尔顿酒店,并为我整理一份交通指南
|
指令: 帮我画一张杭州一个月的天气图表
|
有关更多用例,请查看 [#842](https://github.com/bytedance/UI-TARS-desktop/issues/842)。
### 核心功能
- 🖱️ **一键开箱即用的 CLI** - 同时支持**有头** [Web UI](https://agent-tars.com/guide/basic/web-ui.html) 和**无头** [server](https://agent-tars.com/guide/advanced/server.html) [执行](https://agent-tars.com/guide/basic/cli.html)。
- 🌐 **混合浏览器 Agent** - 使用 [GUI Agent](https://agent-tars.com/guide/basic/browser.html#visual-grounding)、[DOM](https://agent-tars.com/guide/basic/browser.html#dom) 或混合策略控制浏览器。
- 🔄 **Event Stream** - 协议驱动的 Event Stream 驱动着 [Context Engineering](https://agent-tars.com/beta#context-engineering) 和 [Agent UI](https://agent-tars.com/blog/2025-06-25-introducing-agent-tars-beta.html#easy-to-build-applications)。
- 🧰 **MCP 集成** - 内核基于 MCP 构建,同时支持挂载 [MCP Servers](https://agent-tars.com/guide/basic/mcp.html) 以连接真实世界的工具。
### 快速开始

```
# 使用 `npx` 启动。
npx @agent-tars/cli@latest
# 全局安装,需要 Node.js >= 22
npm install @agent-tars/cli@latest -g
# 使用您首选的模型提供者运行
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
```
请访问详尽的 [快速开始](https://agent-tars.com/guide/get-started/quick-start.html) 指南获取详细的设置说明。
### 文档
| Category |
Resource Link |
Description |
| 🏠 Central Hub |
|
Your gateway to Agent TARS ecosystem |
| 📚 Quick Start |
|
Zero to hero in 5 minutes |
| 🚀 What's New |
|
Discover cutting-edge features & vision |
| 🛠️ Developer Zone |
|
Master every command & features |
| 🎯 Showcase |
|
View use cases built by the official and community |
| 🔧 Reference |
|
Complete technical reference |
## UI-TARS Desktop
UI-TARS Desktop 是一款适用于本地电脑的原生 GUI Agent,由 [UI-TARS](https://github.com/bytedance/UI-TARS) 和 Seed-1.5-VL/1.6 系列模型驱动。
### 用例展示
| 指令 | 本地操作器 | 远程操作器 |
| :----------------------------------------------------------------------------------------------------------------------------: | :----------------------------------------------------------------------------------------------------------: | :----------------------------------------------------------------------------------------------------------: |
| 请帮我在 VS Code 设置中开启自动保存功能,并将 AutoSave 操作延迟设置为 500 毫秒。 |
|
|
| 你能帮我查看一下 GitHub 上 UI-TARS-Desktop 项目最新开放的 issue 吗? |
|
|
### 功能特性
- 🤖 由 Vision-Language Model 驱动的自然语言控制
- 🖥️ 支持截图和视觉识别
- 🎯 精准的鼠标和键盘控制
- 💻 跨平台支持 (Windows/MacOS/Browser)
- 🔄 实时反馈和状态显示
- 🔐 隐私安全 - 完全本地化处理
### 快速开始
查看 [快速开始](./docs/quick-start.md)
## 贡献
查看 [CONTRIBUTING.md](./CONTRIBUTING.md)。
## 许可证
本项目基于 Apache License 2.0 许可证授权。
## 引用
如果您觉得我们的论文和代码对您的研究有帮助,请考虑点亮 star :star: 并引用 :pencil:
```
@article{qin2025ui,
title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents},
author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and Liang, Shihao and Tian, Shizuo and Zhang, Junda and Li, Jiahao and Li, Yunxin and Huang, Shijue and others},
journal={arXiv preprint arXiv:2501.12326},
year={2025}
}
```
标签:DLL 劫持, GUI自动化, LLM, MCP, MITM代理, Model Context Protocol, NLP, RPA, TCP SYN 扫描, UI-TARS, Unmanaged PE, Web UI, 人工智能, 任务自动化, 前端交互, 多模态AI, 大语言模型, 字节跳动, 开源框架, 持续集成, 数字取证, 暗色界面, 桌面自动化, 浏览器自动化, 用户模式Hook绕过, 自动化攻击, 自动化脚本, 计算机视觉