browser-use/web-ui

GitHub: browser-use/web-ui

基于Gradio构建的AI浏览器智能体Web界面，让大语言模型驱动浏览器完成复杂网页交互任务。

Stars: 16094 | Forks: 2716

[![GitHub stars](https://img.shields.io/github/stars/browser-use/web-ui?style=social)](https://github.com/browser-use/web-ui/stargazers) [![Discord](https://img.shields.io/discord/1303749220842340412?color=7289DA&label=Discord&logo=discord&logoColor=white)](https://link.browser-use.com/discord) [![Documentation](https://img.shields.io/badge/Documentation-📕-blue)](https://docs.browser-use.com) [![WarmShao](https://img.shields.io/twitter/follow/warmshao?style=social)](https://x.com/warmshao) 本项目建立在 [browser-use](https://github.com/browser-use/browser-use) 的基础之上，旨在让网站对 AI 智能体更易访问。我们要正式感谢 [WarmShao](https://github.com/warmshao) 对本项目的贡献。 **WebUI：** 基于 Gradio 构建，支持 `browser-use` 的大部分功能。该界面设计直观友好，便于与浏览器智能体进行交互。 **扩展的 LLM 支持：** 我们集成了对多种大型语言模型（LLM）的支持，包括：Google、OpenAI、Azure OpenAI、Anthropic、DeepSeek、Ollama 等。未来我们计划增加对更多模型的支持。 **自定义浏览器支持：** 您可以将自己的浏览器与我们的工具配合使用，无需重新登录网站或处理其他身份验证问题。此功能还支持高清屏幕录制。 **持久化浏览器会话：** 您可以选择在 AI 任务之间保持浏览器窗口开启，从而查看 AI 交互的完整历史记录和状态。

## 安装指南 ### 方式一：本地安装阅读 [快速入门指南](https://docs.browser-use.com/quickstart#prepare-the-environment) 或按照以下步骤开始操作。 #### 步骤 1：克隆仓库 ``` git clone https://github.com/browser-use/web-ui.git cd web-ui ``` #### 步骤 2：配置 Python 环境我们推荐使用 [uv](https://docs.astral.sh/uv/) 来管理 Python 环境。使用 uv（推荐）： ``` uv venv --python 3.11 ``` 激活虚拟环境： - Windows (命令提示符)： ``` .venv\Scripts\activate ``` - Windows (PowerShell)： ``` .\.venv\Scripts\Activate.ps1 ``` - macOS/Linux： ``` source .venv/bin/activate ``` #### 步骤 3：安装依赖安装 Python 软件包： ``` uv pip install -r requirements.txt ``` 在 playwright 中安装浏览器。 ``` playwright install --with-deps ``` 或者，您可以通过运行以下命令来安装特定的浏览器： ``` playwright install chromium --with-deps ``` #### 步骤 4：配置环境 1. 复制示例环境文件： - Windows (命令提示符)： ``` copy .env.example .env ``` - macOS/Linux/Windows (PowerShell)： ``` cp .env.example .env ``` 2. 使用您喜欢的文本编辑器打开 `.env` 并添加您的 API 密钥和其他设置 #### 步骤 5：开始使用 web-ui 1. **运行 WebUI：** python webui.py --ip 127.0.0.1 --port 7788 2. **访问 WebUI：** 打开您的网络浏览器并访问 `http://127.0.0.1:7788`。 3. **使用您自己的浏览器（可选）：** - 将 `BROWSER_PATH` 设置为您的浏览器可执行文件路径，并将 `BROWSER_USER_DATA` 设置为您的浏览器用户数据目录。如果您想使用本地用户数据，请将 `BROWSER_USER_DATA` 留空。 - Windows BROWSER_PATH="C:\Program Files\Google\Chrome\Application\chrome.exe" BROWSER_USER_DATA="C:\Users\YourUsername\AppData\Local\Google\Chrome\User Data" - Mac BROWSER_PATH="/Applications/Google Chrome.app/Contents/MacOS/Google Chrome" BROWSER_USER_DATA="/Users/YourUsername/Library/Application Support/Google/Chrome" - 关闭所有 Chrome 窗口 - 在非 Chrome 浏览器（如 Firefox 或 Edge）中打开 WebUI。这一点很重要，因为持久化的浏览器上下文将在运行智能体时使用 Chrome 数据。 - 在浏览器设置中勾选“Use Own Browser”（使用自己的浏览器）选项。 ### 方式二：Docker 安装 #### 前置条件 - 已安装 Docker 和 Docker Compose - [Docker Desktop](https://www.docker.com/products/docker-desktop/)（适用于 Windows/macOS） - [Docker Engine](https://docs.docker.com/engine/install/) 和 [Docker Compose](https://docs.docker.com/compose/install/)（适用于 Linux） #### 步骤 1：克隆仓库 ``` git clone https://github.com/browser-use/web-ui.git cd web-ui ``` #### 步骤 2：配置环境 1. 复制示例环境文件： - Windows (命令提示符)： ``` copy .env.example .env ``` - macOS/Linux/Windows (PowerShell)： ``` cp .env.example .env ``` 2. 使用您喜欢的文本编辑器打开 `.env` 并添加您的 API 密钥和其他设置 #### 步骤 3：Docker 构建并运行 ``` docker compose up --build ``` 对于 ARM64 系统（例如 Apple Silicon Mac），请运行以下命令： ``` TARGETPLATFORM=linux/arm64 docker compose up --build ``` #### 步骤 4：开始使用 web-ui 和 vnc - Web-UI：在浏览器中打开 `http://localhost:7788` - VNC 查看器（用于观看浏览器交互）：打开 `http://localhost:6080/vnc.html` - 默认 VNC 密码："youvncpassword" - 可通过在 `.env` 文件中设置 `VNC_PASSWORD` 进行更改 ## 更新日志 - [x] **2025/01/26：** 感谢 @vvincent1234。现在 browser-use-webui 可以结合 DeepSeek-r1 进行深度思考！ - [x] **2025/01/10：** 感谢 @casistack。现在我们有了 Docker 安装选项，并且支持在任务之间保持浏览器开启。[视频教程演示](https://github.com/browser-use/web-ui/issues/1#issuecomment-2582511750)。 - [x] **2025/01/06：** 感谢 @richard-devbot。全新且设计精良的 WebUI 已发布。[视频教程演示](https://github.com/warmshao/browser-use-webui/issues/1#issuecomment-2573393113)。

标签：AI风险缓解, Anthropic, AutoGPT, CIS基准, DeepSeek, Gradio, LLM, LLM评估, Ollama, OpenAI, Petitpotam, Python, RPA, Selenium/Playwright, TCP SYN 扫描, Unmanaged PE, Web Scraping, Web UI, 人工智能, 内存规避, 开源, 无后门, 桌面自动化, 浏览器会话, 浏览器控制, 浏览器自动化, 熵值分析, 特征检测, 用户模式Hook绕过, 请求拦截, 逆向工具