字节跳动 UI-TARS 支持哪些模型？

UI-TARS 是什么？为什么要关注它？

UI-TARS 是字节跳动在 2025 年初开源的一个 纯视觉驱动的 GUI 智能体框架。它的核心哲学是：不依赖任何 HTML、DOM 树或 Accessibility 树，仅仅通过 截图（屏幕像素） 作为输入，就能让 AI 理解界面并执行点击、输入、滑动等操作。

这听起来好像很基础，但实际难度极高。传统自动化工具（如 Selenium、Playwright）需要解析代码结构，而 UI-TARS 试图模仿人类“看屏幕”的方式。它内置了三大核心能力：

结构化感知：自动将截图中的元素（按钮、文本框、图标）识别并标注出来，生成类似“元素坐标+语义”的标注图。
逻辑推理：结合用户指令和当前屏幕状态，规划出完成任务的多步操作路径（例如：先点搜索框 -> 输入关键词 -> 点击搜索按钮）。
记忆与反思：能记住之前操作的结果，如果操作失败（比如点错了），会自我纠正并尝试替代方案。

它属于 字节跳动 旗下的开源项目，代码和模型权重在 GitHub 和 Hugging Face 上完全公开。目前 完全免费，没有 API 收费一说（除非你将其部署到云端并通过自己的服务收费）。官方项目地址：https://github.com/bytedance/UI-TARS。

UI-TARS 支持哪些模型？详细拆解

根据官方论文和 GitHub 仓库的配置，UI-TARS 的模型支持分为“官方原生支持”和“社区兼容（理论上可跑）”两个层级。

官方明确支持的主干模型

这些模型经过了字节跳动团队的充分测试，可以直接通过配置文件调用：

模型名称	类型	特点	推荐场景
Qwen2.5-VL (7B / 72B)	视觉语言模型	通义千问系列，对中文界面理解极好，7B 版本可在消费级显卡（如 RTX 4090）上运行	中文软件、轻量级自动化
Qwen2-VL (7B / 72B)	视觉语言模型	上一代版本，性能略低于 2.5，但社区生态成熟	兼容性兜底方案
Gemini 2.0 Flash / Pro	商业闭源模型	谷歌出品，多模态能力极强，延迟低，但需 API Key	高精度任务、英文界面、云部署

特别注意：UI-TARS 默认的“官方模型”是指他们自己微调过的 UI-TARS-7B 和 UI-TARS-72B，这两个权重是基于 Qwen2.5-VL 进行领域微调（在 GUI 操作数据上训练）后的版本。所以如果你问“UI-TARS 支持什么模型”，最准确的答案是：它首先支持它自己微调后的 Qwen2.5-VL 变体，然后作为框架，它允许你替换成原版 Qwen 系列或 Gemini。

社区验证可用的模型（非官方严格测试）

由于 UI-TARS 的架构设计比较通用，社区用户已经成功尝试了以下模型，但官方不保证开箱即用：

GPT-4o（OpenAI）：通过 OpenAI 的视觉 API 可以驱动 UI-TARS，但需要额外编写适配器，且成本较高。
Claude 3.5 Sonnet（Anthropic）：同样可以通过 API 桥接，但其“截图理解”能力被社区认为非常精准。
InternVL2（上海AI实验室）：国产开源 VLM，部分开发者成功将其接入。

官方在代码中预留了“模型适配器”接口，意味着理论上任何支持“图片输入+文本输出”的 VLM 都可以接入，只是需要自己写几行代码处理输入输出格式。

如何选择模型？一些实用建议

如果你打算本地部署，我强烈建议你优先尝试 UI-TARS-7B（基于 Qwen2.5-VL）。原因如下：

硬件门槛低：7B 模型在 16GB 显存的显卡上就能跑出不错的效果，而 72B 需要至少 80GB 显存（通常需要 A100 或 4 张 4090 串联）。
中文友好：对于国内用户经常操作的微信、支付宝、抖音等应用，Qwen 系列对中文 OCR 和语义理解明显优于同尺寸的 LLaVA 或 CogVLM。
免费且可控：开源模型不需要联网，数据安全，也没有 API 调用次数限制。

如果你追求极致准确率且预算充足，或者主要操作英文软件（如 Salesforce、Figma），可以考虑用 Gemini 2.0 Flash。它的延迟非常低（通常 1-2 秒内返回），而且对 UI 元素的边界识别和图标语义理解在社区评测中表现突出。不过请留意，它需要你拥有谷歌云 API 额度。

一个易混淆的点：UI-TARS 不是“模型”而是“框架”

很多刚接触的朋友会误以为 UI-TARS 是一个像 GPT-4V 那样的端到端模型。实际上，字节跳动做了一件更聪明的事：他们训练了一个专门用于 GUI 操作的“感知+规划”网络，但把这个网络架在了现有 VLM 之上。你可以这样理解：

底层 VLM：负责“看”截图并描述出画面里的内容（比如“左上角有一个蓝色的返回箭头”）。
UI-TARS 框架：负责“思考”和“动手”——它把 VLM 的描述转化成具体的操作指令（如“将鼠标移动到坐标 (50,100) 处点击”），并记录操作历史。

所以，当你问“支持哪些模型”，其实是在问“UI-TARS 的思考层可以接哪些眼睛”。目前官方眼睛就是 Qwen 和 Gemini，其他眼睛需要你自己配。

字节跳动 UI-TARS 支持哪些模型？

相关 AI 产品