字节跳动 UI-TARS 支持哪些模型?

相关 AI 产品

产品

字节跳动 UI-TARS

一、UI-TARS是什么? UI-TARS是字节跳动开发的开源多模态智能体,其命名灵感源自电影《星际穿越》中具备自主思考能力的TARS机器人。该模型采用端到端架构集成感知、推理与行动功能,无需预定义规则即可处理图形用户界面交互任务。 UI-……

查看 ↗
产品

WeMeet AI智能体

一、WeMeet AI智能体是什么? 1.1 产品定位与背景 WeMeet AI智能体是全球首个专注于商务会议场景的AI智能体,由WeMeet荟神团队倾力打造,于2026年2月6日在上海张江模力社区正式发布。该产品并非简单的工具集合,而是一……

查看 ↗
产品

BetterYeah AI使用教程-五分钟构建专属企业AI智能体

1. BetterYeah AI是什么? BetterYeah AI是由斑头雁(杭州)智能科技有限责任公司开发的企业级AI智能体开发平台。该平台致力于帮助企业快速构建私有化部署的生产级Agent应用,实现"一站式AI应用开发"。 Bette……

查看 ↗
产品

FeelFish小说写作AI智能体

FeelFish是什么?这款AI小说写作工具如何提升创作效率3倍? 一、FeelFish是什么? FeelFish是一款专为小说创作者设计的AI写作智能体软件,它不同于普通的文本生成工具,而是一个集创作、项目管理、设定维护于一体的综合性写作……

查看 ↗
产品

阶跃Step 3.7 Flash

一、Step 3.7 Flash:原生多模态AI Agent模型,最高400 Tokens/s生成速度 Step 3.7 Flash是由国内AI创业公司“阶跃星辰”(StepFun)于2026年5月29日正式发布并开源的一款面向生产级Age……

查看 ↗
产品

阿里云 Qoder Cloud Agents

1. 阿里云Qoder Cloud Agents:一键API调用,1天完成企业级AI Agent部署 阿里云Qoder Cloud Agents是一个全托管的企业级AI Agent(智能体)运行平台。简单来说,它把创建、配置、运行和管理一个……

查看 ↗
产品

津小医健康智能体

一、津小医使用教程:微信小程序一键接入AI健康服务 1.1 产品定位与背景 津小医是微医控股在2026年5月正式发布的健康智能体3.0版本,专门为天津市1300多万市民打造的C端AI健康管家。作为国内首个以完整形态上线的省级健康智能体,它标……

查看 ↗
产品

GPT-5.4

一、GPT-5.4核心功能解析:如何用AI自动完成Excel、PPT、编程等专业工作? GPT-5.4是OpenAI于2026年3月5日正式发布的最新旗舰推理模型,标志着AI从"只会聊天的机器人"进化到了"自主执行任务的智能体"时代。与以往……

查看 ↗
产品

小马算力

小马算力收费价格 - 低成本调用多款大模型,最低10元起充 小马算力核心功能快览 小马算力(TokenPony)是专为个人开发者和小型团队设计的AI大模型API聚合平台,集成DeepSeek、Kimi、Qwen、GLM等主流模型,提供102……

查看 ↗
产品

Zoom AI Companion 3.0

从会议总结到主动协作:Zoom AI Companion 3.0如何成为智能工作中枢? 一、Zoom AI Companion 3.0是什么? Zoom AI Companion 3.0是Zoom通信公司于2025年12月推出的智能体AI解……

查看 ↗
产品

Fellou AI Browser

告别手动搜索?Fellou AI浏览器实测:它如何用自然语言帮你搞定复杂任务? 在今天这个信息爆炸的时代,我们每天要面对无数的网页浏览、信息筛选和重复性操作。有没有一种工具,能真正理解我们的意图,并自动帮我们完成这些繁琐任务呢?来自中国95……

查看 ↗
产品

Manus

Manus是什么?这款能直接交付成果的AI智能体有何特别之处 1 Manus是什么? Manus是由中国AI创业公司Monica开发的一款通用型AI智能体(AI Agent),于2025年3月正式发布。与传统的聊天机器人仅提供文本回答不同,……

查看 ↗

字节跳动开源的 UI-TARS 本身并非一个“模型”,而是一个基于视觉-语言模型(VLM)的 多模态GUI智能体框架。它支持将多种主流视觉语言模型作为其“大脑”来驱动屏幕理解和操作。目前官方明确支持的模型包括 Qwen2.5-VLQwen2-VL 以及 Gemini 系列(如 Gemini 2.0 Flash/Pro)。换句话说,你可以根据自己的硬件条件和任务需求,自由切换这些模型作为 UI-TARS 的推理引擎。

UI-TARS 是什么?为什么要关注它?

UI-TARS 是字节跳动在 2025 年初开源的一个 纯视觉驱动的 GUI 智能体框架。它的核心哲学是:不依赖任何 HTML、DOM 树或 Accessibility 树,仅仅通过 截图(屏幕像素) 作为输入,就能让 AI 理解界面并执行点击、输入、滑动等操作。

这听起来好像很基础,但实际难度极高。传统自动化工具(如 Selenium、Playwright)需要解析代码结构,而 UI-TARS 试图模仿人类“看屏幕”的方式。它内置了三大核心能力:

  • 结构化感知:自动将截图中的元素(按钮、文本框、图标)识别并标注出来,生成类似“元素坐标+语义”的标注图。
  • 逻辑推理:结合用户指令和当前屏幕状态,规划出完成任务的多步操作路径(例如:先点搜索框 -> 输入关键词 -> 点击搜索按钮)。
  • 记忆与反思:能记住之前操作的结果,如果操作失败(比如点错了),会自我纠正并尝试替代方案。

它属于 字节跳动 旗下的开源项目,代码和模型权重在 GitHub 和 Hugging Face 上完全公开。目前 完全免费,没有 API 收费一说(除非你将其部署到云端并通过自己的服务收费)。官方项目地址:https://github.com/bytedance/UI-TARS

UI-TARS 支持哪些模型?详细拆解

根据官方论文和 GitHub 仓库的配置,UI-TARS 的模型支持分为“官方原生支持”和“社区兼容(理论上可跑)”两个层级。

官方明确支持的主干模型

这些模型经过了字节跳动团队的充分测试,可以直接通过配置文件调用:

模型名称 类型 特点 推荐场景
Qwen2.5-VL (7B / 72B) 视觉语言模型 通义千问系列,对中文界面理解极好,7B 版本可在消费级显卡(如 RTX 4090)上运行 中文软件、轻量级自动化
Qwen2-VL (7B / 72B) 视觉语言模型 上一代版本,性能略低于 2.5,但社区生态成熟 兼容性兜底方案
Gemini 2.0 Flash / Pro 商业闭源模型 谷歌出品,多模态能力极强,延迟低,但需 API Key 高精度任务、英文界面、云部署

特别注意:UI-TARS 默认的“官方模型”是指他们自己微调过的 UI-TARS-7BUI-TARS-72B,这两个权重是基于 Qwen2.5-VL 进行领域微调(在 GUI 操作数据上训练)后的版本。所以如果你问“UI-TARS 支持什么模型”,最准确的答案是:它首先支持它自己微调后的 Qwen2.5-VL 变体,然后作为框架,它允许你替换成原版 Qwen 系列或 Gemini。

社区验证可用的模型(非官方严格测试)

由于 UI-TARS 的架构设计比较通用,社区用户已经成功尝试了以下模型,但官方不保证开箱即用:

  • GPT-4oOpenAI):通过 OpenAI 的视觉 API 可以驱动 UI-TARS,但需要额外编写适配器,且成本较高。
  • Claude 3.5 Sonnet(Anthropic):同样可以通过 API 桥接,但其“截图理解”能力被社区认为非常精准。
  • InternVL2(上海AI实验室):国产开源 VLM,部分开发者成功将其接入。

官方在代码中预留了“模型适配器”接口,意味着理论上任何支持“图片输入+文本输出”的 VLM 都可以接入,只是需要自己写几行代码处理输入输出格式。

如何选择模型?一些实用建议

如果你打算本地部署,我强烈建议你优先尝试 UI-TARS-7B(基于 Qwen2.5-VL)。原因如下:

  • 硬件门槛低:7B 模型在 16GB 显存的显卡上就能跑出不错的效果,而 72B 需要至少 80GB 显存(通常需要 A100 或 4 张 4090 串联)。
  • 中文友好:对于国内用户经常操作的微信、支付宝、抖音等应用,Qwen 系列对中文 OCR 和语义理解明显优于同尺寸的 LLaVA 或 CogVLM。
  • 免费且可控:开源模型不需要联网,数据安全,也没有 API 调用次数限制。

如果你追求极致准确率且预算充足,或者主要操作英文软件(如 Salesforce、Figma),可以考虑用 Gemini 2.0 Flash。它的延迟非常低(通常 1-2 秒内返回),而且对 UI 元素的边界识别和图标语义理解在社区评测中表现突出。不过请留意,它需要你拥有谷歌云 API 额度。

一个易混淆的点:UI-TARS 不是“模型”而是“框架”

很多刚接触的朋友会误以为 UI-TARS 是一个像 GPT-4V 那样的端到端模型。实际上,字节跳动做了一件更聪明的事:他们训练了一个专门用于 GUI 操作的“感知+规划”网络,但把这个网络架在了现有 VLM 之上。你可以这样理解:

  • 底层 VLM:负责“看”截图并描述出画面里的内容(比如“左上角有一个蓝色的返回箭头”)。
  • UI-TARS 框架:负责“思考”和“动手”——它把 VLM 的描述转化成具体的操作指令(如“将鼠标移动到坐标 (50,100) 处点击”),并记录操作历史。

所以,当你问“支持哪些模型”,其实是在问“UI-TARS 的思考层可以接哪些眼睛”。目前官方眼睛就是 Qwen 和 Gemini,其他眼睛需要你自己配。

相关问题

  • UI-TARS 和 Apple 的 Ferret-UI 哪个更强? Ferret-UI 更专注于移动端(手机),且是端到端模型;UI-TARS 支持 Web 和桌面,且框架更灵活,可以换模型。两者各有千秋,但 UI-TARS 的开源生态和字节跳动的持续投入目前更占优势。
  • UI-TARS 能用来做 RPA(机器人流程自动化)吗? 完全可以。它比传统基于坐标或选择器的 RPA 工具更智能,能适应界面变化。但当前版本速度较慢(一次操作约 2-5 秒),适合复杂、低频的自动化任务,不适合高并发。
  • UI-TARS 是否需要大量训练数据才能用? 不需要。它用的是预训练好的模型,开箱即用。但如果你想让它适应某个特定软件(比如内部 ERP 系统),可以通过微调(LoRA)来优化,官方提供了微调脚本。
  • UI-TARS 和微软的 OmniParser 有什么区别? OmniParser 更像是一个“解析器”,负责把截图变成结构化数据;UI-TARS 则是完整的“感知-推理-行动”循环。两者可以互补,社区已经有将 OmniParser 的输出作为 UI-TARS 输入的做法。
  • UI-TARS 未来会支持多模态输入(如鼠标轨迹、键盘快捷键)吗? 目前官方论文中主要研究“点击+输入”的原子操作,但 GitHub 上的 Issues 里已经有人提议支持拖拽和右键菜单。按照字节跳动的开源节奏,预计 2025 年下半年会加入更多交互模式。

内容由 AI 生成,产品信息请以官网为准。