新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

174 0

字节跳动与清华大学的研究人员推出新型自动化 GUI（图形用户界面）交互模型 UI-TARS，它是一种原生的 GUI 代理模型，能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）。与依赖于商业模型（如 GPT-4o）和专家手工设计的提示和工作流的现有代理框架不同，UI-TARS 是一个端到端的模型，能够直接从屏幕截图中理解和执行任务，无需依赖于文本描述或系统级权限。

GitHub：https://github.com/bytedance/UI-TARS
模型：https://huggingface.co/bytedance-research

例如，在一个任务中，用户要求代理在网页浏览器中找到并点击一个特定的按钮。传统方法可能需要通过 HTML 代码或其他文本描述来定位按钮，而 UI-TARS 只需通过屏幕截图直接识别按钮的位置并执行点击操作，就像人类用户一样。

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

主要功能

增强的感知能力：UI-TARS 能够通过大规模 GUI 截图数据集来理解 UI 元素，并生成精确的描述和字幕。
统一的动作建模：将不同平台上的动作标准化，通过大规模动作轨迹数据实现精确的交互。
系统 2 推理：引入深思熟虑的推理能力，支持多步决策，包括任务分解、反思思考和里程碑识别等。
迭代训练与在线学习：通过自动收集、过滤和优化新的交互轨迹，UI-TARS 能够从错误中学习，并适应未预见的情况，几乎不需要人工干预。

主要特点

纯视觉输入：完全依赖屏幕截图，无需文本描述或系统级权限。
端到端设计：将感知、推理、记忆和动作执行集成到一个统一的模型中，无需模块化的工作流。
自适应能力：通过在线学习和迭代优化，能够适应新任务和环境变化。
数据驱动：通过大规模数据训练，能够不断学习和改进，减少对人工标注的依赖。

工作原理

UI-TARS支持桌面、移动及网页应用的操作，利用多模态输入（如文本、图像、交互）来理解视觉环境。其用户界面包含两个标签页：左侧显示逐步的“思考过程”，右侧展示打开的文件、网站和应用程序，并自动执行相应的操作。

UI-TARS 的工作原理可以分为以下几个关键步骤：

感知：模型通过屏幕截图输入，识别和理解 GUI 元素及其布局。
推理：在执行动作之前，模型会生成“思考”步骤，模拟人类的深思熟虑过程。
动作执行：根据推理结果，模型选择并执行相应的动作（如点击、输入文本等）。
在线学习：通过在虚拟机上执行任务并收集新的交互轨迹，模型不断优化自身性能。
错误纠正：通过标注错误和纠正行为，模型学会从错误中恢复，提高鲁棒性。

性能超越竞争对手

在多个基准测试中，UI-TARS的表现均优于其他模型，比如在VisualWebBench上得分82.8%，高于GPT-4o的78.5%和Claude 3.5的78.2%。此外，在WebSRC和ScreenQA-short等测试中，UI-TARS同样表现出色。研究人员还强调了UI-TARS在处理复杂GUI元素理解和定位方面的卓越能力，这为高效的任务执行奠定了坚实的基础。