字节豆包发布开源的 Seed 智能体模型 UI-TARS-1.5版本,探索新一代人工智能界面设计

字节跳动豆包大模型团队宣布开源 UI-TARS-1.5,这是一款基于视觉 - 语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测基准中取得了 SOTA(State-of-the-Art)表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。这一开源项目标志着多模态智能体技术在 GUI 操作和游戏推理领域取得了重要进展。

UI-TARS-1.5基于字节跳动此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。这种“思考 - 再行动”机制显著提升了模型在面对未知环境和任务时的泛化能力,使得 UI-TARS-1.5在多项主流评测基准上较此前领域最优模型取得了更好表现。例如,在 GUI Grounding 能力评估中,UI-TARS-1.5在高难度的 ScreenSpotPro 上的准确率达到61.6%,超过 Claude 的27.7%、CUA 的23.4% 以及此前领域最优模型的43.6%。

微信截图_20250418080056.png

在游戏任务中,UI-TARS-1.5也展现了出色的表现。团队选取了 poki.com 上14款风格各异的小游戏进行测试,模型每局最多允许1000步交互。UI-TARS-1.5在这些游戏任务中不仅展现了较好的表现,还呈现出稳定的推断时扩展性。此外,团队进一步在开放环境 Minecraft(《我的世界》游戏)中评估了 UI-TARS-1.5的能力。在 MineRL 标准评测任务中,UI-TARS-1.5在“寻找并破坏特定方块”和“搜索并击败敌对生物”两个任务中均取得了最高成功率,特别是在启用“思考模块”后表现更加突出,验证了“思考 - 再行动”机制的有效性。

UI-TARS-1.5的成功源于团队在四个维度的技术探索:视觉感知增强、System2推理机制、统一动作建模以及可自我演化的训练范式。通过这些技术,UI-TARS-1.5能够实现精准的 GUI 操作,并在复杂任务中表现出色。例如,用户想让模型“把字体调大”,通用模型往往理解模糊、操作失误,而 UI-TARS 能迅速定位“设置”入口,并基于既有知识推理出正确路径,精准完成操作。

UI-TARS 团队认为,智能体的演进正从框架(framework)向模型(model)转变。UI-TARS 属于“原生智能体模型(Agent Model)”,具备完整的感知 - 推理 - 记忆 - 行动一体化结构,能在训练中不断积累知识与经验,具备更强的泛化能力与适应能力。这种“从数据出发”的闭环范式,使得 UI-TARS 不再依赖人工规则与提示工程,也无需重复设定交互步骤,极大降低了开发门槛。

未来,UI-TARS 团队将继续通过强化学习提升 UI-TARS 在复杂任务中的性能表现,期望达到接近人类的水平,同时将继续优化 UI-TARS 的产品体验,进一步提升使用流畅度并丰富交互能力。UI-TARS-1.5的开源,为开发者和研究人员提供了一个强大的工具,推动多模态智能体技术的发展。开源地址如下:

- GitHub:https://github.com/bytedance/UI-TARS

- Website:https://seed-tars.com/

- Arxiv:https://arxiv.org/abs/2501.12326

猜你喜欢

方人也国画新作:在传统与现代的交融中探寻独特的艺术表现形式
方人也国画新作:在传统与现代的交融中探寻独特的艺术表现形式

当代艺术家方人也:在传统与现代间架起桥梁在当代艺术领域,方人也以其独树一帜的创作风格赢得了广泛赞誉。他的画作不仅继承了传

魔兽世界:探索卡鲁亚克军需官的确切位置和获取攻略
魔兽世界:探索卡鲁亚克军需官的确切位置和获取攻略

在魔兽世界这款大型多人在线角色扮演游戏中,探索各个地区、完成任务和收集装备是玩家的重要活动之一。卡鲁亚克军需官是一个为玩

李小琳的诗书画展在澳门盛大举行,华莲丹心展现濠江深厚文化底蕴与韵味
李小琳的诗书画展在澳门盛大举行,华莲丹心展现濠江深厚文化底蕴与韵味

近日,艺术界迎来了一场别开生面的文化盛宴——《华莲丹心》李小琳诗书画文化艺术作品展,在美狮美高梅金狮大堂的美狮空间璀璨启

2025年3月24日支付宝蚂蚁庄园最新问题答案汇总,你知道了吗?
2025年3月24日支付宝蚂蚁庄园最新问题答案汇总,你知道了吗?

在支付宝蚂蚁庄园中,每天都会有各种有趣的问题等待着用户去探索和解答。2025 年 3 月 24 日这一天也不例外,为大家

2024“读懂中国”征文展播:倾听五位前辈的故事,共感时代的精神与变迁
2024“读懂中国”征文展播:倾听五位前辈的故事,共感时代的精神与变迁

在教育部关工委的精心策划下,“读懂中国”活动持续发酵,成为一股引领青年学生深入探索“四史”教育的强劲力量。该活动以身边人

如何在游戏中顺利获取潮汐守望者玛格达的血雨妖灵皮肤攻略
如何在游戏中顺利获取潮汐守望者玛格达的血雨妖灵皮肤攻略

潮汐守望者玛格达的血雨妖灵皮肤以其独特的风格备受玩家喜爱。那么,这款皮肤该如何获取呢?首先,可以关注游戏内的限时活动。游

书法学习技巧揭秘:有效临帖的方法与策略,如何减少学习中的误区与弯路?
书法学习技巧揭秘:有效临帖的方法与策略,如何减少学习中的误区与弯路?

书法学习,作为传承中华文化精髓的重要途径,其精髓在于科学的方法与实践。临帖,作为书法学习的起点,其前的读帖环节同样不容忽

清明时节:在艺术作品中感受节气与传统文化交汇的深厚情感
清明时节:在艺术作品中感受节气与传统文化交汇的深厚情感

清明时节,春意盎然,这个融合自然节气与传统节日的特殊日子,再次降临人间。自古以来,清明不仅是农事活动的起始,更是缅怀先人

弓箭传说2爬塔攻略详解:如何顺利通关各个关卡和挑战
弓箭传说2爬塔攻略详解:如何顺利通关各个关卡和挑战

弓箭传说2的爬塔玩法极具挑战性,吸引着众多玩家不断探索。以下是一份详细的通关攻略,助你在爬塔中顺利前行。角色选择与培养首

颜真卿:书法映照千古情怀,忠烈之心辉映丹心,英烈之路为何依旧绵延不绝?
颜真卿:书法映照千古情怀,忠烈之心辉映丹心,英烈之路为何依旧绵延不绝?

在浩瀚的历史长河中,颜真卿以其非凡的书法造诣与崇高的忠义精神,成为了后世敬仰的典范。颜真卿,字清臣,出身名门琅琊颜氏,是