选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    UnifoLM-VLA-0 – 宇树开源的通用机器人操作大模型

    智能 PRO 稿源:AI工具集 2026-02-03 11:03

    UnifoLM-VLA-0是什么

    UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作(VLA)大模型,基于 Qwen2.5-VL-7B 架构进行持续预训练。模型通过融合 2D/3D 空间感知、轨迹预测等多维监督信号,实现从”视觉语言理解”到”具身智能体”的进化。模型采用单一策略即可完成整理桌面、叠毛巾、分拣水果等12类复杂人形机器人操作任务,在 LIBERO 仿真基准测试中平均准确率达 98.7%,展现出强大的空间推理能力和跨任务泛化性能。

    UnifoLM-VLA-0的主要功能

    • 通用机器人操作:作为端到端的视觉-语言-动作模型,UnifoLM-VLA-0 能通过自然语言指令控制人形机器人完成复杂操作任务,包括整理物品、叠毛巾、分拣水果、工具归位、擦拭桌面等12类多步骤长程任务。

    • 空间感知与推理:模型具备强大的2D/3D空间理解能力,包括物体检测与分割、3D边界框预测、空间关系推理(如”左边的铅笔”)、 affordance 推理(可抓取位置判断)以及轨迹规划。

    • 单策略多任务:仅需单一模型权重即可泛化到不同场景和任务,无需针对每个任务单独训练,展现出优异的跨任务迁移能力。

    UnifoLM-VLA-0的技术原理

    • 模型架构:基于开源 Qwen2.5-VL-7B 视觉语言大模型,新增 Action Head 动作预测头,构建端到端的视觉-语言-动作架构,实现从视觉感知和自然语言理解直接输出机器人控制动作。

    • 持续预训练:模型在覆盖机器人与通用场景的多任务数据集上进行持续预训练,整合 2D 检测分割、层次化任务分解、3D 物体检测、空间推理、轨迹预测等多样化监督信号,强化模型的多模态感知与物理理解能力。

    • 动作建模:模型引入动作块预测机制,同时施加前向与逆向动力学约束,对动作序列进行统一建模,使模型深入理解机器人与物体间的物理交互动态,支持长程动作规划与决策。

    • 空间增强:通过深度融合文本指令与 2D/3D 空间细节,建立语义逻辑与几何空间的精准对齐,显著提升空间感知与几何理解能力,满足操作任务对指令理解和空间推理的要求。

    UnifoLM-VLA-0的项目地址

    • 项目官网:https://unigen-x.github.io/unifolm-vla.github.io/

    • GitHub仓库:https://github.com/unitreerobotics/unifolm-vla

    UnifoLM-VLA-0的应用场景

    • 家庭服务:模型可执行整理桌面、折叠毛巾、擦拭污渍等日常家务操作任务。

    • 办公辅助:模型能完成收拾文具、整理书包、工具归位等办公环境维护工作。

    • 医疗健康:支持开启药瓶、分装药品等需要精细操作的医疗辅助场景。

    • 教育培训:可用于按颜色分类物品、堆叠积木等结构化认知教学演示。

    • 工业分拣:模型支持实现按规则将水果、零件等物品分类放置到指定区域的自动化分拣。

    超好看的资讯你懂得 >>> 点击进入

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接
    热门AI排行
    排名 热点 热门指数