UnifoLM-VLA-0 – 宇树开源的通用机器人操作大模型

智能 PRO 稿源：AI工具集 2026-02-03 11:03

UnifoLM-VLA-0是什么

UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作（VLA）大模型，基于 Qwen2.5-VL-7B 架构进行持续预训练。模型通过融合 2D/3D 空间感知、轨迹预测等多维监督信号，实现从”视觉语言理解”到”具身智能体”的进化。模型采用单一策略即可完成整理桌面、叠毛巾、分拣水果等12类复杂人形机器人操作任务，在 LIBERO 仿真基准测试中平均准确率达 98.7%，展现出强大的空间推理能力和跨任务泛化性能。

UnifoLM-VLA-0的主要功能

通用机器人操作：作为端到端的视觉-语言-动作模型，UnifoLM-VLA-0 能通过自然语言指令控制人形机器人完成复杂操作任务，包括整理物品、叠毛巾、分拣水果、工具归位、擦拭桌面等12类多步骤长程任务。
空间感知与推理：模型具备强大的2D/3D空间理解能力，包括物体检测与分割、3D边界框预测、空间关系推理（如”左边的铅笔”）、 affordance 推理（可抓取位置判断）以及轨迹规划。
单策略多任务：仅需单一模型权重即可泛化到不同场景和任务，无需针对每个任务单独训练，展现出优异的跨任务迁移能力。

UnifoLM-VLA-0的技术原理

模型架构：基于开源 Qwen2.5-VL-7B 视觉语言大模型，新增 Action Head 动作预测头，构建端到端的视觉-语言-动作架构，实现从视觉感知和自然语言理解直接输出机器人控制动作。
持续预训练：模型在覆盖机器人与通用场景的多任务数据集上进行持续预训练，整合 2D 检测分割、层次化任务分解、3D 物体检测、空间推理、轨迹预测等多样化监督信号，强化模型的多模态感知与物理理解能力。
动作建模：模型引入动作块预测机制，同时施加前向与逆向动力学约束，对动作序列进行统一建模，使模型深入理解机器人与物体间的物理交互动态，支持长程动作规划与决策。
空间增强：通过深度融合文本指令与 2D/3D 空间细节，建立语义逻辑与几何空间的精准对齐，显著提升空间感知与几何理解能力，满足操作任务对指令理解和空间推理的要求。