腾讯Robotics X开源HyVLA-0.5：引领机器人具身智能新纪元

2026-06-17 02:10:16未知作者:徽声在线

徽声在线编辑部

6月15日，腾讯Robotics X实验室联合福田实验室与混元团队，共同发布了面向真实世界机器人操作任务的端到端具身智能模型——Hy-Embodied-0.5-VLA（简称HyVLA-0.5）。这一模型基于腾讯自研的亚毫米级高精度指套式UMI数据采集软硬件（专利号：2025020117CN），构建了超过10000小时的人类示教数据集，使得模型在监督训练阶段无需依赖遥操作数据，也能在多本体真机任务中实现高部署成功率。基于纯自研UMI数据训练的HyVLA-0.5，在RoboTwin 2.0仿真基准的简单与复杂设置下，成功率均超过90%，成为该榜单上表现最优的开源VLA模型。

HyVLA-0.5的创新之处在于，它首次将Proximalized Preference Optimization（PRO）方法系统性地引入基于流匹配的VLA强化后训练中。这一方法充分利用真实机器人失败数据，通过优化策略，使真实机器人任务的成功率接近100%，显著提升了模型的鲁棒性和实用性。

视频链接：https://mp.weixin.qq.com/s/RpbFcoo28yHdNvPQjaUX4g

随着VLA模型在机器人连续控制领域展现出越来越强的潜力，业界逐渐认识到，通用机器人能力的形成不能仅依赖更大的模型或更强的策略。真实机器人的部署需要数据、模型、预训练、后训练和执行系统的协同设计，既要能够学习复杂的操作技能，也要能在真实硬件的约束下稳定运行。HyVLA-0.5正是在这一背景下应运而生，旨在推动VLA从模型能力验证走向可持续迭代、可跨本体迁移、可真实部署的机器人系统。

Hy-Embodied-0.5-VLA的整体系统架构涵盖了数据采集、模型架构、跨本体监督微调、强化学习后训练等关键环节，体现了其从数据到模型再到策略优化的全栈式设计理念。

项目地址：https://tairos.tencent.com/openSourceModels/hy-embodied-0.5-vla
代码仓库：https://github.com/Tencent-Hunyuan/Hy-Embodied-0.5-VLA
数据集：https://huggingface.co/datasets/tencent/Hy-Embodied-0.5-VLA-Data

一套覆盖“从数据到落地”的机器人学习栈

高精度UMI数据采集软硬件：构建万小时具身数据基础

数据是机器人基础模型能力的基石。HyVLA-0.5自研了高精度指套式UMI数据采集装置，并配套运动捕捉定位系统，实现了面向人类示教的高保真数据采集。该装置不仅能够记录第一视角视觉信息，还能通过外部光学运动捕捉系统获得亚毫米级6-DoF轨迹标注。部分夹爪还集成了末端力/力矩传感能力，使数据天然包含可用于力感知、力控学习的物理交互信息。

基于这套自研采集系统，HyVLA-0.5构建了超过10,000小时、覆盖70类任务、超过100万条episode的Hy-UMI-10K数据集。该数据集涵盖了厨房、洗衣、收纳、清洁、工具使用、柔性物体操作等多类日常场景，为学习精细操作、长程任务和跨场景泛化提供了规模化基础。HyVLA-0.5计划开放其中2,000小时的自采UMI数据，与学术界和产业界共同推进高质量机器人数据、评测与模型训练范式的共研共建。

自研UMI数据采集工作站

自采Hy-UMI-10K数据集组成

模型架构：基于Hy-Embodied-0.5引入行动、记忆和跨本体能力

在模型侧，HyVLA-0.5基于腾讯Robotics X和混元联合自研的Hy-Embodied-0.5具身视觉语言模型进行扩展，将其面向视觉语言理解的能力进一步连接到机器人连续控制。系统引入了基于流匹配的行动专家模块，直接生成连续动作轨迹；同时通过双塔结构将视觉语言理解与动作生成解耦，使语义感知、空间理解和底层控制能够在统一框架中协同工作。

为了支持真实机器人中的时序感知，HyVLA-0.5进一步设计了一个紧凑记忆编码器，将多帧、多视角视觉历史压缩为紧凑的当前帧表示，从而在不显著增加视觉token数量的情况下引入短时记忆。系统还采用增量式动作块表示，让策略预测相对于当前末端执行器状态的增量动作，从而降低对特定机器人关节结构和运动学的依赖，为后续跨本体迁移和统一部署奠定基础。

HyVLA-0.5模型架构。采用MoT架构搭建，借助共享联合注意力机制实现多模态信息交互。图像编码器被拓展为轻量化记忆编码器，沿用Hy-Embodied-0.5模型的设计思路，引入局部双向注意力对多视角观测信息建模。

持续预训练与监督微调：从UMI行动先验到同本体/跨本体真机任务

在训练流程上，HyVLA-0.5首先在Hy-UMI-10K上进行持续预训练，学习来自大规模人类示教的通用行动先验。随后，系统在下游任务上进行监督微调，并将真实机器人评测组织为两条互补的SFT track：Track-A面向目标机器人适配，即在同一机器人平台上采集示教并部署评测；Track-B面向UMI-only跨本体迁移，即只使用任务相关UMI示教进行微调，不采集目标机器人遥操作数据，随后部署到形态不同的真实机器人上。

这一设计使HyVLA-0.5能够同时验证两类关键能力：一方面，在Track-A中评估模型在目标机器人上的精细适配能力；另一方面，在Track-B中评估高精度UMI数据和预训练行动先验是否能够跨越人类手持采集装置与不同机器人平台之间的本体差异。

实验显示，UMI预训练不仅在仿真任务中带来稳定增益，在真实机器人任务中收益更为显著，尤其有助于提升精细操作中的关键动作预测质量。更重要的是，高精度UMI数据不仅可用于大规模持续预训练，也可以直接作为下游任务的后训练/微调轨迹，使模型在无需目标机器人遥操作数据的条件下，仍能在跨本体真机任务中取得较好的部署成功率。

视频链接：https://mp.weixin.qq.com/s/RpbFcoo28yHdNvPQjaUX4g

FlowPRO强化学习后训练：将真实失败案例转化为快速策略提升

在后训练阶段，团队引入了FlowPRO方法，将Proximalized Preference Optimization（PRO）首次系统性地应用到基于流匹配的VLA的真实机器人后训练中。与依赖人工设计奖励或学习判别模型的方法不同，FlowPRO通过真实机器人执行中的干预与回滚机制，直接采集成对的失败轨迹和成功纠正轨迹，并将其转化为可用于离线偏好优化的训练信号。

FlowPRO的核心是RPRO loss：它在连续动作生成的流匹配目标中直接对比偏好动作与非偏好动作，使策略在每个状态上向成功纠正动作靠近、远离失败动作；同时通过近端正则项约束策略更新，抑制隐式奖励漂移，降低奖励黑客和灾难性遗忘风险。实验中，FlowPRO在Bottle、Cap、USB、Zip等四个真实双臂任务上持续优于DAgger和PI0.6方案，并在三轮后训练后将多项任务成功率推进到接近天花板水平。

视频链接：https://mp.weixin.qq.com/s/RpbFcoo28yHdNvPQjaUX4g

真机部署：异步推理与轨迹平滑支撑高频闭环控制

真实部署是从模型走向机器人系统的最后一环。HyVLA-0.5面向不同机器人平台设计了跨机器人形态的平台映射机制，将模型输出的末端增量动作映射到目标机器人坐标系和逆运动学求解过程，使同一策略接口能够服务于固定基座双臂、类人形机器人等不同形态。

同时，HyVLA-0.5实现了异步推理与执行框架，将高容量VLA的前向推理和机器人伺服执行解耦，通过动作指令缓冲区在推理线程与执行线程之间持续传递动作指令，从而减少推理延迟对机器人连续运动的影响。针对基于动作块策略容易出现的动作边界不连续问题，系统进一步引入延迟感知的三次贝塞尔轨迹拼接方法，在无需额外训练控制器的情况下实现平滑、连续的高频执行。

视频链接：https://mp.weixin.qq.com/s/RpbFcoo28yHdNvPQjaUX4g

基准测评：迈向可部署通用机器人学习栈

在RoboTwin 2.0仿真基准上，HyVLA-0.5在Clean和Randomized设置中分别达到90.9%和90.1%的成功率，超过多种同期VLA系统。在真实机器人评测中，HyVLA-0.5覆盖了Dobot X-Trainer、JAKA K1、Astribot S1和Unitree G1等多个平台，验证了同本体适配、跨本体迁移、力感知任务和FlowPRO后训练能力。

RoboTwin 2.0仿真测评结果。

六个真机任务上的测评结果。Track-A（使用同本体数据微调）：使用X-Trainer数据微调部署到X-Trainer上。Track-B（使用跨本体数据微调）：使用高精度UMI数据微调部署到JAKA K1和Astribot S1上。

RL后训练测评结果。以HyVLA-0.5作为基础策略，四项真实机器人任务下每轮迭代的任务成功率。第0轮迭代对应监督微调模型检查点；第1–3轮迭代代表连续多轮后训练过程。

远不止VLA，腾讯Robotics X已经开源和落地多个领先模型

HyVLA-0.5不止于提出一个新的VLA模型，更在于展示了一条面向真实机器人落地的全栈路线：用高质量自采数据构建行动先验，用具身原生架构连接视觉语言理解与连续控制，用UMI预训练和双track微调验证跨本体迁移，用FlowPRO将失败案例转化为策略迭代动力，并用异步部署系统支撑真实硬件上的稳定闭环执行。

追求真实场景验证，是腾讯Robotics X实验室这两年最重要的方向之一。追踪腾讯过去一年在具身智能方向的布局可以看到，此次发布的意义在于：HyVLA-0.5将感知、推理与行动贯通为一套面向真实机器人操作的VLA系统，并开始进入工业产线场景接受测试验证。

在过去的2025年至2026年期间，腾讯Robotics X实验室联合混元团队，已经构建起了一个从底层平台基础设施到行业多模态大模型的完整开源矩阵。

此前，腾讯发布并开源了HY-Embodied-0.5系列模型。这是一套面向真实世界具身智能体的基础模型，重点增强空间和时间视觉感知，以及预测、交互、规划等具身推理能力。

相比通用视觉语言模型，HY-Embodied-0.5更像是为机器人任务重新设计的多模态底座。它关注的不只是图像问答，也包括机器人在真实环境中需要的空间定位、时序理解和任务推理。

随后，腾讯又发布了HY-Embodied-0.5-X。这一增强版模型继续围绕真实机器人“看得懂、想得清、做得到”的闭环进行专项优化，强化了精细操作理解、空间推理、动作预测、风险判断、多模态指代理解和长程规划等能力。

不久前，腾讯还开放了自研的机器人本体互连技术RoboFusion，可实现机器人“一线到底”的理想连接方式，降低布线复杂性与故障风险，同时定义了以IP协议为基础的本体通信方式，融合了机器人多业务的数据传输，使机器人具备更高级的软件重构、软件定义的特征。在腾讯Robotics X实验室的示范机器人系统上，RoboFusion可将线束从35束减少到3束，相当于消除了32条独立通道的布线负担，这对于机器人本体互连而言，是一项革命性的跨越。

腾讯Robotics X的新变化

从2025年开始，腾讯Robotics X实验室变得不一样了——更重视软件算法、AI模型的研发，并且强调开源开放共享。

2025年，腾讯Robotics X实验室联合福田实验室推出了Tairos（钛螺丝）具身智能开放平台。

Tairos面向机器人本体厂商和应用开发商，以模块化方式提供大模型开发工具和数据服务，首批集成多模态感知模型、规划大模型、感知-行动联合大模型等核心组件，同时提供仿真平台、数据服务和SDK接口。

腾讯首席科学家、Robotics X实验室主任、福田实验室主任张正友博士此前提到，基于规划大模型、感知模型、感知行动联合大模型结合的SLAP³理论，腾讯Robotics X联合福田实验室推出Tairos具身智能开放平台，用模块化方式提供大模型开发工具和数据服务，支持具身智能机器人行业发展。

这句话点出了Tairos的本质：为机器人本体开发商和应用开发商补齐关键软件能力。

对机器人厂商来说，这类开放能力的价值很直接。

本体厂商擅长机械结构、电机控制、供应链和硬件量产，但并不一定都有能力从零训练具身大模型。应用开发商熟悉场景，但也很难独立完成数据采集、模型训练、仿真验证和硬件适配。

Tairos和HY-Embodied系列模型试图降低这部分门槛，让更多厂商能接入一套相对成熟的大脑能力。

过去，很多机器人demo看起来足够惊艳，但一旦进入开放环境，就会迅速暴露不足。机器人要从展台走向工厂、商超、家庭和服务场景，靠的不会只是某一个更强的模型，还需要一套能够持续迭代的软件体系。

腾讯正在做的，正是这件事。

短短一年间，从Tairos到HY-Embodied-0.5，再到HY-Embodied-0.5-X和Hy-Embodied-0.5-VLA，腾讯补齐了平台、模型、数据、训练和部署等关键环节。每一步都有真实工程产出，也都选择开放给行业。

这条路线背后，是腾讯在机器人方向越来越清晰的定位：把算法、模型和平台能力，沉淀为更多机器人厂商可以接入的大脑底座。

具身智能的落地，不会只来自某一次炫目的演示。它更可能来自开放模型的持续迭代、真实数据的不断积累、真机失败后的快速修正，以及整个行业共同搭建起来的软件基础设施。

等这套基础设施足够稳固，机器人进入真实物理世界的速度，才会真正加快。

https://wuyeyexvnainai.github.io/flowpro/

https://github.com/Tencent-Hunyuan/HY-Embodied

https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-X

https://github.com/Tencent-Hunyuan/Hy-Embodied-RoboFusion

点击展开全文