VLA已显局限？触觉或成具身智能变革新引擎

2026-05-08 02:16:30未知作者:徽声在线

徽声在线发布

2026年，数据已然成为具身智能领域竞争的新焦点，京东、百度等科技巨头纷纷投身其中。然而，在这热闹的表象背后，一个关键问题始终悬而未决：究竟什么样的数据才是具身智能真正所迫切需要的？

近日，全球最大的工程与应用科学专业组织IEEE（电气电子工程师学会）旗下的旗舰出版物IEEE Spectrum，对知名机器人学家王煜展开了一次深度专访。

这位在机器人领域深耕近40年的资深学者给出了自己的独到见解：当前主流的VLA（视觉 - 语言 - 动作）架构难以支撑机器人真正走向实际应用，包含丰富物理交互信息的数据，才是机器人理解现实世界、实现稳定操作的核心要素。

访谈链接：https://spectrum.ieee.org/daimon-robotics-physical-ai
原文作者：Sujeet Dutta，Wiley科学与工程部高级编辑

上世纪80年代，作为中国首批公派留学生，王煜踏入卡内基梅隆大学机器人研究所，成为时任所长Matt Mason教授招收的第一位博士生，专注于机器人抓取力学与操作规划的研究——而这正是当下具身智能操作能力的学术源头。他曾在多所院校任教，还与李泽湘携手创办了香港科技大学机器人研究院，为今日产业一线培养了众多优秀人才。

王煜被斯坦福大学评为全球前2%顶尖科学家，并且作为IEEE机器人与自动化协会管理委员会中唯一代表中国机构的学者，持续在国际具身智能领域发出中国声音。

从液压驱动到电动驱动、从工业场景到生活场景，再到如今的人工智能时代，王煜见证并参与了现代机器人学的每一次重大范式转换。因此，他在当下狂热氛围中的思考格外值得关注。

在王煜看来，机器人下一个亟待突破的能力是“操作”（manipulation），而且实现这一突破的时机已经日益成熟。

如今，机器人虽然能够完成一些令人惊艳的演示，但在真实环境中自主感知、决策并稳定执行操作仍面临巨大挑战。根本原因在于对视觉的过度依赖——当机器人尝试拿起一只玻璃杯、采摘一颗草莓、插拔一根电线时，视觉只能告知它物体的位置，却无法告知它力度是否合适、角度是否准确、操作是否完成。

材质特性、摩擦情况、接触力大小、形变程度，这些决定操作成败的物理反馈信息，恰恰是视觉的盲区，也是机器人操作中长期缺失的关键环节。

王煜认为，触觉是打开这扇关键大门的钥匙。触觉包含了接触力、接触状态、形变、纹理与材质等丰富信息，能够填补视觉的盲区与可能产生的错觉，让机器人从简单的“识别物体”迈向“理解物体、精准操控物体”。

基于这一深刻判断，他与团队提出了VTLA（视觉 - 触觉 - 语言 - 动作）框架，在主流VLA架构中引入触觉，将其视为与视觉同等重要的感知模态。

王煜教授

这些前瞻性的主张并未仅仅停留在理论层面。几年前，王煜与博士后段江哗共同创立了“戴盟机器人”，将多年积累的触觉感知研究成果推向工程化落地。这家公司过去以含触觉感知的硬件研发而闻名，到2026年第一季度，其营收已超过去年全年，发展势头强劲。

上个月，戴盟正式发布了含触觉模态的物理世界具身数据集Daimon Infinity，并开源其中10000小时的数据，正式进军当下最热门的具身数据赛道。

一位以“操作”为研究核心命题的学者，为何在此刻选择投身数据之争？这背后的战略判断，或许能让我们窥见未来几年具身智能的发展走向。

在这次专访中，王煜系统深入地阐释了他对机器人操作、触觉感知、具身数据与物理AI的深刻思考：为什么VLA架构会遭遇发展瓶颈？触觉数据为何长期被忽视，又为何不可或缺？所谓“物理智能”究竟意味着什么？作为一位见证了机器人学半个世纪发展的资深研究者，他如何看待人形机器人未来的可能性与边界？

以下为IEEE Spectrum专访王煜的译文，出于篇幅考虑略有删减：

提问：今年4月，戴盟机器人联合多家头部学术机构和企业，共同发布了规模最大、最全面的具身操作数据集。为何选择现在发布数据集，而不是继续专注于硬件开发？

王煜：随着具身智能的快速发展，越来越多的人意识到数据的重要性：数据不足是目前具身智能发展的关键瓶颈，尤其是包含丰富物理交互信息的数据，这将是提升机器人在现实世界操作能力的核心要素。

数据的质量、可靠性和成本，已成为研发和商业落地过程中需要重点关注的问题。

而这恰好是戴盟的优势所在。依托领先的视触觉技术，我们能够提供含多模态触觉的高质量数据 ——不仅包含接触力，还有接触形变、接触状态、滑移摩擦、物体材质与纹理等详细信息，能够完整还原物理交互的全过程。基于过往深厚的技术积累，我们也研发了高效的数据处理管线，将触觉与视觉、动作轨迹、语音文本等模态精准融合，转化为模型训练可用的优质数据。

面对行业的数据空缺，我认为采集数据是我们戴盟有能力做好、也应该承担起的重要任务。

今年4月，戴盟发布含触觉全模态物理世界数据集Daimon - Infinity

提问：戴盟声称数据集年底能达到超百万小时规模，你们是如何实现这一目标的？

王煜：我们打造了全球最大规模的外发式具身数据采集网络—— 借助轻便化的设备，数据采集不再局限于特定的数采场，而是可以深入各类真实场景，不受空间限制，实现了低成本、跨场景、高度真实性的采集，从而具备了每年数百万小时数据的强大生产能力。

提问：Daimon - Infinity由多家机构联合发布，他们是如何参与其中的？

王煜：此次数据集的发布，我们联合了全球数十家机构共同合作建设，其中包括北京大学、清华大学、香港科技大学等中国知名高校，以及DeepMind、美国西北大学、新加坡国立大学等全球顶尖研究团队，另外还有中国移动、汇川技术、上声电子等产业方。他们选择与戴盟合作，是对我们将触觉加入具身数据这一创新路线的认可。

通过在科研、制造等实际场景下进行数据采集，这些合作方帮助我们收集到了高度真实、以实际场景为驱动的宝贵数据；反过来，他们也可以将这些数据用于自己的模型训练。此外，我们开源了10000小时的数据，希望含触觉的数据能够推动更多具身模型的进化升级。

提问：目前机器人领域的主流范式是VLA模型，但戴盟团队提出了VTLA框架。为什么选择加入触觉？

王煜：触觉信息对于机器人的操作能力至关重要，它能提供与物体接触时的详细物理反馈，引导机器人手进行可靠、精准的操作。如果没有触觉，机器人可能无法在黑暗环境中准确判断物体的位置，可能因无法感知滑移状态而导致玻璃杯掉落，更有可能因为无法精确控制力度而导致操作任务失败，甚至造成不必要的损害。

VLA架构已经难以满足机器人操作日益复杂的需求，因此我们扩展了框架，纳入触觉数据，创建了VTLA。

值得一提的是，我们采用的视触觉感知技术，与VLA所基于的视觉框架高度契合。它能够捕捉指尖表面的形变，将触觉信息巧妙地转化为视觉图像，并从中推断出力和其他接触状态 —— 而图像数据天然适合集成到VLA中，这大大降低了框架扩展的技术门槛。

搭载视触觉传感器的夹爪，通过精准感知触觉，赋能精细操作

提问：您和团队开发了世界上首个单色光视触觉技术，为什么选择了这条技术路线？

王煜：从开始研究触觉感知时，我们就明确了自身的核心需求：我们想要的是能够高度模拟人类指尖皮肤触觉的先进传感器。

生理学研究已经充分证实了人类指尖所具备的强大能力 —— 能够准确知道我们触摸了什么、是什么材质、力如何分布，以及当大脑控制手时，它是否移动到了正确的位置。我们深知，在机器人手上复制这些能力将带来巨大的应用价值。

在调研现有技术时，我们发现了多种类型的触觉感知技术，包括三色光视触觉传感及其他更简单的设计。我们将这些技术的优势进行有机整合，形成了一个综合性的解决方案，使其在保持良好性能的同时又不会过于复杂，并将成本、可靠性和灵敏度控制在令人满意的范围内，最终成功研发了单色光视触觉技术。随着人们对触觉认知的不断深入，这些技术将携手共进，推动行业发展。

全模态触觉信息，包含力 / 力矩、形状、材质、接触信息四大维度

提问：你们的视触觉传感器正是基于这一技术，相比传统触觉传感器有什么核心优势？

王煜：我们在去年推出了全球首个多维高分辨率高频率视触觉传感器，在指尖大小的模块上装载了11万个感知单元，是目前业内最高的密度。

另一个显著优势是频率和带宽，即我们检测触觉变化、传输并实时处理信号的速度极快。其他方面则主要与工程技术相关，如可靠性、漂移、硅胶表面耐用性及对电磁、光学及其他环境因素的抗干扰能力。

触觉的重要性正被越来越多的人所认识，我们的视触觉传感器也得到了更广泛的应用，我相信这会让整个行业都迈上一个新的台阶。

我们的一位潜在客户正在便利店中部署人形机器人，在密密麻麻的货架上，机器人需要伸入非常狭小的空间才能取出物品 —— 人类至少需要三根纤细的手指才能完成抓取任务。诸如此类的场景，让我们看到了对于触觉的非常具体且迫切的需求。

戴盟视触觉传感器具有高感知单元密度

提问：戴盟目前的商业模式和战略重点是什么？数据集在其中扮演什么角色？

王煜：我们最初专注于制造高性能的触觉感知设备，尤其是搭载于机器人手的传感器。但随着具身智能的快速发展，大家逐渐意识到，行业需要的不仅仅是一个单一的组件，而是整个完整的技术链：设备、大规模高质量的数据，以及最终能够在实际应用环境中构建、训练和部署机器人模型的全面框架。

现在，我们将自己的商业战略定位为“3D”：设备（Devices）、数据（Data）和部署（Deployment）。我们研发用于数据采集和构建触觉生态的设备，并通过在合作伙伴的应用场景里进行部署，完成含触觉数据的落地与闭环验证。在这个模式里，任何一环都不可或缺，共同推动行业发展。

提问：您之前提出了“具身技能”的概念，认为这是人形机器人超越“仅拥有先进人工智能大脑”的关键。您为什么会提出这一观点？过去两年行业快速发展，您对具身技能的定义是否有所改变？

王煜：机器人的发展历程漫长而精彩，如今已到了电气、电子和机电一体化硬件技术深度融合的阶段，这是过去20年里取得的巨大进步。由于硬件的快速发展，机器人现在完全是电动的，不再依赖液压系统。现代电子技术提供了高带宽和高扭矩，如果我们能将智能巧妙地融入这些机械系统，就能创造出真正意义上的人形机器人 —— 能够在非结构化环境中灵活运行、智能决策并自主稳定地执行各种操作的机器人。

人工智能的出现恰逢其时，大量资源投入其中，特别是大语言模型。它们如今被推广到世界模型中，赋能物理智能（physical AI）—— 我们希望这些能力最终能在现实世界中落地生根。如今研究重点更加明确，例如在家庭环境中，人们更倾向于使用人形机器人。这是一个令人兴奋的领域，如果我们最终能够制造出安全、可靠且经济高效的机器人，它将为社会带来巨大的益处。

搭载了戴盟触觉感知技术的机器人在工厂线上部署

提问：机器人如今能进行令人印象深刻的演示，但距离真正进入实际应用仍存在差距。什么因素可能触发实际部署？哪些场景最有可能率先实现大规模部署？

王煜：我认为通用机器人的大规模部署之路仍然漫长，但我们已经看到特定领域的可行性。

这与自动驾驶汽车的发展非常相似，无人驾驶出租车尚未全面普及，但移动机器人在酒店业已经得到广泛应用。在中国，几乎所有大型酒店都配备了送餐机器人 —— 没有机械臂，只是一台从酒店大堂取外卖的小型机器人。外卖员只需放置食物并选择房间号，机器人便会自行导航、自行使用电梯，最终将食物准确送达客房。

酒店及餐厅的机器人应用，为其他场景的应用提供了宝贵的范本，例如夜间药店和便利店。我预计在短期内，这些场所将全面部署人形机器人，并在之后逐步扩展到其他领域。我们可以期待，在未来，包括人形机器人在内的自主机器人将逐步渗透到特定行业，为行业创造显著价值。

我们的愿景始终是让机器人实现强大的操控能力，并发展成为人类可靠的合作伙伴。未来，机器人或许会无缝融入我们的日常生活，真正造福并服务于人类。

点击展开全文