VLA已显局限?触觉或成具身智能变革新引擎
2026-05-08 02:16:30未知 作者:徽声在线
徽声在线发布
2026年,数据已然成为具身智能领域竞争的新焦点,京东、百度等科技巨头纷纷投身其中。然而,在这热闹的表象背后,一个关键问题始终悬而未决:究竟什么样的数据才是具身智能真正所迫切需要的?
近日,全球最大的工程与应用科学专业组织IEEE(电气电子工程师学会)旗下的旗舰出版物IEEE Spectrum,对知名机器人学家王煜展开了一次深度专访。
这位在机器人领域深耕近40年的资深学者给出了自己的独到见解:当前主流的VLA(视觉 - 语言 - 动作)架构难以支撑机器人真正走向实际应用,包含丰富物理交互信息的数据,才是机器人理解现实世界、实现稳定操作的核心要素。
- 访谈链接:https://spectrum.ieee.org/daimon-robotics-physical-ai
- 原文作者:Sujeet Dutta,Wiley科学与工程部高级编辑
上世纪80年代,作为中国首批公派留学生,王煜踏入卡内基梅隆大学机器人研究所,成为时任所长Matt Mason教授招收的第一位博士生,专注于机器人抓取力学与操作规划的研究——而这正是当下具身智能操作能力的学术源头。他曾在多所院校任教,还与李泽湘携手创办了香港科技大学机器人研究院,为今日产业一线培养了众多优秀人才。
王煜被斯坦福大学评为全球前2%顶尖科学家,并且作为IEEE机器人与自动化协会管理委员会中唯一代表中国机构的学者,持续在国际具身智能领域发出中国声音。
从液压驱动到电动驱动、从工业场景到生活场景,再到如今的人工智能时代,王煜见证并参与了现代机器人学的每一次重大范式转换。因此,他在当下狂热氛围中的思考格外值得关注。
在王煜看来,机器人下一个亟待突破的能力是“操作”(manipulation),而且实现这一突破的时机已经日益成熟。
如今,机器人虽然能够完成一些令人惊艳的演示,但在真实环境中自主感知、决策并稳定执行操作仍面临巨大挑战。根本原因在于对视觉的过度依赖——当机器人尝试拿起一只玻璃杯、采摘一颗草莓、插拔一根电线时,视觉只能告知它物体的位置,却无法告知它力度是否合适、角度是否准确、操作是否完成。
材质特性、摩擦情况、接触力大小、形变程度,这些决定操作成败的物理反馈信息,恰恰是视觉的盲区,也是机器人操作中长期缺失的关键环节。
王煜认为,触觉是打开这扇关键大门的钥匙。触觉包含了接触力、接触状态、形变、纹理与材质等丰富信息,能够填补视觉的盲区与可能产生的错觉,让机器人从简单的“识别物体”迈向“理解物体、精准操控物体”。
基于这一深刻判断,他与团队提出了VTLA(视觉 - 触觉 - 语言 - 动作)框架,在主流VLA架构中引入触觉,将其视为与视觉同等重要的感知模态。
王煜教授
这些前瞻性的主张并未仅仅停留在理论层面。几年前,王煜与博士后段江哗共同创立了“戴盟机器人”,将多年积累的触觉感知研究成果推向工程化落地。这家公司过去以含触觉感知的硬件研发而闻名,到2026年第一季度,其营收已超过去年全年,发展势头强劲。
上个月,戴盟正式发布了含触觉模态的物理世界具身数据集Daimon Infinity,并开源其中10000小时的数据,正式进军当下最热门的具身数据赛道。
一位以“操作”为研究核心命题的学者,为何在此刻选择投身数据之争?这背后的战略判断,或许能让我们窥见未来几年具身智能的发展走向。
在这次专访中,王煜系统深入地阐释了他对机器人操作、触觉感知、具身数据与物理AI的深刻思考:为什么VLA架构会遭遇发展瓶颈?触觉数据为何长期被忽视,又为何不可或缺?所谓“物理智能”究竟意味着什么?作为一位见证了机器人学半个世纪发展的资深研究者,他如何看待人形机器人未来的可能性与边界?
以下为IEEE Spectrum专访王煜的译文,出于篇幅考虑略有删减:
提问:今年4月,戴盟机器人联合多家头部学术机构和企业,共同发布了规模最大、最全面的具身操作数据集。为何选择现在发布数据集,而不是继续专注于硬件开发?
王煜:随着具身智能的快速发展,越来越多的人意识到数据的重要性:数据不足是目前具身智能发展的关键瓶颈,尤其是包含丰富物理交互信息的数据,这将是提升机器人在现实世界操作能力的核心要素。
数据的质量、可靠性和成本,已成为研发和商业落地过程中需要重点关注的问题。
而这恰好是戴盟的优势所在。依托领先的视触觉技术,我们能够提供含多模态触觉的高质量数据 ——不仅包含接触力,还有接触形变、接触状态、滑移摩擦、物体材质与纹理等详细信息,能够完整还原物理交互的全过程。基于过往深厚的技术积累,我们也研发了高效的数据处理管线,将触觉与视觉、动作轨迹、语音文本等模态精准融合,转化为模型训练可用的优质数据。
面对行业的数据空缺,我认为采集数据是我们戴盟有能力做好、也应该承担起的重要任务。
今年4月,戴盟发布含触觉全模态物理世界数据集Daimon - Infinity
提问:戴盟声称数据集年底能达到超百万小时规模,你们是如何实现这一目标的?
王煜:我们打造了全球最大规模的外发式具身数据采集网络—— 借助轻便化的设备,数据采集不再局限于特定的数采场,而是可以深入各类真实场景,不受空间限制,实现了低成本、跨场景、高度真实性的采集,从而具备了每年数百万小时数据的强大生产能力。
提问:Daimon - Infinity由多家机构联合发布,他们是如何参与其中的?
王煜:此次数据集的发布,我们联合了全球数十家机构共同合作建设,其中包括北京大学、清华大学、香港科技大学等中国知名高校,以及DeepMind、美国西北大学、新加坡国立大学等全球顶尖研究团队,另外还有中国移动、汇川技术、上声电子等产业方。他们选择与戴盟合作,是对我们将触觉加入具身数据这一创新路线的认可。
通过在科研、制造等实际场景下进行数据采集,这些合作方帮助我们收集到了高度真实、以实际场景为驱动的宝贵数据;反过来,他们也可以将这些数据用于自己的模型训练。此外,我们开源了10000小时的数据,希望含触觉的数据能够推动更多具身模型的进化升级。
提问:目前机器人领域的主流范式是VLA模型,但戴盟团队提出了VTLA框架。为什么选择加入触觉?
王煜:触觉信息对于机器人的操作能力至关重要,它能提供与物体接触时的详细物理反馈, 引导机器人手进行可靠、精准的操作。如果没有触觉,机器人可能无法在黑暗环境中准确判断物体的位置,可能因无法感知滑移状态而导致玻璃杯掉落,更有可能因为无法精确控制力度而导致操作任务失败,甚至造成不必要的损害。
VLA架构已经难以满足机器人操作日益复杂的需求,因此我们扩展了框架,纳入触觉数据,创建了VTLA。
值得一提的是,我们采用的视触觉感知技术,与VLA所基于的视觉框架高度契合。它能够捕捉指尖表面的形变,将触觉信息巧妙地转化为视觉图像,并从中推断出力和其他接触状态 —— 而图像数据天然适合集成到VLA中,这大大降低了框架扩展的技术门槛。
搭载视触觉传感器的夹爪,通过精准感知触觉,赋能精细操作
提问:您和团队开发了世界上首个单色光视触觉技术,为什么选择了这条技术路线?
王煜:从开始研究触觉感知时,我们就明确了自身的核心需求:我们想要的是能够高度模拟人类指尖皮肤触觉的先进传感器。
生理学研究已经充分证实了人类指尖所具备的强大能力 —— 能够准确知道我们触摸了什么、是什么材质、力如何分布,以及当大脑控制手时,它是否移动到了正确的位置。我们深知,在机器人手上复制这些能力将带来巨大的应用价值。
在调研现有技术时,我们发现了多种类型的触觉感知技术,包括三色光视触觉传感及其他更简单的设计。我们将这些技术的优势进行有机整合,形成了一个综合性的解决方案,使其在保持良好性能的同时又不会过于复杂,并将成本、可靠性和灵敏度控制在令人满意的范围内,最终成功研发了单色光视触觉技术。随着人们对触觉认知的不断深入,这些技术将携手共进,推动行业发展。
全模态触觉信息,包含力 / 力矩、形状、材质、接触信息四大维度
提问:你们的视触觉传感器正是基于这一技术,相比传统触觉传感器有什么核心优势?
王煜:我们在去年推出了全球首个多维高分辨率高频率视触觉传感器,在指尖大小的模块上装载了11万个感知单元,是目前业内最高的密度。
另一个显著优势是频率和带宽,即我们检测触觉变化、传输并实时处理信号的速度极快。其他方面则主要与工程技术相关,如可靠性、漂移、硅胶表面耐用性及对电磁、光学及其他环境因素的抗干扰能力。
触觉的重要性正被越来越多的人所认识,我们的视触觉传感器也得到了更广泛的应用,我相信这会让整个行业都迈上一个新的台阶。
我们的一位潜在客户正在便利店中部署人形机器人,在密密麻麻的货架上,机器人需要伸入非常狭小的空间才能取出物品 —— 人类至少需要三根纤细的手指才能完成抓取任务。诸如此类的场景,让我们看到了对于触觉的非常具体且迫切的需求。
戴盟视触觉传感器具有高感知单元密度
提问:戴盟目前的商业模式和战略重点是什么?数据集在其中扮演什么角色?
王煜:我们最初专注于制造高性能的触觉感知设备,尤其是搭载于机器人手的传感器。但随着具身智能的快速发展,大家逐渐意识到,行业需要的不仅仅是一个单一的组件,而是整个完整的技术链:设备、大规模高质量的数据,以及最终能够在实际应用环境中构建、训练和部署机器人模型的全面框架。
现在,我们将自己的商业战略定位为“3D”:设备(Devices)、数据(Data)和部署(Deployment)。我们研发用于数据采集和构建触觉生态的设备,并通过在合作伙伴的应用场景里进行部署,完成含触觉数据的落地与闭环验证。在这个模式里,任何一环都不可或缺,共同推动行业发展。
提问:您之前提出了“具身技能”的概念,认为这是人形机器人超越“仅拥有先进人工智能大脑”的关键。您为什么会提出这一观点?过去两年行业快速发展,您对具身技能的定义是否有所改变?
王煜:机器人的发展历程漫长而精彩,如今已到了电气、电子和机电一体化硬件技术深度融合的阶段,这是过去20年里取得的巨大进步。由于硬件的快速发展,机器人现在完全是电动的,不再依赖液压系统。现代电子技术提供了高带宽和高扭矩,如果我们能将智能巧妙地融入这些机械系统,就能创造出真正意义上的人形机器人 —— 能够在非结构化环境中灵活运行、智能决策并自主稳定地执行各种操作的机器人。
人工智能的出现恰逢其时,大量资源投入其中,特别是大语言模型。它们如今被推广到世界模型中,赋能物理智能(physical AI)—— 我们希望这些能力最终能在现实世界中落地生根。如今研究重点更加明确,例如在家庭环境中,人们更倾向于使用人形机器人。这是一个令人兴奋的领域,如果我们最终能够制造出安全、可靠且经济高效的机器人,它将为社会带来巨大的益处。
搭载了戴盟触觉感知技术的机器人在工厂线上部署
提问:机器人如今能进行令人印象深刻的演示,但距离真正进入实际应用仍存在差距。什么因素可能触发实际部署?哪些场景最有可能率先实现大规模部署?
王煜:我认为通用机器人的大规模部署之路仍然漫长,但我们已经看到特定领域的可行性。
这与自动驾驶汽车的发展非常相似,无人驾驶出租车尚未全面普及,但移动机器人在酒店业已经得到广泛应用。在中国,几乎所有大型酒店都配备了送餐机器人 —— 没有机械臂,只是一台从酒店大堂取外卖的小型机器人。外卖员只需放置食物并选择房间号,机器人便会自行导航、自行使用电梯,最终将食物准确送达客房。
酒店及餐厅的机器人应用,为其他场景的应用提供了宝贵的范本,例如夜间药店和便利店。我预计在短期内,这些场所将全面部署人形机器人,并在之后逐步扩展到其他领域。我们可以期待,在未来,包括人形机器人在内的自主机器人将逐步渗透到特定行业,为行业创造显著价值。
我们的愿景始终是让机器人实现强大的操控能力,并发展成为人类可靠的合作伙伴。未来,机器人或许会无缝融入我们的日常生活,真正造福并服务于人类。