对话自变量CTO王昊:探索具身智能端到端大模型,挑战家庭场景圣杯|连线创始人

2026-04-10 21:07:47未知 作者:徽声在线

导语:在当下中国新经济浪潮中,有这样一群创业者——他们有的已带领企业跻身独角兽行列,有的仍在种子轮阶段默默耕耘;有的企业已声名远扬,有的则长期隐于幕后。他们虽处于不同发展阶段,但都是产业与技术升级的微观推动者,他们的行动汇聚成变革的洪流,深刻影响着中国新经济的走向。

由徽声在线与《科创板日报》携手打造的“连线创始人/CEO”栏目,聚焦创新创业型企业。以企业创始人/CEO的深度访谈为关键信源,让成长中的创业公司走进公众与市场的视野,同时挖掘最新技术与产业趋势,为行业发展提供有价值的参考。

《科创板日报》4月10日讯(记者 李明明)2026年伊始,国内具身智能赛道呈现出蓬勃发展的态势,独角兽企业如雨后春笋般涌现。自变量机器人、众擎机器人、星动纪元、千寻智能等企业估值纷纷突破百亿大关,再加上宇树科技、智元机器人等早已跻身百亿阵营的企业,行业百亿估值公司数量至少已达10家,正式步入头部独角兽集群发展的全新阶段。

在这波汹涌的资本浪潮中,自变量机器人的发展势头尤为迅猛,堪称典型。据《科创板日报》记者此前独家获悉,今年1月,自变量机器人官宣获得由字节跳动、红杉中国等知名机构参与的十亿元级别融资。仅仅一个月后的2月,该公司又迅速完成了数亿元的新一轮融资,如此密集且高额的融资,充分彰显了市场对其的高度认可与期待。

近期,《科创板日报》记者有幸采访了自变量联合创始人、CTO王昊。在采访中,王昊围绕自变量的技术路线迭代、开源进展、场景落地战略,以及对具身智能行业的核心判断等方面,进行了全面且深入的分享,为我们揭开了自变量机器人在具身智能领域探索的神秘面纱。

王昊向《科创板日报》记者描绘了一幅清晰且宏伟的技术蓝图:端到端大模型是整个技术体系的基石,世界模型与VLA(Vision - Language - Action)的融合是突破行业瓶颈的关键所在,人机协作的数据闭环则为技术的持续进步提供源源不断的动力,而家庭场景则是检验和提升技术能力的终极试炼场。这条技术路径与传统的“分段式”“垂类小模型”截然不同,它需要企业进行长期投入,并且要承受诸多不确定性,堪称在具身智能领域的“无人区”进行探索。

当前,具身智能行业正深陷“虚假繁荣”的困境。技术验证长期局限于仿真“温室”环境中,在完美参数设定下,模型表现看似优异,然而一旦面对真实物理世界中的重力、摩擦、光线变化等复杂因素,就暴露出诸多问题。模型泛化能力弱,难以适应不同场景;长期稳定性差,无法持续稳定运行;成本居高不下,限制了产业化的大规模落地。这些问题导致具身智能技术在产业化进程中举步维艰,难以实现从技术到市场的有效转化。

为了解决这一行业痛点,自变量与深圳市人工智能行业协会等联合举办了全球首届具身智能开发者大会(EAIDC 2026)。此次大会具有重大意义,它彻底打破了Demo滤镜的束缚,将竞赛全面推向“真实荒野”。通过全球最大规模的真机实战,让上百条机械臂在真实场地同步作业,直面物理世界的所有变量,拒绝“纸上谈兵”。这不仅为技术的成熟度提供了在真实物理环境中检验的宝贵平台,更通过标准落地和产业链闭环,有力推动了产业化拐点的真正到来,为具身智能行业的发展注入了新的活力。


开发者大会启示:具身智能需培育“动手”文化

作为全球首届具身智能开发者大会的核心环节,“具亮计划”决赛采用了极具挑战性的赛制。参赛团队需在三天内,现场完成数据采集、模型训练和测试等一系列复杂任务。王昊对《科创板日报》记者表示,这种赛制设计是刻意模拟具身智能的真实开发环境,旨在让参赛者充分体验实际开发过程中的各种挑战与困难。

“我们为参赛团队提供所有硬件,但没有力觉传感器。”王昊举例说明道,“在限速柔性操作、需要处理力信息的场景中,有的队伍尝试密集捕获机械臂关节的电流信号。虽然这种方法获取的力信息不够准确,但将关节电流信号加入模型后,可以部分弥补力感受的缺失,这是一种非常有创意且实用的想法。”

更让王昊印象深刻的是团队之间的分化现象。“第一天下午开源后,到晚上有的选手还在紧张地调试环境,而有的团队已经取得了不错的成绩。后来我们发现,那些频繁进行评测、仔细观察数据和硬件的团队,比那些只注重理论、缺乏实践操作的团队成长得快得多。”

从这一现象中,王昊提炼出一个关键认知:具身智能是一种交互学习模式,只有让机器在测试过程中不断接受人的观察和反馈,才能更有可能找到解决物理世界复杂性问题的方法。“这和一般的编程比赛有很大差别,一般编程比赛没有硬件参与,也不涉及数据采集和处理。而在具身智能黑客松中,那些热爱动手、积极进行评测的团队更容易脱颖而出,取得优异成绩。”

谈及举办此次比赛的初衷,王昊表示核心目标是降低开源项目的使用门槛,建立通用和标准的接口。“通过将所有参赛团队放在同一套硬件、相同赛制下,大家会积极思考如何尽可能快地将代码用起来,并且用好。同时,我们也希望通过比赛寻找志同道合的伙伴,挖掘优秀选手,支持和鼓励更多人一起加入具身智能的发展大潮。”

从WALL - OSS到世界模型与VLA的融合框架:技术突破的关键路径

开发者大会充分展示了开源社区的蓬勃活力,而技术的最终落地关键还在于模型产品的真实迭代。距离WALL - OSS开源已经过去整整半年,王昊在接受《科创板日报》记者专访时,揭晓了这段时间自变量机器人在技术上的关键突破——世界模型与VLA(Vision - Language - Action)的联合建模。

“目前业界的世界模型大多采用分段式做法,先训练一个视频生成模型,再用动作生成模型,通过两段式拼接完成从视觉到动作的映射。”王昊解释道,“但在我们的联合框架中,动作和视觉是联合建模的。这样做的好处在于,动作预测能够更好地尊重未来的预测结果,而未来预测又可以更好地遵循物理规律。通过联合建模,我们希望突破世界模型很难遵循物理规律的限制,提升模型在真实物理世界中的适应性和准确性。”

这一技术路线的差异化主要体现在对“物理规律”的强调上。当前,虽然视频生成模型能够预测像素级的变化,但在具身智能场景下,模型需要深入理解物理世界的因果关系,例如物体如何受力、操作如何改变环境状态等。王昊指出,短期来看,自变量将引入更多多模态输出架构,以减少误差累积,提高模型的稳定性和准确性;中长期目标则是在基模上实现“绝对意义上通用场景的泛化”,使模型能够适应各种复杂场景的需求。

当被问及“多模态”的具体含义时,王昊明确回应:“以前模型的输出模态有限,现在在端到端模型上,我们更多考虑动作、语言、视觉的融合。这意味着自变量的新一代架构将不再局限于传统的‘视觉编码器 + 大语言模型 + 动作输出’的流水线模式,而是探索更原生的多模态对齐方式,以实现更高效、更准确的信息处理和交互。”

“我们越来越倾向于做原生的多模态,在模型构建的早期阶段就让语言和动作实现对齐。”王昊表示,“以前的方式往往会牺牲视觉能力,因为语言描述的信息比较宏观,而具身操作需要厘米级甚至毫米级的空间精度,时间尺度在秒级别。如果能够让动作、语言、视觉在同一个水平下进行思维链推理,模型就能同时在宏观和微观层面都有清晰的表现,从而更好地应对各种复杂任务。”

数据战略:真机、Ego - Centric与穿戴式的金字塔配比:构建数据优势的关键举措

尽管WALL - OSS在数据驱动下取得了显著进步,但王昊也坦言,数据采集依然是横亘在具身智能行业面前的一大壁垒。面对近期大热的Ego - Centric(第一人称视角)和Human - Centric(以人为中心)数采路线,王昊明确表示,自变量的核心路线不会改变,但数据策略将发生重大调整。

自变量一直坚持在真实世界中进行数据采集,过往的数据主要来自机器人真机,这一策略不会停止。王昊强调:“所有交互式学习和强化学习,最重要的数据都来自于真机。因为真机数据能够真实反映机器人在实际环境中的运行情况和交互过程,对于提升模型的性能至关重要。”然而,他也指出,2026年自变量的数据策略将有很大变化,将越来越依赖人的穿戴式或Ego - Centric方式采集数据,这是行业发展的必然趋势。

王昊还特别区分了Human - Centric与Ego - Centric的概念差异:“Human - Centric意味着机器人的通用数据形态,它一定有末端执行器,可以是灵巧手的某种设备,自由度和机器人的自由度之间需要取折中。而Ego - Centric的数据完全和人的自由度一致,手持式、穿戴设备则介于两者之间。不同的数据采集方式各有优缺点,需要根据具体应用场景和需求进行选择。”

这一数据战略的底层逻辑是人机协作的闭环进化。王昊解释道:“尽早采用人机协作的方式让闭环运行起来,先用高质量数据、大规模训练构建基础模型,然后将其放到真实环境中。当模型在真实环境中出现做不好的地方时,人就及时接管,帮助它从错误中恢复。这样的数据会成为非常宝贵的来源,能够帮助模型不断提升性能。评测、训练和数据采集要在同一个过程中完成,而不是相互分离,这样才能实现数据的高效利用和模型性能的持续优化。”

自变量从成立第一天起就坚定地选择了“大小脑统一的端到端大模型”路线。王昊对《科创板日报》记者坦诚分析了这一路线面临的核心挑战。

“端到端相比于分层或小模型,训练过程更为复杂,对数据量和模型参数量的要求也更高。如果没有足够的数据量和模型参数量,端到端的效果不一定比分层模型好。”他指出,“端到端意味着必须形成规模效应,只有数据量和模型参数量达到一定规模,训练才能取得理想效果。否则,训练过程可能会非常困难,甚至无法达到预期目标。”

第二个挑战在于基础设施(Infra)方面。王昊补充道:“对端到端大模型的Infra要求和以往小模型有很大不同。如果在Infra上没有取得突破,训练效率会非常低,这将严重影响模型的开发进度和性能提升。因此,构建适合端到端大模型训练的基础设施是至关重要的。”

第三个挑战则更为根本,即评测的复杂性。王昊解释说:“语言大模型可以通过观察loss曲线来评估训练效果,但具身智能并非如此。Loss不能准确反映模型在真实世界中的表现,因为真实世界是一个闭环系统,环境会不断变化,模型需要根据环境变化做出相应的应对。这就要求我们建立更加科学、全面的评测体系,以准确评估模型在真实物理世界中的性能。”

面对“数据壁垒”这一经典难题,即模型不够好就难以完成复杂任务,采集不到高质量数据又无法训练好模型,王昊提出的解决方案是尽早建立人机协作的闭环,让评测、训练和数据采集在同一个过程中同步完成。通过这种方式,可以不断优化模型性能,同时积累高质量数据,形成良性循环,逐步突破数据壁垒的限制。

家庭场景:直面“具身智能的圣杯”:挑战与机遇并存的发展方向

上个月,自变量机器人携手58集团旗下58到家平台,在深圳正式推出了一项全新的智能保洁家庭服务——机器人保洁员正式“上岗”,与保洁阿姨协同作业完成家庭清洁服务。自变量与58同城合作进军家庭服务场景,这一选择在外界看来颇为激进,因为家庭场景比工业场景标准化程度更低,难度更大。然而,王昊却认为这是具身智能发展的必由之路。

“家庭确实是具身智能的圣杯,因为它代表了最广泛、最开放的环境,以及最广泛的任务需求。解决了家庭任务,就意味着模型可以实现完全的泛化,基本上达到保姆级别的通用机器人水平。”王昊强调,“这个最终目标不是先从简单场景做起,逐步达到复杂场景,而是一开始就要直面最复杂、最开放的场景。只有这样,才能让模型的智能水平得到快速提升,具备解决丰富场景任务的能力。而且越早开始挑战家庭场景,越能在未来的竞争中占据优势。”

进入家庭场景需要攻克两大难题。首先是零样本泛化能力。王昊解释说:“进入家庭场景后,一开始可能没有太多机会对模型进行训练,这就需要激发模型的推理能力,让它在家庭场景中通过自主推理和探索取得成功。之后,再结合人机协作的方式,让模型不断学习和优化,使训练效果越来越好。”其次是长程任务的精细度问题。王昊指出:“现在基模进入家庭后,在很多任务上有完成的趋势或动作意图,比如对任何物体都有伸过去抓的趋势,但在精细度方面还不够,导致在完成复杂长程任务时,错误会不断累积,最终导致任务失败。”

针对这两大难题,王昊提出了两点解决思路:一是激发模型的推理能力,通过让语言、视觉、动作在同一水平下进行思维链推理,使模型能够自主规划和反思,从而提高解决问题的能力和效率;二是在大规模真机基础上探索强化学习,通过不断优化训练方法,保持在基模标准下更高的空间精度,提升模型在复杂任务中的表现。

对于商业化时间表,王昊对《科创板日报》记者给出了相对务实的判断:“普通清洁、收纳这类任务,预计1 - 2年时间可以实现完全自主。但在所有家庭任务中实现闭环,时间可能要更长一些。”他还区分了“大规模进入家庭”和“机器人被大规模应用”两个概念,强调前者是一个逐步迭代的过程,需要不断地优化模型性能、提升用户体验,才能最终实现机器人在家庭场景中的大规模应用。

专访最后,面对“具身智能是否会重走大模型卷算力、高资本投入老路”的提问,王昊给出了冷静而客观的判断。

“做基础模型的投入一直都很高。我们从公司成立第一天起,在数据、算力、基础设施等方面的投入都非常大。”他承认,“但一旦建立规模化效应,当你投入10倍资源并取得领先时,资源聚集效应会越来越明显。你会以数量级的优势在速度上超越竞争对手,后来者要追上需要花费数倍的资源增加。因此,越早开始投入越有优势,越晚开始则越难取得成功。”

这是否意味着需要千亿级投入呢?王昊回应道:“大家可以参考自动驾驶领域的投入情况,每年几百亿。如果完全依靠纯资本投入,难度确实很大,这是一个逐步发展的过程。很难在一年内把模型做到完全通用,需要协作发展、阶段式发展。通过不停提升基模能力,不断进行迭代,并根据反馈结果做更强的基模。随着模型越来越强,与商业竞争形成互补,研发投入才会越来越大,最后形成完全闭环,推动具身智能行业持续健康发展。”

点击展开全文
你关注的
【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力 深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领 AI产业链价格全景解析:哪些核心环节正在经历涨价潮?AI产业链价格全景解析:哪些核心环节正在经历涨价潮?
相关文章
对话自变量CTO王昊:探索具身智能端到端大模型,挑战家庭场景圣杯|连线创始人对话自变量CTO王昊:探索具身智能端到端大模型,挑战家庭场景圣杯|连线创始人 3月汽车产销环比激增74%!新能源出口暴涨1.3倍成最大亮点3月汽车产销环比激增74%!新能源出口暴涨1.3倍成最大亮点 “9系”大战升级!蔚来ES9入局,自主品牌集体冲击高端市场“9系”大战升级!蔚来ES9入局,自主品牌集体冲击高端市场 首款量产车北京车展全球首发!现代汽车电动品牌IONIQ正式入华,李凤刚:在中国继续加大投入首款量产车北京车展全球首发!现代汽车电动品牌IONIQ正式入华,李凤刚:在中国继续加大投入 现代汽车电动品牌IONIQ正式入华,首款量产车北京车展首发,李凤刚:持续深化在华布局现代汽车电动品牌IONIQ正式入华,首款量产车北京车展首发,李凤刚:持续深化在华布局 单车减重20公斤成本降25%!中国车企引领镁合金革命:问界/零跑/长安加速布局,全球产能格局生变单车减重20公斤成本降25%!中国车企引领镁合金革命:问界/零跑/长安加速布局,全球产能格局生变