“逐帧时代”落幕?自变量机器人首推“事件级预测”世界模型,具身智能商用竞争白热化

2026-05-31 12:07:29未知 作者:徽声在线

全球具身智能产业正站在技术革新与商业落地的关键交汇点,面临前所未有的发展机遇与挑战。

5月29日,自变量机器人公司震撼发布全球首款具备“事件级预测能力”的世界模型——WALL-WM,这一里程碑式的突破标志着具身智能领域正式告别沿用多年的“按时间均匀采样”传统模式,转而以现实世界中的“事件”作为模型推理的基本单元,开启了智能机器人发展的新纪元。

徽声在线记者从官方渠道获悉,WALL-WM模型摒弃了机械地预测每一帧画面的做法,转而通过智能算法自主识别并聚焦关键瞬间,以抓取、归置等具有明确语义的事件作为预测的核心单元。这一创新不仅大幅减少了无效推演,还使机器人能够像人类一样具备“抓重点”的思维能力,显著提升了决策效率与准确性。

值得一提的是,自变量机器人在今年4月底成功完成了近20亿元人民币的B轮融资,该轮融资由小米战略投资部与红杉中国联合领投。这一成就使得自变量成为国内唯一一家同时获得字节跳动、美团、阿里巴巴、小米四大互联网巨头青睐的具身智能企业,展现了其强大的技术实力与市场潜力。

天使投资人、资深人工智能专家郭涛在接受徽声在线记者专访时表示,WALL-WM模型的核心价值在于其围绕语义事件重构了具身智能的推理逻辑。通过利用事件的通用语义抽象属性,该模型显著提升了跨物体、跨场景的泛化能力,为机器人从实验室走向规模化商用奠定了坚实基础。

技术路线大变革:从“轨迹模仿”到“事件理解”

回顾过去三年,VLA(视觉—语言—动作)架构一直是全球具身智能领域的绝对主流。然而,随着机器人真机部署规模的扩大,VLA架构的结构性缺陷逐渐显现。

自变量团队深入分析指出,文本、视觉、动作在本质上属于不同的数据流形:文本是低熵离散语义,视觉是高维连续观测流,而动作则受到物理世界的严格约束。这三者既不共享空间邻域,也不共享时间尺度,直接联合优化会导致视频基础模型的先验能力严重受损。这也是为何多数VLA模型在实验室演示中表现亮眼,但在实际真机应用中却大打折扣的原因。此外,传统VLA模型只能模仿训练数据中的轨迹,缺乏对物理规律的真实理解,无法解释杯子为何会掉落、盘子悬在桌边会摔碎等现象。

据官方介绍,WALL-WM模型的突破性在于,它彻底摒弃了“固定时间长度动作块”的人为定义,转而提出“以动作为中心的语义事件”作为最小学习单元。伸手、抓取、提起等连贯行为片段,既能被语言精确描述,也能被视频覆盖和动作执行,成为连接文本、视觉、动作三种模态的天然枢纽。这一变革使模型从“指令→动作”的反应式映射,升级为“理解事件→预测物理演化→执行动作”的主动式推理,显著提升了机器人的智能水平。

此外,WALL-WM模型还支持在同一套权重下实现事件模式与统一模式的自由切换,无需重新训练即可适配“配合高层规划器”和“端到端独立闭环”两种场景。实验数据显示,该模型在具身视频生成、3D感知及真机Core15 L1基准测试中均领先同类产品,尤其在抽象指令场景下表现尤为突出。

郭涛进一步分析指出,WALL-WM模型最核心的特质在于其围绕语义事件重构了整套具身智能推理逻辑。它跳出了行业主流的固定时间帧预测范式,以抓取、归置、抬放等关键语义事件作为基础预测单元,省去了大量无关中间帧的推演,使机器人能够复刻人类抓核心目标的思考模式,从而更加高效、准确地完成任务。

行业竞争新态势:头部企业加速规模化商用布局

当前,全球具身智能产业正处于从技术验证向规模化商用跨越的关键时期。

TrendForce集邦咨询最新数据显示,2026年下半年全球人形机器人产业将迎来商业化关键期,全年中国人形机器人产量预计同比增长高达94%。在资本层面,2026年以来国内具身智能领域投资总额已超2025年全年水平,单笔10亿元以上融资达10起,资金从整机向全产业链全面渗透,上游零部件、中游具身大脑、下游RaaS(机器人即服务)平台均获得大额注资,为产业发展提供了强劲动力。

头部企业也纷纷加速上市和商业化落地进程。宇树科技计划于6月1日冲刺科创板“人形机器人第一股”,预计2025年实现营收17亿元、净利润6亿元;智元则启动赴港IPO,并通过拆分战略在半年内诞生两家独角兽企业。在国际市场上,特斯拉Optimus Gen-3已在上海超级工厂部署量产;Figure AI则通过不间断直播展示其机器人在200个小时内累计分拣包裹突破24.9万件,接近人类熟练工的水平,展现了强大的商业应用潜力。

在激烈的市场竞争中,自变量机器人凭借独特的技术路线和强大的资本优势成功跻身第一梯队。其“一轮一个巨头”的融资路径备受关注:A轮由美团领投、A+轮由阿里领投、A++轮由字节领投、B轮则由小米与红杉联合领投,累计融资额超30亿元。同时,自变量还积极联合58同城探索机器人上门做家务的落地场景,进一步拓展其商业应用边界。

“为什么能够吸引这些大厂投资?我很难给出一个行业通用性的回答。”自变量机器人创始人兼CEO王潜在接受徽声在线记者采访时坦言,“所有这些投资人投我们的逻辑其实非常简单,就是投技术上的领先性。这几家大厂也在做大模型,应该是全世界做大模型最好的几家公司之一,他们自己的技术判断力很强,他们需要投某种意义上的技术第一性、技术驱动的事情。”

展望未来,郭涛表示,具身智能行业已经呈现出四大明确趋势:一是真实场景泛化能力成为核心竞争锚点,实验室演示型产品将逐步被淘汰;二是高质量多维度数据集与精细化处理体系构筑长期壁垒,直接决定模型迭代上限;三是AI(人工智能)大模型、机器人控制、多目传感、三维几何等多学科深度融合成为必然;四是商业化进程加速推进,应用场景从家用向工业、医疗等领域全面延伸,大厂自研团队与垂直技术企业的竞合将更加常态化。

王潜此前也表示,当前具身机器人的硬件已基本成熟,核心瓶颈在于数据和技术。“我们希望在2至3年里实现物理世界的Aha Moment(顿悟时刻),就像当年ChatGPT带来的变革一样。”在他看来,机器人进入家庭的速度将超出市场预期,具身智能的爆发点已近在眼前,一场由智能机器人引领的科技革命正在悄然酝酿。

点击展开全文
你关注的
微信电脑端重大更新:可滚动截长图与支持发语音功能上线微信电脑端重大更新:可滚动截长图与支持发语音功能上线 上海布局太空算力新赛道,全球首颗光计算卫星研制正式启动上海布局太空算力新赛道,全球首颗光计算卫星研制正式启动 全球最大比特币资管公司战略转向:或启动大规模抛售计划全球最大比特币资管公司战略转向:或启动大规模抛售计划
相关文章
宁德时代吴凯宣布:钠离子电池产品即将规模化量产宁德时代吴凯宣布:钠离子电池产品即将规模化量产 “国王工人”奖金飙升至数百万,普通白领薪资缩水,韩国“同代人命运分叉”,经济命脉受制于美国“国王工人”奖金飙升至数百万,普通白领薪资缩水,韩国“同代人命运分叉”,经济命脉受制于美国 vivo S60系列:捕捉年轻一代的“独特星光”vivo S60系列:捕捉年轻一代的“独特星光” 无忧传媒雷彬艺:AI时代内容需具“活人感”,技术炫技非长久之计无忧传媒雷彬艺:AI时代内容需具“活人感”,技术炫技非长久之计 ID.ERA 9X月交付超7000辆,合资新能源大车市场再掀波澜ID.ERA 9X月交付超7000辆,合资新能源大车市场再掀波澜 营收230亿、现金储备近千亿,理想成功穿越产品换代艰难期营收230亿、现金储备近千亿,理想成功穿越产品换代艰难期