具身智能“数据之困”:质量为先,多样性与流通性待突破

2026-06-17 04:10:59未知 作者:徽声在线

6月16日,一场以“Build with Galaxxea”为主题的星海图全球开发者大会(Galaxxea WDC 2026)在北京亦庄盛大举行,在这场备受瞩目的行业盛会上,“数据”无疑成为了核心关键词之一。

聚焦具身智能数据这一关键议题,众多行业资深人士纷纷登台,分享了大量来自一线实践的数据和深刻见解。据透露,当前国内可用于具身智能训练的数据量级大约在百万小时左右,然而,与大语言模型动辄数千万小时的视频数据以及几十万亿Token(词元)的文本数据相比,差距十分显著。

星海图CEO(首席执行官)高继扬在接受包括徽声在线记者在内的媒体采访时指出,大语言模型主要依赖互联网公开数据,而具身智能的数据来源则截然不同,几乎全部来自现实世界的实地采集,这使得其数据具有强烈的私有化特征。

这意味着,行业面临的挑战远不止数据量不足这一简单问题,还涵盖了数据质量参差不齐、采集成本高昂、流通效率低下以及安全合规等一系列复杂难题。

“百万小时”之后,高质量数据仍是行业稀缺资源

在采访过程中,高继扬首先针对业界关于VLA(视觉-语言-动作模型)与世界模型路线之争的问题发表了看法。他认为,这两者并非相互对立,而是同源共生、相辅相成。无论训练哪种模型,本质上都需要将多模态数据转化为Token,再进行编码和学习等操作。

他进一步将具身智能的数据需求细致拆解为四个维度,即动作、对象、场景和本体。所谓“采数据”,就是要尽可能全面地采集这四个维度下不同类型的数据。其中,Human - Centric Data(以人为中心的数据)和Robot - Centric Data(以机器人为中心的数据)各自发挥着独特作用。前者能够以相对较低的成本快速覆盖大量场景和不同人体形态,后者则更贴近最终部署机器人的真实运动特性,为模型训练提供更精准的数据支持。

对于数据类型的选择,高继扬表示,目前预训练基本全部采用真实数据,几乎不使用仿真数据。在公司数据规模达到100万小时之前,暂时看不到大规模采用仿真数据的必要性,因为真实数据在覆盖上述四个维度方面具有不可替代的优势。

海天瑞声CEO李科在6月16日上午的圆桌对话中也发表了观点。他指出,在当前具身智能领域,虽然已经涌现出大量训练场和数据采集中心,但真正可用于训练的数据规模仍然有限。据他估算,目前国内可用于具身模型训练的数据大约在百万小时量级,而学术界公开的数据集大多只有数百小时,少数能达到万小时规模。

李科认为,目前智能尚未实现涌现,问题不仅在于数据总量不足,还在于数据的多样性和流通性不够。不同训练场基于不同机器人本体采集数据,导致数据之间缺乏有效流通,形成了明显的数据孤岛现象,严重制约了行业的发展。

对此,鲸跃动力CEO李广宇进一步强调了高质量数据的重要性。他表示:“我们期望,今年如果整个行业能够积累千万小时的数据,其中真正有价值的能达到100万小时,从而实现从量变到质变的飞跃。”

在具身智能领域,数据采集一直被视为一项成本高昂的工程。

高继扬以星海图的实践为例,给出了较为具体的数据采集成本测算。Human - Centric Data的采集成本大约在每小时50元至100元之间,Robot - Centric Data的采集成本则更高,约每小时250元。综合来看,行业平均数据成本大约在每小时100元至150元之间。按照这一标准计算,采集100万小时数据的成本将在1亿元至2亿元之间。

高继扬强调,与大模型训练动辄数亿美元的算力投入相比,这笔数据采集费用“必须得花,而且非常划算”。他提出,衡量数据投入不能仅仅关注数据单项成本,而应该综合考虑智能总成本。智能总成本主要包括三部分:数据成本、算力成本以及研发团队工程师成本。以星海图的实践为例,至少是1∶10的比例,即1块钱的数据至少需要花10块钱去做训练才能充分发挥其价值。

在高继扬看来,真正昂贵的并非数据本身,而是低质量数据带来的训练浪费。如果输入的是无效数据,那么训练出的模型也不会有太大价值。因此,在扩大数据规模之前,一定要先解决数据质量问题。而真实数据无疑是最高质量的数据来源。

除了成本问题,数据壁垒也成为行业关注的焦点。高继扬直言,未来具身智能模型的竞争在很大程度上将取决于数据质量。他认为,数据差异会逐层传导,从最初的数据质量差异,影响到模型能力差异,进而导致应用效果差异,最终体现为商业价值差异。

在商业模式方面,高继扬将具身智能的发展分为两个阶段。当前阶段仍以整机销售为主,真正面向生产力的方案订阅模式阶段尚未成熟。他认为,现阶段行业尚未有企业真正实现大规模生产力场景落地,因此更大的市场空间仍在未来等待挖掘。

从数据到智能,行业积极探索下一次跃迁之路

目前,具身智能正处于从数据冷启动向智能涌现过渡的关键阶段,这一阶段的发展充满了挑战与机遇。

清科灵境创始人杨子江将具身数据比作人工智能时代的石油,这一比喻形象地说明了数据的重要性。在他看来,真正的挑战不仅在于如何采集大量的数据,更在于如何完成数据的提取、加工、提纯和流通等关键环节。具身智能需要获取三维的多模态数据,并且要高效地将其提取并加工成有用的数据,这是一个需要不断积累经验和技术的过程。

对于未来的数据来源,业内也出现了一些新的探索方向。

李广宇认为,消费电子设备有可能成为重要的数据入口。例如,手机、智能眼镜等终端设备具备摄像头和端侧算力,可以在用户的日常生活中持续采集具身数据。与此同时,随着机器人逐步进入真实的生产和生活场景,其运行过程本身也将不断产生新的训练数据。“大家普遍认为今年是具身应用元年,预期未来会有更多的机器人能够实际应用到真实的生产生活当中,这些机器人产生的数据将具有极高的价值。”

高继扬在受访时表示,行业真正的Scaling(规模化扩展)尚未开始。在他看来,具身智能的数据增长不会遵循线性规律,而应是指数级扩张,这意味着未来的数据量将呈现爆发式增长。

此外,高继扬认为,目前具身基础模型的成长速度已经快于婴幼儿学习技能的成长速度。因此,他并不认为行业进展缓慢。但高继扬同时强调,数据量的上升并不直接带来模型执行速度的提升,执行速度更多取决于后训练而非预训练。

他介绍说,预训练主要解决的是泛化性问题,即模型面对新场景、新任务时能否在不增加新数据的前提下完成;而后训练则是针对特定场景的补充训练,类似于劳动者上岗前的专项培训,只有经过后训练,模型的执行速度才会真正得到提升。

如果将当前具身智能水平类比为婴儿,那么发展到相当于七八岁孩子的智能水平,大致需要多长时间、多大规模的数据呢?

面对这一问题,李科判断需要3至5年时间,对应的有效数据量级在千万小时左右。在他看来,关键在于有效数据并非简单的数据总量,而是具有高质量和针对性的数据。同时,与本体直接相关的特定数据,如机器人手腕自由度带来的差异化操作数据等,可能比泛化数据更具价值,能够为模型训练提供更精准的指导。

星海图CFO(首席财务官)罗天奇则表示,星海图内部判断的中性预测周期为3年左右。如果算法层面出现重大突破,这一进程有可能进一步提速。他同时提到,在数据成本中,算力仍然是最大的开销,数据本身相对而言是“小头”,但数据质量比规模更为关键。因此,数据基础设施能力以及标注环节的降本增效,将是行业接下来需要持续投入的重点方向,只有不断提升数据质量和处理效率,才能推动具身智能行业实现更快更好的发展。

点击展开全文
你关注的
从“几年一遇”到“一年几遇”,AI时代网络攻防失衡加剧 奇安信齐向东:主战场转向制造业与服务业从“几年一遇”到“一年几遇”,AI时代网络攻防失衡加剧 奇安信齐向东:主战场转向制造业与服务业 微信电脑端重大更新:可滚动截长图与支持发语音功能上线微信电脑端重大更新:可滚动截长图与支持发语音功能上线 上海布局太空算力新赛道,全球首颗光计算卫星研制正式启动上海布局太空算力新赛道,全球首颗光计算卫星研制正式启动
相关文章
苹果2027新品蓝图曝光:摄像头耳机、二代折叠屏、20周年纪念iPhone齐发苹果2027新品蓝图曝光:摄像头耳机、二代折叠屏、20周年纪念iPhone齐发 谷歌发布Android 17系统 多项AI创新功能即将陆续登场谷歌发布Android 17系统 多项AI创新功能即将陆续登场 AR眼镜市场激战正酣:Snap新品定价引争议 谷歌Meta苹果三强争霸AR眼镜市场激战正酣:Snap新品定价引争议 谷歌Meta苹果三强争霸 支付宝AI版来袭,记者亲测:与经典版有何差异?支付宝AI版来袭,记者亲测:与经典版有何差异? SpaceX华裔女工程师Tina辟谣,否认手握星舰发射终止权SpaceX华裔女工程师Tina辟谣,否认手握星舰发射终止权 蚂蚁的AI战略新篇章:从阿福到阿宝,支付宝引领AI时代超级入口变革蚂蚁的AI战略新篇章:从阿福到阿宝,支付宝引领AI时代超级入口变革