人形机器人竞速场内,具身智能求解“数据之困”

2026-04-19 11:08:14未知 作者:徽声在线

徽声在线4月19日讯(记者 付静)今日清晨7点30分,2026北京亦庄半程马拉松暨人形机器人半程马拉松正式拉开帷幕。与去年相比,本次赛事的参赛规模实现了近5倍的增长,去年的冠军天工Ultra、亚军松延动力“小顽童”N2,以及宇树H1、荣耀“闪电”和“元气仔”等热门选手同台竞技,成为本次赛事的一大亮点。正如蓄势待发的机器人选手,具身智能产业正从百亿级规模加速迈向千亿级,这场赛事不仅是一场速度的较量,更是产业成熟度的一次重要检验。

徽声在线记者通过多方采访业内人士了解到,2026年被视为具身智能的“数据元年”,数据已成为具身智能发展亟待突破的关键瓶颈。多位受访者明确指出,数据将是具身智能厂商在未来竞争中的核心壁垒。

目前,具身智能领域的数据缺口巨大,尤其是真实世界的数据极为稀缺。建设数据采集中心和仿真平台已成为行业的主流做法,不仅机器人公司积极参与,云厂商、数据服务商和数据交易所等也纷纷加入,共同应对数据挑战。然而,由于大部分数据采集中心投入使用和产出情况尚不明朗,仿真数据的效果也存在一定局限,现有路径能否真正解决具身智能的数据难题,仍有待进一步观察。

“数据元年”的到来

“此前,具身智能的发展长期受限于算法、硬件与数据的不匹配,而今年行业正从‘算法驱动’转向‘数据驱动’,数据已成为模型落地和机器人量产的核心瓶颈。”上海库帕思科技有限公司语料运营总监邓思文在接受徽声在线记者采访时表示,他高度认可“数据元年”这一判断。

“在今年之前,大家更关注的是机器人的本体能力,但要让机器人真正落地,就需要大量的经验数据供其学习。因此,今年被称为‘数据元年’,无论是美国还是中国,许多计划落地的公司对数据的需求都达到了前所未有的高度。”帕西尼感知科技创始人许晋诚对徽声在线记者表示。

有鹿机器人联合创始人谷祖林也向徽声在线记者谈到,“数据元年只是意味着现有方法可以开启一个‘新纪元’,但最终解决问题的方案仍需多年探索和收敛。”

2026年,面对数据难题的具身智能企业正加大力度建设数据采集工厂,这一趋势备受业内人士关注。

据高工人形机器人统计,全国目前已有至少15家数据采集和训练工厂。


(图源高工人形机器人)

徽声在线记者获悉,近期帕西尼宣布将在江苏宿迁、湖北武汉、四川自贡和江西赣州建设4座超级数据采集工厂,加上已在天津落成的数据采集工厂,帕西尼将构建起全球规模最大、模态最全的具身智能数据采集工厂集群,具备年产近百亿条高质量全模态数据的能力。

“后续我们还会继续扩大规模,持续提升数据采集能力。”许晋诚对徽声在线记者表示。

谷祖林告诉徽声在线记者,建设数据采集中心的趋势是积极的,“数据采集中心的数据量正在快速增长,实现了从0到1的突破,这是大家能够发力的一种方式。而且,政府将其视为基础设施来建设,最终形成的社会公共资产将回馈社会。”

邓思文则认为,这是行业走向成熟的必然过程。头部企业自建工厂能够满足个性化、高保密数据的需求,并适配自身硬件与算法。而通过建立行业数据标准,将推动数据生产的规范化。“建设数据采集工厂并非与专业数据商形成竞争关系,而是分工协作。企业聚焦核心场景数据,数据商提供通用数据、补充数据和技术服务,共同完善数据生态。”

为应对数据挑战,云厂商也积极入局。

本月,徽声在线记者从百度智能云方面获悉,其联合零次方、灵生科技、傅利叶、纬钛科技、拓元智慧、枢途科技和松应科技等具身智能企业,发布了具身智能数据超市(Beta版),首创层级化、可扩展的数据标签体系,加速具身智能的规模化落地。

数据服务商的角度来看,邓思文透露,“库帕思今年在具身智能领域的业务增速显著提升,合作客户涵盖机器人厂商、模型企业和场景应用企业等,需求从零散数据采集转向全场景、标准化数据解决方案。”

谈及今年出现的核心趋势变化,邓思文指出,一是客户从“要数据”转向“真实场景、长程任务、多样性、大样本的数据”,对数据标注精度和场景真实性的要求大幅提高;二是真实世界数据需求爆发,取代纯互联网数据成为核心采购方向;三是数据服务从单一供给转向“采集+标注+合成+治理+应用”一体化交付。

深圳数据交易所相关负责人也告诉徽声在线记者,数据交易所通过生态建设,对接了仿真数据厂商和数据采集服务商,结合数据基础设施和可信数据空间,能够为具身智能厂商提供高质量的实采和仿真数据。

邓思文总结了目前行业内针对数据问题的常见做法,一是多元数据融合供给,通过真机数据、仿真数据和人类行为数据互补,覆盖训练的全周期;二是标准化数据工厂建设,依照统一标准搭建专业化采集产线,统一标注规范与质量体系,提升数据量产能力;三是行业数据平台化共建,联合企业、科研机构和数据商共建具身智能语料基座平台,降低单一主体成本;四是AI辅助数据生产,利用大模型自动化采集、清洗和标注,提升效率并降低成本。

金字塔顶的数据尤为稀缺

据悉,具身智能数据形成了一个金字塔结构:底层是互联网数据,往上是人类行为数据,再往上是合成数据,顶层是真实世界数据。目前,这座金字塔的顶部数据尤为稀缺。

邓思文对徽声在线记者表示,当前具身智能最稀缺的是顶层真实世界交互数据,具体集中在三类场景:一是复杂动态场景数据,如家庭、商超和工厂等非结构化环境中,机器人与物体和人类的实时交互数据;二是精细操作数据,如抓取、装配和柔性操作等毫米级动作的视觉与力控多模态数据;三是极端容错数据,如突发障碍、非常规物体和环境突变下的应急处理数据。

智元联合创始人、总裁、CTO彭志辉在最新接受媒体采访时也谈到了“数据荒”问题:“相比大语言模型使用了整个互联网的数据,我们还差3到5个数量级,数据缺口非常大。而且数据要求很高,不仅需要数字数据,还需要物理世界中的接触力、摩擦力、重力和粘滞力等高维数据。”

“去年行业内沉淀下来的有价值的数据时长不超过3万个小时。可能有几十万个小时的数据没有太大价值,只能用于预训练,很难做到泛化并提升机器人操作的准确率。”近期的业绩发布会上,越疆创始人兼CEO刘培超这样谈到。

具身智能数据缺口究竟有多大,谷祖林认为很难量化。“既然有缺口就有目标。目标无非两种,一种是产品要满足客户要求,这种情况的缺口是极大的,涉及移动能力、操作能力甚至领域知识等,需要一点点来对标人类;另一种是完成细分、明确的任务,要求原子化的操作,这种情况缺口不大,但难点在于需要应对与人类动态博弈的场景。”他进一步称,动态博弈数据存在较大的缺口。

许晋诚认为,除了数据多寡以外,也要关注模态能力。“触觉、视觉、关节角度、动作轨迹和语音等完整的多模态多维度数据拼凑起来,才是一种很好的高质量数据积累。数据集就像教科书一样,教科书写得好,我们学习起来就快。”同时他还注意到,当前数据和模型之间的工具链不够完善。

具身智能面临的数据难题,与自动驾驶领域形成了鲜明对比。

邓思文称,对比自动驾驶已形成百万公里级成熟数据集,具身智能真实场景数据不足前者的1/10,且标准化、标注完善的高质量数据占比不到30%,直接导致模型泛化能力弱、落地周期长。

一位机器人本体厂商创始人告诉徽声在线记者,“自动驾驶也是一种具身智能,可以大量依靠实体车在路上行驶来采集数据。相比之下,机器人确实比较缺数据。”

“其实做本体也还是要考虑数据稀缺的问题,自己也要做市场,不能只买别人的训练结果,而且目前还有数据缺乏通用性的问题。”他进一步称。

此外,深圳数据交易所相关负责人提到,匹配具体机器人使用场景的数据采集成本很高。以制造业生产线机器人为例,因为实际每条生产线的数据都不一样,而且必须在真实场景中取得,所以数据采集难度大,成本高,效率低。

破题关键:形成数据飞轮,实现闭环

面对前述挑战,破题的关键在哪里?受访的多位从业者均告诉徽声在线记者,要形成数据飞轮,真正实现闭环。

谷祖林认为,数据一定要来自真实场景,真实场景数据才能形成闭环。

“我们的数据飞轮从去年下半年已经开始运转了。”谷祖林介绍,公司的AI130巡扫机器人登顶2025年中国室外清扫机器人出货量榜首,销量更大,数据量也就更大,遇到的问题也更多,解决的问题也更多,客户更满意,产品销量就进一步提升。

他介绍,有鹿机器人在数据方面遵循的是先进园区门、再进单元门,最后进入户门的“数据三重门”逻辑。

“我们坚持以真实数据为主、仿真数据为辅,希望拿到最贴近用户生活的数据,把机器人送到了园区和小区里,虽然不是完整的家庭场景,但也覆盖了生活场景的百分之五六十。去年我们已经投入超千台机器人进园区,今年计划再投小万台机器人。我们投放机器人由于能实现商业闭环,因此并非成本中心,其实是利润中心。数据是我们主要的目标,但数据本质也是一个副产品。”

他还向记者举例:在重庆,扫地机器人不小心清扫了园区里在地上晒的辣椒,可能会被客户投诉;第二天再出门时,机器人就已经了解到晒在门口的辣椒叫资产,并非垃圾。

前不久的中关村论坛上,星动纪元联合创始人席悦也表示,其公司构建了从数据采集到模型闭环的数据飞轮模式,让机器人在真实环境中自主处理corner case(边角案例),持续不断提升效率,同时该公司也在探索人类和真机搭配的数据采集模式。

帕西尼方面构建的则是底层核心感知硬件-全模态数据-上层智能决策大模型的闭环,从传感器切入包括数据采集工厂和云数据商城在内的具身智能数据领域的布局,旨在用数据推动软硬件优化,软硬件反哺数据,数据再反哺模型能力。

如前所述,该公司更为关注具身智能全模态数据缺失的问题。

近日,该公司联合京东云、腾讯云和百度智能云共同打造的全球首个百亿级规模全模态具身智能数据云商城全面对外开放。据悉,云商城依托帕西尼五大自有数采工厂集群的实采数据,独家提供全球自由度最高(82)的人类手部五指动作数据,数据具备毫秒级精度,融合30个六维触觉模组,首次构建“视觉-触觉-语言-动作”的全模态闭环。

此外,其OmniSharing DB全模态数据集为国内首个系统性聚焦人类物理交互行为的高维数据集,已在北京国际大数据交易所和腾讯云等公共平台上线并开放。

主流解法仍面临争议

值得关注的是,业内多方正在探索的仿真合成数据仍然面临着一定的争议。

邓思文认为,仿真数据在具身智能数据体系中发挥着重要的规模化扩增作用,但从产业实践来看,无法独立解决数据难题。“真机数据的规模化采集和标准化建设,建立场景驱动、数据反哺、模型迭代的闭环,才是当前阶段突破数据瓶颈的核心抓手。”

以英伟达Isaac GR00T Blueprint为例(2025年1月),它可基于少量人类示范在11小时内生成78万条合成轨迹,结合真机数据后模型性能提升约40%;但仿真方案始终面临sim-to-real gap核心瓶颈,在触觉力反馈、长程任务链和Corner Case等维度的泛化能力有限。

“具身智能需要有实体,只是sim-to-real(从仿真到现实)是不太行的,它没法像软件那样只在网上就可以批量产生数据,或者抓网上数据就可以做训练,需要实际动作数据才能做训练,否则可能会带来比如人形机器人关节尺寸偏差、力矩效率减低和磨损等问题。”前述创始人同时称。

邓思文称,从市场研判看,遥操作、仿真、生产伴随和视频学习等多方案应并存,本质是对成本、精度和规模三者的平衡,科学的数据配比(如真机与仿真1:1建设基线)是当前行业探索的关键方向。

基于前述观点,谷祖林还提到数采中心可能面临的局限:“数采中心还是人为创造的场景,因此其实(形成的)数据本质上也是一种仿真数据,而仿真数据最大的问题就是分布太集中。”

“(这个问题)我们其实也有在思考。可以在实际场景采集,但可能会影响数据的生产效率和质量,且我们(采集的数据)是用于模型的预训练。”许晋诚介绍。

据悉,在模型的后训练阶段,Zero-shot(零样本)‌或Few-shot(少样本)方法仅需少量(甚至不需要)场景数据。

徽声在线记者另外了解到,帕西尼数据工厂采用“无本体依赖”的数据采集范式,旨在摆脱对特定机器人本体的依赖,提升数据通用性。许晋诚告诉徽声在线记者,“无本体”范式最大优点在于数据采集效率和速度至少是“有本体”的3-4倍。另外他提到,利用重定向技术可以处理人类数据的跨任务泛化问题。

数据获取的成本也值得关注。

徽声在线记者通过一家机器人厂商了解到,由于存储价格上涨,当前数采工厂的成本也随之增加。

在成本问题上,帕西尼方面介绍,公司已将多维触觉传感器的价格从“十万元级”下探至“百元级”。且由于技术自研率超过90%,公司将单条数据的采集成本压低至行业均值的十分之一。

与此同时,高工人形机器人方面还指出,目前大部分数采中心投入使用和产出情况不明朗,是否可以实现规模化交付也未有明确的案例,这背后是难掩大规模数采中心的重资产压力以及数据本身的珍稀性。

“我们也看到有些数采厂规模不大,或者是专门服务于个别具身智能厂商,这样就难以形成规模效应,也难以产生高质量数据集。”深圳数据交易所方面谈到。

数据成为核心壁垒

多位受访者告诉徽声在线记者,数据已成为具身智能企业的核心壁垒,比算法和硬件更能决定长期竞争力,机器人行业竞争本质是拥有好的数据获取方法。

“数据上的差异化会是厂商的核心竞争壁垒,甚至可能成为唯一竞争壁垒。看谁的数据量大且分布性广,我们拿数据量乘以分布广度,最后其实就是厂商的数据价值。”谷祖林称。

许晋诚表示,由于大部分数据还是来源于互联网和人类行为,具身智能数据的真正差异就在于是否具备全模态能力。

徽声在线记者此前报道,去年具身智能赛道一批估值超过百亿的公司接连涌现。不过融资呈现明显的“两头热、中间冷”特征,即早期天使轮和B轮及以上阶段融资活跃,中间轮次出现断层。换言之,这一赛道的头部效应愈发明显,资金正在向更具备量产、交付和商业化能力的企业集中。

而由于数据的获取需要大量成本,厂商之间的差距或也将进一步拉大。

在邓思文看来,头部厂商的确更易获取优质稀缺数据,头部企业有资金、量产能力与客户资源,能承担高成本真实数据采集,优先占据核心场景数据。同时,数据优势可直接转化为模型精度、产品落地速度和商业化能力,形成“数据-算法-产品-市场”的正向循环。

点击展开全文
你关注的
【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力 AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进 深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领
相关文章
人形机器人竞速场内,具身智能求解“数据之困”人形机器人竞速场内,具身智能求解“数据之困” 荣耀机器人2026北京亦庄半马大放异彩,包揽前六名荣耀机器人2026北京亦庄半马大放异彩,包揽前六名 机器人半马首破51分钟!「闪电」刷新智能运动体世界纪录机器人半马首破51分钟!「闪电」刷新智能运动体世界纪录 宇树H1机器人半马赛场意外摔倒,工作人员迅速担架救援宇树H1机器人半马赛场意外摔倒,工作人员迅速担架救援 2026北京亦庄机器人马拉松赛启幕 百余台智能体挑战复杂赛道2026北京亦庄机器人马拉松赛启幕 百余台智能体挑战复杂赛道 2026机器人半马激战正酣:荣耀闪电机器人夺冠,速度再创新高2026机器人半马激战正酣:荣耀闪电机器人夺冠,速度再创新高