活力中国调研行|探访雄安“机器人训练工厂”:5000万小时需求与8万条储备的碰撞,“数据荒”下雄安加速“补课”
2026-07-01 22:06:50未知 作者:徽声在线
踏入中国雄安集团数城公司的具身智能训练基地,映入眼帘的并非那些冷冰冰的机器人,而是一群头戴VR眼镜、手握操作手柄的年轻人。他们双臂在空中挥舞,动作时而如同沉浸在游戏世界般灵活,时而又像外科医生进行手术般精准无误。
在不远处的操作台上,一台人形机器人在他们的远程操控下,正小心翼翼地夹起一块面包,将其放入烤面包机中,随后再从烤面包机中取出,稳稳当当地摆放在餐盘里。尽管动作略显生硬,但已经初具人类厨房操作的韵律感。
训练场内,数据采集员正遥控机器人夹面包 图片来源:每经记者 张蕊 摄
这是《每日经济新闻》记者(以下简称“每经记者”)近日随2026年“活力中国调研行”活动,在该训练基地亲眼目睹的生动场景。
这个被誉为“机器人训练工厂”的地方,汇聚了工业搬运、家居生活、商业零售、物流装配等多种应用场景。在这里,有人身着外骨骼机械臂,遥控机器人搬运箱子;有人通过手柄指挥机器人摆放桌签;还有人紧盯着传送带上的物品,一遍又一遍地训练机器人完成分拣任务。所有这些看似枯燥乏味的重复操作,实则都是为了给机器人提供充足且优质的数据“养分”。
然而,面对市面上已有机器人品牌在便利店等场景成功落地的情况,为何还需持续进行数据采集工作?一个训练基地每天能产生多少有效数据?数据采集过程中面临哪些挑战?数据上架至雄安新区城市可信数据空间后的商业模式又是怎样的?针对这些问题,每经记者展开了深入采访。
具身智能行业面临“数据荒”困境
谈及建立具身智能训练基地的初衷,数城公司总经理助理李国良表示,当前具身智能领域对数据的需求极为迫切,存在严重的“数据荒”问题。要使一台机器人能够在多种场景下灵活作业,至少需要10亿条数据的支撑,这一数据量相当庞大。
“去年9月、10月,一些合作伙伴就向我们提出了采购5000万小时具身智能高质量数据集的需求。当时我们跑遍了多个训练基地,发现全国范围内这种大规模、长时长的数据储备严重不足。”李国良说道,“我们正是为了满足社会的共性需求而开展这项工作,同时,雄安新区周边的人工成本相对较低,做这件事既能促进地方就业,又能推动产业发展。”
在李国良看来,具身智能行业目前亟需在两个方向上取得突破:一是提升模型研发能力,即增强世界模型的适应能力,使模型具备强大的多场景适配性;二是积累足够多的场景数据,以训练模型的泛化能力。
训练场内搭建的真实商业零售场景 图片来源:每经记者 张蕊 摄
李国良进一步解释道,不同的机器人应用场景千差万别。如果把具身智能行业的发展比作一个人的成长过程,那么数据就相当于“养料”。在“幼儿园”阶段,数据为机器人提供认知世界的基础;到了“小学”阶段,则需要通过多场景的数据采集和不断迭代,为模型训练提供有力支撑。“只有经过反复的数据采集和模型训练,再将模型迁移到机器人本体上,机器人才能真正发挥其作用。”
然而,面对市面上已有机器人品牌在便利店等场景成功落地的情况,为何还需持续进行数据采集工作呢?
对此,李国良表示,目前这些已落地的机器人场景虽然相对成熟,但机器人本体实际上并不具备泛化能力。这意味着机器人只能完成固定位置、固定物品的动作。例如,在一个固定位置放了一瓶可乐,机器人可以识别并完成抓取动作;但如果这个位置换成了方便面,或者可乐被移到了其他位置,机器人就无法完成动作了。因此,仍需通过大量数据训练模型,以提升模型的泛化能力。
当前,要让机器人做到“举一反三”、灵活应变,仍然面临巨大挑战。李国良举例说,比如今天让机器人跳了一段霹雳舞,采集了相关数据,但迁移到另一台机器人上,后者并不能直接跳古典舞。这绝不是一条数据就能实现的,而是需要几千次的数据采集和训练才能达到。模型迁移到机器人本体上,可能需要几千条甚至上万条数据。因此,提升模型泛化能力和开发世界模型,是当前头部企业和科研院所正在努力的方向。
数据采集面临的主要挑战在于场景复杂性
“通过移动手柄将面包拿起来,放到烤面包机里,然后再把它从面包机里拿出来,放到盘子里,通过这一系列操作来完成一条数据采集。”数据采集员梁俪珊告诉每经记者,每一个动作都需要重复1000多次,机器人才能记住。环境、操作角度、力度等因素都会影响机器人的识别效果。
正是由于一个动作要做几千次甚至上万次,非常枯燥,因此数据采集员在采集数据之余也承担数据标注工作。“网络状况良好的话,一天能标注三四十条数据,因为数据时长、网速快慢都会对标注效率产生影响。”梁俪珊说道。
训练场内屏幕上展示的烤面包数据标注页面 图片来源:每经记者 张蕊 摄
那么,每天大概能产生多少条数据呢?李国良告诉每经记者,一台机器人一天工作8小时,数据采集员通过机械臂或操作杆操作,每天大概会产生1000个动作、1000条数据。但在标注和核查过程中,有些数据是无效的,比如抓取失败、角度不对或位置不对等情况。当然,这些失败数据对某些单位训练模型也有一定意义。总体而言,每天用于正向训练的有效数据在200~400条之间,但训练一个动作或一个模型,需要几千条甚至上万条数据才能完成。
记者了解到,目前国内机器人厂商有100多家,各家厂商的数据标准尚未统一,这是行业面临的普遍问题,也是要实现不同厂家、不同构型的机器人在统一平台上训练的难点。
为解决这一问题,李国良对每经记者表示,通过与合作方共同研发的平台,能够适配国内所有主流机器人品牌的数据格式。通过点对点的数据解析技术,解析每个时段的含义和格式,实现通过一个平台完成主流机器人的统一数据采集。“这是我们与合作伙伴共同完成的一项创新。”
记者在现场了解到,具身智能训练基地目前已经与智元机器人等多家厂商展开合作,涉及的机器人构型已有五六种,包括轮式、轮臂、折叠式等。除了双足机器人外,其他类型基本都已覆盖。四足机器人目前尚未涉及,因为四足机器人大多用于线路规划等既定动作,不需要进行类似的训练。
不过,“没有统一的数据标准其实不是最大的挑战。”李国良认为,具身智能数据采集真正的挑战在于场景的复杂性——家居、酒店、餐馆、城市环卫、巡检等,面临的场景太多了。不同场景、不同应用方面,面临的小场景又各不相同,所需的密度也不一样。千行百业都需要对机器人进行训练,机器人才能逐渐替代人工,尤其是重复性、危险性的动作。这说明市场潜力非常大。
探索具身智能数据在城市可信数据空间的交易模式
记者注意到,为落实《可信数据空间发展行动计划(2024—2028年)》,去年7月,国家数据局综合司发布了可信数据空间创新发展试点名单,涵盖城市、行业、企业三个方向,其中数城公司是13个城市可信数据空间试点之一。
记者在现场了解到,目前,训练基地已进入真机数据采集与标注的常态化运营阶段,高质量数据同步上架至雄安新区城市可信数据空间,需求方可以从可信数据空间选用下单。
对此,李国良介绍道,其实公司在做数据要素流通、数据交易的同时,面临具身智能数据的需求,才开始研究具身智能训练基地。“去年八九月份我们进入这个行业时,具身智能发展特别迅速。目前需求方主要包括具身智能本体企业、具身智能模型企业,以及一些科研院所和高校。”
“目前我们正在与一家单位洽谈从平台上下单。因为我们的机器人数量还不多,规模还不大,所以目前数据储备还不是特别大,我们自己有8万条数据。但是通过这些机器人,我们实现了技术路线的打通和闭环。”
被问及从可信数据空间下单的商业模式,李国良告诉每经记者,目前具身智能数据有两种销售模式:一种是按小时计算,一种是按条数计算。按条计算的话,每条价格在8元~48元之间。价格差距主要取决于两个层面:一是数据的独占性,如果数据卖给一家后不能再卖给其他家,即转移了数据持有权,价格会比较高;二是如果数据可以复制销售,不转移权属,价格会低一些。现在讲数据也是“三权分置”,即持有权、加工使用权和经营权。
谈及下一步的具体规划,李国良表示:“从数据方面入手是最迫切的。近一两年,我们一定要做更大规模的具身智能训练基地,具备更强大的数据采集生产能力。一方面是固定场景的数据采集,搭建更多固定场景;另一方面是走出固定场景,工作人员或采集员通过穿戴式设备、背包式数据采集设备,到社会上采集更广泛的数据。也可以给酒店、餐馆等真实工作人员配备可穿戴的采集设备,在不影响其工作效率的情况下采集数据,满足城市运营管理、城市治理等方面的数据需求。”
训练场内数据采集员正在遥控机器人摆桌签 图片来源:每经记者 张蕊 摄
那么,持续训练最终能达到怎样的效果呢?
李国良举例道,比如通过对酒店住宿场景的反复训练,实现离店后的打扫、清扫、叠被子等动作的自动化,最终实现无人化酒店;餐馆也可以实现无人化。但这需要两个方面的突破:一是模型泛化能力的突破,二是足够的数据储备用于模型训练。
“我认为,具身智能走进千家万户在几年内是可以实现的。通过具身智能产业的发展来改变人们的生活方式和生产方式,不断提高人民生活水平。”他说。


