算力媲美三峡发电!上海万卡GPU集群引领AI大模型新潮流 记者深度探访
2026-04-06 13:02:36未知 作者:徽声在线
徽声在线4月6日讯(记者 黄心怡)踏入上海松江区的仪电智算中心,首先映入眼帘的是机房内持续轰鸣的风扇声,以及整齐排列的上万张GPU设备。这些设备与纵横交错的高速网络线缆共同构建了一个庞大的算力网络,每张芯片每秒可执行高达数十万亿次的运算任务。令人惊叹的是,这些芯片在两天内汇聚的计算能量,竟然相当于三峡水电站一台机组一小时的发电量,彰显了算力的巨大潜力。
算力,作为AI发展的基石,其重要性不言而喻。然而,要让上万张GPU卡高效协同运转,形成一个强大的集群,却绝非易事。据徽声在线记者了解,上海仪电旗下的智算科技团队已经成功实现了集群99.99%的超高可用性,这意味着全年总故障时间被大幅缩短至仅1小时内,为AI大模型的稳定运行提供了有力保障。
▍万卡级GPU集群:稳定运行的典范
回顾过去,2023年上海仪电成立了智算科技,并牵头布局了“万卡集群”项目,同时搭建了智算云平台和公共服务体系。这一举措不仅彰显了上海仪电在算力领域的远见卓识,也为AI大模型的发展奠定了坚实基础。
算力集群的构建并非简单的加速卡堆叠,它还需要复杂的高速网络和强大的调度软件作为支撑。智算科技董事长、总经理孙跃形象地比喻道:“算力集群与AI大模型的关系,就好比电与发电机。要让接近万卡算力的芯片配上高效的通讯网络,再结合相应的存储设备,形成一个集群整体高效运转,其难度可想而知。”而更难的是,这1万张卡组成的集群还需要7×24小时不间断地提供算力服务,对技术的稳定性和可靠性提出了极高要求。
据了解,AI算力底座中的算力芯片故障率远高于传统IT设备。在大模型训练过程中,哪怕仅仅1分钟的算力中断,都可能导致几十个小时的训练结果付诸东流。因此,调度万卡就像是指挥上万架无人机在密集的空中高速穿梭,每张芯片都容不得半点误差。
面对这一挑战,智算科技这支平均年龄仅32岁的年轻团队展现出了极强的战斗力和创新精神。他们连续79天吃住在机房驻守,为了0.1%的性能提升而每天熬红双眼反复打磨代码、开展算法攻坚。面对紧急任务时,他们打破常规流程,将线性流程优化为“并行施工+边测边调”,以抢占每一秒进度。
最终,团队成功实现了集群99.99%的超高可用性目标,相当于全年总故障时间缩短至1小时内。这一成果有力支撑了某大模型公司等多模态大模型领先全球的训练工作,成功避免了算力中断可能造成的巨大损失。
▍融合异构芯片:激发国产算力新活力
除了稳定运行外,智算科技的万卡集群还成功适配了多种国产算力卡,实现了多元异构算力的融合与优化调度。孙跃介绍称,在不同业务和行业场景中,对芯片的需求各不相同。而各类国产算力芯片在细分领域也各具优势,通过异构算力的融合,可以更好地发挥国产算力的潜力。
“通过异构算力的融合,我们把国产算力真正用了起来。可以在同一底座、同一云平台的基础上,更好地满足不同垂类客户对算力基础设施的差异化需求。”孙跃表示。这一举措不仅提升了国产算力的利用率,也为AI大模型的发展提供了更多可能性。
目前,智算科技的万卡集群使用率已接近100%,基本实现了建成即满负荷运转的壮观景象。在某新型科研机构项目中,团队仅用一周时间便完成了近千卡集群的建设与交付工作,跑出了行业领先速度。随后又成功部署了万卡集群算力,有力保障了国家重点科研任务的推进。截至目前,智算科技已具备万卡规模高性能算力集群的部署与交付能力。
此外,智算科技还首创了“动态感知调度方案”,使训练效率飙升91%。这一创新方案每年为国家节省的算力成本相当于新建3个数据中心,实现了混合架构万卡集群调度技术的自主可控。
今年全国两会上,“算电协同”首次被写入政府工作报告,成为国家级战略性新基建工程。智算科技也积极响应国家号召,在这一领域开展了积极探索。
孙跃透露:“在基础设施和机房建设过程中,我们进一步扩大了对绿电的使用比例,并通过液冷集群提高了整个能源的使用效率,降低了PUE值。另一方面,我们也在和上下游的合作伙伴进行紧密探索。比如结合淞沪地区丰富的海上风电资源,实现风电直接驱动的海底数据中心建设,从而降低算力成本。这是当前我们开展的算电协同的重要尝试之一。”
▍推动国产算力生态协同:共创AI新未来
当前,新一代人工智能正快速发展,算力需求持续激增。孙跃表示:“越来越多的算力不仅渗透到千行百业中,甚至开始走进千家万户。从近期备受关注的AI Agent、智能体工作流到OpenClow等创新应用来看,发展速度往往超出想象。这不是一个线性的过程,而是阶跃式演进。未来虽难以准确描述其具体目标,但发展的节奏只会越来越快。”
谈及未来规划时,孙跃表示一方面要提高算力基础设施的建设效率以及万卡集群的使用效率,“这是在基础设施侧需要重点攻关的方向”;另一方面要打造开放、灵活、弹性的智算云服务平台,“去年在世界人工智能大会上我们发布了智算平台YI CLOUD,旨在面向各类不同领域的用户提供更普惠、更便捷的算力服务。这种算力服务依托于智算云平台提供不仅包括算力本身,还包括行业所需的语料、模型、智能体等能力的适配服务,帮助用户在单一垂直领域更高效地使用算力。”
此外,上海仪电还在生态建设上持续发力。作为一家平台型的链主企业,上海仪电希望发挥生态链接的作用,“牵引产业链上下游软硬件厂商包括GPU企业、网络通讯企业、模型企业以及智能体企业等共同带动合作伙伴实现国产算力生态协同的创新方案以赋能国产大模型以及相关AI+应用的发展。这是我们未来发展的另一重点。”孙跃表示。

