上海智算中心:从防尘到AI“发电厂”的全面布局
2026-04-09 11:12:08未知 作者:徽声在线
徽声在线记者 | 林宇
徽声在线编辑 | 陈晓薇
当你推开机房的大门,首先映入眼帘的是一排排整齐排列的算力服务器,同时,耳边会传来持续不断的轰鸣声,这是为降低服务器温度而持续运转的风扇发出的声音。
近日,徽声在线实地探访了位于上海松江的智算中心,这里拥有国内首批“万卡集群”。该项目由上海国企仪电集团牵头成立的上海智能算力科技有限公司(简称智算科技)投资建设。
所谓“万卡集群”,是指通过高速网络与软硬件系统,将一万张甚至更多的GPU(图形处理器)连接起来,形成一个统一调度的计算中枢。这可以被看作是人工智能领域的“发电厂”。目前,国内已经建成了42个“万卡集群”,数量在全球处于领先地位。
自松江智算中心投入使用以来,其算力一直处于满负荷状态。这背后是人工智能行业需求的迅猛增长,导致算力资源变得异常稀缺。据国家数据局的统计,今年3月,国内日均Token(词元)调用量超过了140万亿,相比2024年初增长了1000多倍。
为了应对这一挑战,上海正在积极筹划扩大算力基础设施,明确将围绕浦东、金山、松江、临港和青浦等重点区域,大力部署智能算力,提升集群规模。
预计到2027年,上海的算力规模将提升至20万PFLOPS(每秒千万亿次浮点运算)。而根据今年1月的数据,上海的算力规模已经突破了12万PFLOPS。
智算科技总经理孙跃解释说,上海拥有众多垂类人工智能应用,这些应用需要就近布局算力资源,以便快速响应任务需求,降低网络延时等。同时,上海也集聚了芯片、大模型等大量人工智能上下游企业,在本地布局“万卡集群”有利于执行技术攻关任务。
对于“万卡集群”来说,算力卡无疑是核心部件。然而,在先进算力卡被限制进口的背景下,设备采购面临一定难度。但孙跃认为,“建设‘万卡集群’是一个庞大的系统工程,购买算力卡可能并不是最难的环节。”
智算中心需要高效的通讯网络和相应的存储设备,才能让算力卡以集群的形态高效运转。一个“万卡集群”如果拆解开来,零部件数量可达到数十万个,种类超过百种。
在智算科技系统工程中心总监胡宝群看来,“万卡集群”建设过程中,一个容易被忽视却又极为关键的风险点是灰尘。他称之为“万卡集群”建设的入门第一课。
在组成“万卡集群”的百余种零部件中,光模块是极为重要的一种。通常情况下,一个集群需要配备上万个光模块,但这种火柴盒大小的电子元器件对灰尘极度敏感。胡宝群告诉徽声在线,光模块只要接触到非常小的灰尘,就会影响对应算力卡的运行,甚至可能导致整个“万卡集群”无法稳定工作。
因此,在松江智算中心的建设和运行过程中,智算科技的团队都在想方设法防范灰尘带来的潜在影响。例如,在光模块安装环节,规定其暴露在空气中的时间必须控制在三秒以内。
此外,松江智算中心所在四层建筑的楼道内,还专门安放了有粘性的地毯,用于吸附人走过时鞋底的污物,减少空气中的灰尘来源。
松江智算中心,图片来源:仪电集团
搭建“万卡集群”被认为是一项复杂的系统工程,其难度可与卫星发射相媲美。孙跃提及,“在发射卫星过程中,任何一个零部件故障都会导致整个任务失败,‘万卡集群’也类似,对每个环节都有很高的可靠性要求。”
同样具有高难度的,是让“万卡集群”能够7*24小时不间断地高效运转,为用户提供稳定的算力服务。在人工智能模型训练过程中,智算中心的任何故障都可能导致整个任务中断。而在一套由数十万个零部件组成的“万卡集群”中,设备故障的发生几乎无可避免。
但通过技术和架构层面的冗余设计,松江项目的“万卡集群”能够实现即使故障发生,也不影响模型训练任务的执行,并且能够在数分钟甚至数秒内完成故障定位,便于下一步的故障排除。
在人工智能时代,算力被认为会像水和电一样,成为每个人都能方便取用的资源。“万卡集群”的稳定运行,将是实现这项设想的关键一环。
智算科技系统平台部负责人翟雨佳表示,“我们的目标是让‘万卡集群’能够像供水和供电那样稳定,让用户在使用过程中感受不到算力的存在。”

