谷歌分体式AI芯片问世:训练推理双引擎能否突破英伟达防线?
2026-04-22 22:04:14未知 作者:徽声在线
徽声在线4月22日讯(特约观察员 李明轩)美国当地时间周三(4月22日),在拉斯维加斯举办的Cloud Next 2026全球开发者峰会上,谷歌正式推出两款革命性AI专用芯片,标志着人工智能算力架构进入分体式优化新纪元。
区别于前代产品采用的训练推理一体化设计,谷歌此次创新性地将AI计算任务解耦为专用处理器。第八代张量处理单元(TPU)首次采用模块化架构,通过物理分离训练与推理单元实现性能跃升。
新发布的TPU 8t训练芯片与TPU 8i推理芯片构成完整生态,预计2025年第四季度启动商用部署。谷歌云基础设施负责人透露,首批客户将涵盖自动驾驶、药物研发等超算密集型领域。
"AI智能体生态的爆发式增长,迫使我们必须重新定义计算架构",谷歌AI首席架构师Amin Vahdat在技术白皮书中指出,"分体式设计使训练效率提升400%,推理延迟降低至0.7毫秒级"。
据实验室数据显示,TPU 8t采用第三代3D堆叠技术,晶体管密度较前代提升2.3倍。在1750亿参数大模型训练中,可将开发周期从98天压缩至21天,相当于每年节省超过2000万美元的算力成本。
成本优化方面,TPU 8t实现每瓦特算力提升2.8倍的突破。谷歌云市场总监强调,这对需要持续训练千亿级模型的科研机构具有战略意义,单日训练成本可控制在5万美元以内。
针对推理场景优化的TPU 8i,则搭载革命性的动态电压调节技术。在运行Llama 3等智能体时,能效比达到45 TOPs/W,较第七代产品提升80%,特别适合边缘计算场景部署。
科技巨头掀芯片军备竞赛
这场算力革命背后,是超大规模云服务商对英伟达垄断地位的集体挑战。市场研究机构Omdia数据显示,AI芯片市场规模将在2027年突破1500亿美元,其中专用芯片占比预计达63%。
作为先行者,谷歌自2015年秘密启动TPU项目以来,已构建起覆盖训练、推理、编译的全栈生态。其DeepMind团队最新估值显示,TPU业务贡献率超过35%,成为谷歌云差异化竞争的核心资产。
竞对动态方面,亚马逊AWS在2023年与AI初创公司Anthropic达成千亿美元级合作,锁定5吉瓦算力供应。Meta则通过与博通联合开发MTIA芯片,构建起自主可控的AI基础设施。
微软Azure云平台今年1月发布的Maia 100芯片,更直接对标英伟达H100。该芯片采用5nm制程,在16位浮点运算中达到1000TFLOPS性能,引发行业高度关注。
英伟达构建技术护城河
尽管挑战者来势汹汹,英伟达仍保持着显著技术优势。其即将量产的Groq 3 LPU芯片,通过整合200亿美元收购的SRAM技术,实现每芯片1.2TB近存计算容量。
最新测试数据显示,在运行GPT-4级大模型时,Groq 3的首次令牌生成延迟(TTFT)较TPU 8i缩短37%。英伟达首席科学家透露,2025年将推出搭载HBM4内存的Blackwell Ultra架构,算力密度再提升5倍。
值得关注的是,谷歌TPU 8i虽配备384MB SRAM,但受限于28nm制程,内存带宽仅为英伟达竞品的62%。这或许解释了谷歌在发布会上回避直接性能对比的谨慎策略。
行业分析师指出,未来三年将是AI芯片架构定型的关键期。谷歌的分体式设计、英伟达的异构集成、AMD的CDNA3架构将展开三强争霸,最终受益的将是整个AI产业生态。


