华为何庭波再发“韬定律”V2版:麒麟昇腾未来路线明晰,AI硬件集成度或飙升
2026-07-04 23:05:39未知 作者:徽声在线
在首次提出“韬(τ)定律”仅一个多月后,华为董事、半导体业务部总裁何庭波再次发力,对以时间常数τ为核心的后摩尔时代全新缩放理论体系进行了更为深入的补充与细化。这一举措无疑为半导体行业的发展注入了新的活力。
7月3日,徽声在线从中国科学院科技论文预发布平台ChinaXiv获悉,何庭波发布了《面向多层级电子系统的时间缩微理论》(即业内所称的“韬定律”)V2版本。相较于5月25日发布的V1版本,新版论文在原有理论框架的基础上,不仅补充了大量工程落地的细节,还提供了实测量化数据以及产品演进路线,使得整个理论体系更加完善和具有可操作性。
在工程落地方面,V2版本着重介绍了logic folding(逻辑折叠)技术中的Gear Ratio(齿比)概念。这一概念指的是混合键合(Hybrid Bonding)连接间距与芯片顶层金属布线间距之间的比例关系。当这一比例逐渐接近1时,不同有源层之间的连接将能够实现“单元级连续优化”,这也是逻辑折叠技术能够突破传统3D堆叠局限、实现性能提升的核心工程基础。这一发现无疑为半导体行业的技术革新提供了新的思路。
此外,V2版论文还新增了多代芯片的量产实测数据表,其中涵盖了尚未正式公开的麒麟2026、2027、2028和2029等新一代处理器。这些数据表直观地展示了这些处理器的主频、架构以及研发状态等关键信息。值得一提的是,麒麟2026和麒麟2027均已完成流片,这意味着这两款芯片已经制造出来并进入了验证阶段。未来,这四代麒麟SoC(系统级芯片)均将采用逻辑折叠架构,而麒麟CPU(中央处理器)性能核心更是计划于2029年前突破4GHz大关。在AI(人工智能)芯片领域,2025年的昇腾910C、2026年的昇腾950以及后续的昇腾990仍将主要采用Chiplet(芯粒)、2.5D封装和混合键合等成熟技术路线。然而,到2030年前后,逻辑折叠技术将被首次引入AI加速器产品中,为AI芯片的发展带来新的突破。论文还预计,到2035年,AI硬件的整体集成度有望较2026年提升100倍以上,这无疑是一个令人振奋的预测。
如果说V1版本回答的是“为什么摩尔定律之后需要新的缩放理论”,那么V2版本则更多地回答了“新的缩放理论应该如何在未来落地”这一问题。V2版本不仅提供了理论框架,还给出了具体的实现路径和工程方案。
在过去的半个世纪里,摩尔定律的“几何缩微”一直是推动半导体行业发展的主要动力。然而,如今这一行业发展范式已经逐渐失效。单纯的尺寸缩小所带来的技术红利已经趋于枯竭,而先进制程芯片的单颗设计成本更是突破了十亿美元大关。为了跨越这一传统工艺路径的局限,何庭波在5月提交的V1论文中提出了“韬(τ)定律”,并进行了详细的介绍。简单来说,芯片竞赛已经不再看谁“做得小”,而是看谁能够让信号“跑得快”。更小的晶体管、更密集的互连以及更高的集成度,都是为了提升信号传输的速度和效率。因此,应将时间本身作为核心衡量指标。何庭波认为,无论是晶体管、电路、芯片还是系统各层级,都可以定义专属的特征时间常数τ。未来芯片优化的核心目标,应当是全局τ的缩减。
与V1版本更多停留在理论框架层面不同,V2版本更像是一本设计说明书。它增加了逻辑折叠、混合键合、统一总线、Hi-ONE光互连等关键技术的结构示意图、工程参数和约束条件,试图说明这些技术并不仅仅是概念设计,而是具备量产可行性的工程方案。这些详细的介绍和说明,无疑为半导体行业的技术人员提供了更为清晰的指导和参考。
此外,V2版本在保留V1整体技术路线的基础上,还进一步补充了麒麟未来数年的演进路线图。在手机芯片部分,华为已经形成了至少覆盖未来四代产品的连续研发规划。其中,麒麟2026和麒麟2027已经完成流片,说明这两款芯片已经制造出来并进入了验证阶段,但还未必已经量产。而麒麟2028和2029则是处于流片前阶段。并且,从2026年开始,麒麟系列的架构将发生明显变化。在2023年至2025年期间,麒麟系列仍采用传统平面架构,CPU性能核心主频每年仅提升约0.05GHz至0.1GHz。然而,从2026年开始,路线图显示麒麟将全面转向逻辑折叠架构,主频预计将提升至3.1GHz,并在2029年达到4GHz。这一变化无疑将使得麒麟系列芯片在性能上实现质的飞跃。
论文并未披露上述产品对应的具体工艺节点,而是试图证明,在不依赖先进光刻工艺持续演进的情况下,仍可以通过逻辑架构创新重新建立起性能增长的动力。这一观点无疑为半导体行业的发展提供了新的思路和方向。
为了证明这一目标具备工程可行性,V2版本披露了所需的关键工艺参数、设计方法和量产验证结果等。论文指出,逻辑折叠实现的关键并不只是“把芯片堆起来”,而是在于实现足够低的“齿比(Gear Ratio)”。当混合键合间距接近顶层金属布线尺寸、齿比降低至3以下并最终接近1时,3D设计空间可由传统“宏块级离散优化”转向“单元级连续优化”,从而实现更接近全局最优的垂直逻辑划分。这意味着传统3D堆叠不再只能按照功能模块进行分层,而是可以在更细粒度的电路单元层面进行设计优化。这一发现无疑为半导体行业的技术革新提供了更为广阔的空间和可能性。
与V1版本主要披露性能提升结果不同,V2版本还公开了等性能条件下的实测对比数据。论文显示,与采用传统平面架构的麒麟9030 Pro相比,采用逻辑折叠架构的麒麟2026在相同工艺节点下,晶体管有效集成密度由155 MTr/mm²提升至238 MTr/mm²;关键路径布线长度缩短约30%;工作电压从1.1V降低至0.9V,实现了41%的功耗下降和5.6%的功率密度下降。这些实测数据无疑为逻辑折叠架构的优势提供了有力的证明。
何庭波在V2论文中强调,目前已经量产的麒麟2026仍属于保守版逻辑折叠方案。其混合键合间距为1.5微米,TSV(硅通孔技术)仅下移至顶层金属下一层,逻辑折叠也仅应用于部分关键路径而非整个芯片。与V1版本相比,V2版本进一步新增了下一代麒麟SoC三维结构示意图和键合界面截面图,以说明目前实现的仅是Logic Folding(逻辑折叠)路线的第一阶段。按照论文规划,未来十年该架构将逐步演进至三层、四层乃至更多有源层结构,TSV也将进一步下移至M6金属层以下,从而释放超过30%的高层布线资源。这一规划无疑为麒麟系列芯片的未来发展描绘了一幅宏伟的蓝图。
从“提升算力”到“缩短数据搬运”:V2论文的另一大亮点
除了对手机芯片进行深入介绍外,V2论文另一项值得关注的变化是更加完整地解释了τ定律如何从单颗芯片扩展到整个AI计算系统。这一解释无疑为AI计算系统的发展提供了新的思路和方向。
随着AI训练集群规模从数百颗芯片扩展到数万颗芯片,限制系统性能的瓶颈已经逐渐从单颗芯片算力转向数据传输效率。未来,AI系统优化的重点将不再只是提升GPU(图形处理器)或AI加速器本身的计算能力,而是尽可能缩短数据在芯片、服务器和机柜之间流动所需要的时间。这一观点无疑为AI计算系统的发展指明了新的方向。
在具体实现路径上,V2论文新增了多张示意图进一步阐述了Unified Bus、Hi-ONE以及3D Folding三项技术在系统中的分工与协同。Unified Bus负责统一不同计算节点之间的数据传输协议,希望减少PCIe、NVLink、以太网等多种协议转换带来的额外时延;Hi-ONE则利用近封装光互连替代高速铜线,实现更高带宽、更低功耗的数据传输;3D Folding则进一步把HBM、高速I/O以及供电等资源从芯片边缘逐步扩展到整个芯片表面,提升系统整体集成度和通信效率。这些技术的协同作用无疑将为AI计算系统的发展带来新的突破和飞跃。
何庭波认为,当前AI的能耗和成本并不是由计算本身决定,而是由数据决定。在大规模AI集群中,超过80%的系统能耗来自数据搬运,超过70%的系统成本用于数据存储。这意味着在AI时代,缩短数据在芯片之间、机柜之间以及封装内部的传输时间其重要性已经不亚于缩短芯片完成计算所需的时间。这一观点无疑为AI计算系统的发展提供了新的思考和启示。
此外,在AI芯片演进路线方面,论文进一步细化了昇腾未来十年的技术实现路径。2030年前后,逻辑折叠将首次引入AI加速器产品并逐步发展至3D Folding架构。未来需要通过逻辑折叠和3D Folding将供电、HBM以及光互连逐步从芯片边缘扩展至整个芯片表面以支撑更高集成度AI系统的发展。论文还预计到2035年前后在逻辑折叠、3D Folding、Unified Bus和Hi-ONE等多项技术协同演进下AI硬件整体集成度有望较2026年提升100倍以上。这一预测无疑为AI芯片的未来发展描绘了一幅令人振奋的蓝图。
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

