存储成本攀升之际,面壁智能1.58-bit模型能否破解“显存焦虑”难题?

2026-05-25 13:08:34未知 作者:徽声在线

徽声在线记者 | 伍洋宇
徽声在线编辑 | 文姝琪

5月25日,面壁智能携手清华大学与OpenBMB开源社区,共同推出了BitCPM-CANN这一创新成果。该系列模型是基于国产算力平台原生训练并开源的1.58-bit三值权重大模型,包含了0.5B、1B、3B、8B四种不同规模的版本,为AI领域带来了新的突破。

相较于传统的BF16精度模型,BitCPM采用的1.58-bit技术具有显著优势。它通过将权重值严格限制在-1、0、1这三个数值范围内,成功实现了推理侧显存占用的大幅缩减,约可释放6倍的显存空间。这意味着,在相同的物理内存限制下,设备能够运行参数规模更大的模型。例如,原本只能支持4B模型运行的芯片,在采用BitCPM技术后,可以在相同的内存消耗下运行8B模型,极大地提升了设备的计算能力和应用范围。

BitCPM-CANN的发布恰逢全球半导体供应链动荡不安的时期。高盛近期发布的一份报告指出,受AI服务器需求急剧增长的影响,存储价格预期被持续上调。预计到2026年,DRAM价格将上涨250%-280%,NAND价格将上涨200%-250%,而HBM由于技术门槛高且产能受限,其涨幅将更为显著。这一市场趋势无疑加剧了大模型行业对内存资源的争夺和焦虑。

面壁智能AI Infra负责人李宇轩在接受徽声在线等媒体采访时坦言,内存已经成为大模型行业最为稀缺的资源之一。他透露,过去一年内,内存价格已经翻了约5倍,这给手机及终端厂商在产品迭代过程中带来了巨大的显存焦虑。如何在有限的内存资源下,实现AI性能的最大化,成为了行业亟待解决的问题。

那么,原生低比特训练的端侧AI模型,是否能够有效平衡AI性能与显存消耗之间的矛盾呢?

据徽声在线记者了解,针对这一问题,传统的方法是采用后训练量化技术。即先使用高精度(如BF16)完成模型的训练,然后再将其权重压缩至INT8或INT4等更低精度。然而,这种方法往往会导致模型性能的显著损失,尤其是在处理复杂任务时,性能下降更为明显。

为了克服这一难题,面壁智能提出了一种创新的解决方案。他们先通过量化感知训练(QAT)让模型进入稳定的收敛状态,然后再引入全精度模型进行知识传递。由于低比特模型对数据质量极为敏感,团队通过精心调配数据配比和采用教师模式,成功抵消了位宽压缩带来的信息损失,确保了模型的性能稳定。

在训练范式上,李宇轩将这一先量化、再蒸馏的策略形象地比作教导一个天资有限但勤奋的学生。他解释说,如果过早地引入复杂的蒸馏机制,模型反而难以收敛,就像给学生灌输过多超出其接受能力的知识一样。因此,需要循序渐进地引导模型进行训练,才能取得最佳效果。

此外,李宇轩还从技术逻辑的角度阐述了1.58-bit被视为模型压缩“数学甜蜜点”的原因。他指出,虽然1-bit(二值)模型在理论上具有更高的压缩比,但由于无法同时兼顾数学表达的对称性与含零特性,导致精度损失巨大。相比之下,1.58-bit模型能够在保持极致压缩比的同时,最大限度地保留权重的表达丰富度,从而在性能与压缩比之间找到了最佳的平衡点。

数据显示,BitCPM系列模型在常识、阅读理解等11项核心任务中,均保留了全精度模型90%至97%的能力。李宇轩强调:“如何用最便宜的芯片跑出最大的智能,这就是端侧模型最核心的问题。而1.58-bit正是单位内存占用下,知识密度承载量最优的状态。”


图源:面壁智能

针对行业对精度损失的普遍担忧,李宇轩表示,低比特带来的性能退化是平缓而非断崖式的。通过后训练技术,可以将损失引导至非核心场景,从而确保总结、交互等端侧核心体验不降级。他举例说:“手机AI对代码能力的要求并不高,我们就可以尽可能把这部分损失通过后训练引导到代码能力上,把重点放在客户关注的指标上。”

从商业化的角度来看,BitCPM的上端目标仍然是手机、车机等终端设备。李宇轩预判,随着低比特技术与稀疏化(MoE)技术的不断叠加和融合,更大规模模型(如60B)有望在明年应用于上端设备,进一步拉近端侧与云端的智能差距,为用户带来更加智能、便捷的使用体验。

此次BitCPM的另一个重要突破在于其国产算力属性。此前,极低比特模型训练主要依赖英伟达CUDA生态进行算法验证,而BitCPM则从量化算子、训练算法到全链路框架均在华为昇腾原生环境中完成,实现了真正的国产化。李宇轩告诉徽声在线记者,适配国产算力的主要挑战并不在于硬件本身,而在于软件生态的构建。面对编程环境的差异,面壁团队花费了大约一个月的时间才打通底层软件栈。他认为,这次突破证明了国产芯片有能力承载复杂的低比特预训练算法,实现国产模型、框架与芯片的协同发展。

点击展开全文
你关注的
微信电脑端重大更新:可滚动截长图与支持发语音功能上线微信电脑端重大更新:可滚动截长图与支持发语音功能上线 上海布局太空算力新赛道,全球首颗光计算卫星研制正式启动上海布局太空算力新赛道,全球首颗光计算卫星研制正式启动 全球最大比特币资管公司战略转向:或启动大规模抛售计划全球最大比特币资管公司战略转向:或启动大规模抛售计划
相关文章
存储成本攀升之际,面壁智能1.58-bit模型能否破解“显存焦虑”难题?存储成本攀升之际,面壁智能1.58-bit模型能否破解“显存焦虑”难题? 华为发布半导体新定律,时间缩微引领未来,中国首提产业发展新原则华为发布半导体新定律,时间缩微引领未来,中国首提产业发展新原则 华为秋季将推新一代麒麟芯片,性能飞跃引期待华为秋季将推新一代麒麟芯片,性能飞跃引期待 华为携手航天能源 共绘能源科技合作新蓝图华为携手航天能源 共绘能源科技合作新蓝图 华为发布半导体韬定律,引领行业新方向华为发布半导体韬定律,引领行业新方向 全球AI大模型周调用量持续攀升,创新发展动力强劲全球AI大模型周调用量持续攀升,创新发展动力强劲