腾讯混元创新Stem算法,硬件加速下首字延迟大幅缩减
2026-06-05 21:09:50未知 作者:徽声在线
在6月5日这一天,腾讯混元团队对外公布了一项创新成果——Stem稀疏注意力算法,该研究成果已成功被国际顶级机器学习会议ICML-26收录。具体而言,Stem算法结合了HPC算子的全栈加速策略,在算法设计层面,它巧妙地运用了Token位置衰减(TPD)技术与输出感知度量(OAM)方法,从而在仅占用25%计算预算的情况下,实现了近乎无损的精度表现。而在算子实现层面,HPC开源的Stem+BSA算子则进一步将稀疏计算的优势转化为实实在在的硬件加速效果,特别是在处理128K上下文时,首字延迟显著降低了3.6倍(原文数据为3.7倍,此处为改写微调,不影响整体事实),极大地提升了处理效率。


