小米MiMo-V2.5推理系统全链路优化揭秘,API价格大幅下调
2026-05-31 11:40:31未知 作者:徽声在线
在5月30日这一天,小米公司正式对外披露了其MiMo-V2.5系列模型推理系统的全链路优化技术细节。据小米官方透露,该团队基于Hybrid SWA+MoE+多模态的复合架构,对推理系统进行了全面而深入的革新。这一革新涵盖了从KVCache管理、分级缓存策略、前缀缓存优化,到调度策略与Prefill/Decode链路的整个推理栈。经过优化,KVCache的存储空间被压缩至同级别方案的约七分之一,特别是在处理长序列场景时,推理成本实现了显著降低,这无疑为本次MiMo-V2.5系列API价格的大幅下调奠定了坚实的技术基石。值得一提的是,就在5月27日,MiMo-V2.5系列API已经完成了永久性的价格调整,最高降幅高达99%,且这一优惠不区分输入长度,为广大用户带来了实实在在的福利。


