谷歌发布TurboQuant算法,AI内存占用或大幅缩减
2026-03-27 14:36:10未知 作者:徽声在线
据徽声在线3月26日消息,科技巨头谷歌近期宣布推出一项革新性的压缩算法——TurboQuant,该算法有望显著降低人工智能系统对内存的依赖。谷歌方面透露,TurboQuant压缩技术的主要目标是减少大语言模型以及向量搜索引擎在运行过程中所需的内存空间。这一创新算法特别针对了AI系统中一个关键的瓶颈问题,即用于存储高频访问数据的键值缓存(key-value cache)。随着AI模型处理上下文窗口的不断扩大,这些缓存所占用的内存资源日益成为制约系统性能的主要因素。
TurboQuant算法的独特之处在于,它能够在不重新训练或微调现有AI模型的前提下,将键值缓存的数据压缩至仅3bit的精度级别,而这一过程几乎不会对模型的准确率产生任何负面影响。通过对包括Gemma、Mistral等在内的多款开源模型进行测试,结果显示TurboQuant技术能够实现高达约6倍的键值缓存内存压缩效果,这对于提升AI系统的运行效率和降低成本具有重要意义。
不仅如此,在英伟达H100加速器的测试环境中,TurboQuant算法更是展现出了惊人的性能提升。与未经过量化的键向量相比,该算法最高可实现约8倍的性能提升,这无疑为AI应用的加速和扩展提供了强有力的支持。研究人员还指出,TurboQuant技术的应用范围并不仅限于AI模型领域,它同样适用于提升大规模搜索引擎的向量检索能力,从而进一步拓宽了其应用前景。
据悉,谷歌计划在即将到来的2026年国际学习表征会议(ICLR 2026)上,全面展示TurboQuant技术的详细信息和实际应用案例,届时这一创新算法有望引发业界更广泛的关注和讨论。
谷歌发布TurboQuant压缩算法,引领AI内存优化新潮流