谷歌Gemini API推出分级计费体系 弹性算力最高享五折优惠
2026-04-03 15:05:38未知 作者:徽声在线
据徽声在线4月3日消息,谷歌公司近期针对其Gemini API的计费体系进行了全面升级,此次调整以用户实际推理计算需求为核心,推出更为精细化的服务分级策略。新上线的服务套餐包含五大类型:标准版(Standard)、弹性版(Flex)、优先版(Priority)、批量处理版(Batch)以及智能缓存版(Caching)。其中弹性推理服务通过动态调配非高峰时段的闲置算力资源,实现标准价格50%的优惠力度,虽然目标响应时延设定在1-15分钟区间,但官方明确表示不承诺具体延迟保障。批量处理API同样享有半价优惠,其最长处理周期可扩展至24小时,特别适合非实时性大规模计算任务。智能缓存服务采用创新计费模式,根据缓存的Token数量及存储时长综合计费,该方案尤其适用于搭载复杂指令系统的对话式AI、长视频内容的重复解析,以及海量文档库的智能检索等场景。在高端服务方面,优先档位虽然定价较标准版上浮75%-100%,但能确保毫秒至秒级的超低延迟,谷歌技术团队建议将其应用于实时客服系统、金融欺诈实时监测,以及企业级核心业务智能助手等对响应速度要求严苛的场景。
