xAI开放Grok语音技术API 推动AI语音交互革新
2026-04-18 09:05:07未知 作者:徽声在线
北京时间4月17日晚间消息,人工智能创新企业xAI正式对外发布了Grok平台的两项核心语音技术API——语音转文本(Speech-to-Text, STT)与文本转语音(Text-to-Speech, TTS)。此次技术升级聚焦于通过深度学习模型实现更精准的语音识别与更自然的语音合成效果,开发者可借此在智能客服、语音助手、教育互动等场景中构建低延迟、高保真的实时语音交互系统。
据官方技术文档披露,Grok的STT API支持超过80种语言的实时转录,在嘈杂环境下的识别准确率较前代提升37%,同时将端到端延迟控制在200毫秒以内。TTS方面则采用新一代神经网络声码器,可生成包含情感起伏的拟人化语音,并支持自定义音色克隆功能。目前该API已开放企业级开发者申请测试,提供每分钟免费调用额度的阶梯式定价方案。

