亚马逊推出了新一代生成式AI语音模型Nova Sonic,在人工智能语音领域取得了重大突破。这款模型能够处理语音输入并生成自然流畅的语音输出,其速度、语音识别准确率和对话质量等核心性能指标已达到与OpenAI、谷歌等科技巨头尖端语音模型相媲美的水平。
Nova Sonic通过亚马逊Bedrock开发者平台提供服务,采用创新的双向流式API接口,为企业级AI应用开发提供了强大支持。该模型在成本效益方面具有显著优势,价格比OpenAI的GPT-4便宜约80%,成为市场上最具性价比的AI语音解决方案之一。
相比竞争对手,Nova Sonic在将用户请求路由到不同API方面表现出色。它能够判断何时需要从互联网获取实时信息、解析专有数据源或在外部应用程序中采取行动,并使用合适的工具完成任务。在双向对话中,Nova Sonic会等待合适的时机发言,考虑到说话者的停顿和打断等情况。此外,该模型还能为用户的语音生成文本记录,这些文本可以用于各种应用场景。
亚马逊AGI部门首席科学家罗希特·普拉萨德透露,Nova Sonic的部分技术已经应用于升级版数字助手Alexa+。该模型的推出是亚马逊构建人工通用智能(AGI)战略的重要一步,未来还将推出支持多模态理解的AI模型,涵盖图像、视频及其他物理世界感知数据。