Nova Sonic

AI工具1年前 (2025)更新 AI工具集

Nova Sonic – 亚马逊推出的新型生成式 AI 语音模型

Nova Sonic

Nova Sonic 是亚马逊推出的一款先进生成式 AI 语音模型，旨在将语音理解与生成能力完美结合。该模型能够根据说话者的语调和风格等声学上下文，灵活地调整语音响应，使对话更显自然。Nova Sonic 目前支持多种语言，尤其在美国英语和英国英语的语音理解上表现卓越，支持多样的说话风格和口音。

Nova Sonic是什么

Nova Sonic 是亚马逊推出的一款新型生成式 AI 语音模型。它将语音理解和生成能力融合于一体，能够根据说话者的语调与风格等声学背景，生成更自然的语音回应。该模型支持多语言，尤其在美国英语和英国英语的语音理解方面表现突出，平均单词错误率低至4.2%。在多语言 LibriSpeech 基准测试中，Nova Sonic 的表现优于 OpenAI 的 GPT-4o-transcribe 模型。

Nova Sonic的主要功能

原生语音处理：高效处理语音输入，生成流畅自然的语音输出，提升用户交互体验。
高准确性：凭借 HiFi 语音识别技术，即使在嘈杂环境或发音不清晰的情况下，也能准确理解用户意图。在多语言 LibriSpeech 基准测试中，英语、法语、意大利语、德语和西班牙语的平均单词错误率仅为 4.2%。
自然对话能力：能够捕捉说话者的停顿和打断，在合适时机进行回应，使对话更加流畅自然。
实时信息获取：智能判断何时从互联网获取实时信息，为用户提供最佳解决方案。
强大的请求路由能力：根据上下文信息，将用户请求灵活路由到不同的 API，调用互联网信息、解析专有数据源或在外部应用中执行操作。
文本记录生成：能够将用户的语音转换为文本记录，开发者可将这些文本应用于多种场景。
低延迟与高性价比：平均感知延迟仅为 1.09 秒，比 OpenAI 的 GPT-4o 模型更快，价格比 GPT-4o 低约 80%，是市场上具有极高性价比的 AI 语音模型之一。
多语言与风格支持：目前支持美国英语和英国英语的多种说话风格与口音，未来计划扩展对更多语言和口音的支持。

Nova Sonic的技术原理

高精度语音识别：Nova Sonic 采用 HiFi 语音识别技术，能够在嘈杂环境或用户发音不清晰的情况下，准确理解用户的意图。在多语言 LibriSpeech 基准测试中，Nova Sonic 在英语、法语、意大利语、德语和西班牙语上的平均单词错误率（WER）仅为 4.2%，远超其他竞争产品。
双向流式 API：通过亚马逊的 Bedrock 开发者平台提供服务，Nova Sonic 采用创新的双向流式 API 接口，实现音频输入与输出的实时双向流式传输，确保对话的流畅性。