OpenAI首次官宣语音项目，配音演员警报拉响

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：OpenAI首次官宣语音项目，配音演员警报拉响
关键字：音频,语音,声音,美元,样本
文章来源：机器之心
内容字数：2730字

内容摘要：

机器之心报道
编辑：陈萍文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。今天，OpenAI 在语音领域又带给我们一点点震撼，通过文本输入以及一段 15 秒的音频示例，可以生成既自然又与原声极为接近的语音。值得注意的是，即使是小模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声音。
OpenAI 将这个语音引擎命名为 Voice Engine，首次开发时间是 2022 年末，今天是 Voice Engine 预览版的首次亮相。下面为该语音引擎的一些早期示例，例如可以帮助用户翻译视频和播客等内容，输入一段原始音频：
Voice Engine 可以翻译成西班牙语：
还能翻译成中文：
以及日语：
Voice Engine 为有语言障碍的人合成相似的声音，使得用户在每种口语中保持声音一致：
输入参考音频：
生成的音频（英语）：
生成的音频（葡萄牙语）：
又比如，帮助患有突发性或退化性言语病症的患者说话。
原始声音：
参考声音：
生成的音频：
令人惊讶的是，Voice Engine 并未根据用户数据进行训练或微调，而是通过一个扩散过程和 transformer

原文链接：OpenAI首次官宣语音项目，配音演员警报拉响