15 秒音频即可“复制”原声！但OpenAI 担心新语音模型被滥用而限制发行

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：15 秒音频即可“复制”原声！但OpenAI 担心新语音模型被滥用而限制发行
关键字：政策,报告,小米,音频,模型
文章来源：AI前线
内容字数：5234字

内容摘要：

整理 | 傅宇琪
3 月 30 日，OpenAI 在官网首次展示了名为“ Voice Engine ”的语音生成模型，该模型能够通过文本输入和仅仅 15 秒的音频样本生成与原始说话者声音高度相似、充满情感且逼真的自然语言语音。据悉，OpenAI 于 2022 年末首次开发出 Voice Engine，并已将其应用于其文本转语音 API 以及 ChatGPT 语音和朗读功能中的预设语音。
这项技术的问世，显然将对那些经常录制自己语音的人产生重大影响，包括播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业。
不过目前，这项技术仅在小范围内提供，拥有访问权限的公司包括：教育技术公司 Age of Learning、视觉叙事平台 HeyGen、一线健康软件制造商 Dimagi、AI 通信应用程序创建者 Livox 和卫生系统 Lifespan。OpenAI 在其博客文章中表示：“这些小规模部署有助于为我们的方法、保障措施提供信息，并思考语音引擎如何在各个行业中发挥作用。”
官网文章中，OpenAI 也展示了 Voice Engine 的使用

原文链接：15 秒音频即可“复制”原声！但OpenAI 担心新语音模型被滥用而限制发行