前DeepMind大佬创业,做出喜怒哀乐以假乱真的AI语音大模型

AIGC动态1个月前发布 智东西
258 0 0

未来又该如何分辨是AI还是真人在说话?

前DeepMind大佬创业,做出喜怒哀乐以假乱真的AI语音大模型

原标题:前DeepMind大佬创业,做出喜怒哀乐以假乱真的AI语音大模型
文章来源:智东西
内容字数:6886字

Hume AI发布新型AI语音模型Octave:更人性化、更具情感

美国情感智能技术AI创企Hume AI近日发布了新款文生语音大模型Octave,旨在生成更人性化、更具情感色彩的AI语音。与以往AI语音生硬、缺乏情感的缺点相比,Octave的突破性进展在于其能够理解上下文,并预测适当的情绪、节奏、韵律和重音,使其听起来更像人类的声音。

1. Octave的核心功能与优势

Octave拥有四大核心功能:语音生成、语音设计、表演指令和语音克隆(即将上线)。它能够根据简单的提示词或复杂的剧本生成带有特定人设和情感的语音,甚至能将多种情感交织在一起。 Octave不仅理解单个句子的情感,还能捕捉上下文中的情感联系,使其表达更丰富、更细节。 此外,它还能根据指令进行二次创作,例如调整语气和语调。

在与ElevenLabs的对比测试中,Octave在音质、自然度和提示词匹配度方面均优于对手,表明其在AI语音生成领域的领先地位。其训练数据量是传统模型的1000倍,包含数百万小时的公开和独家语音、视频数据。

2. Octave的应用场景和商业模式

Octave适用于有声读物、播客、视频画外音和视频游戏角色配音等需要预先制作语音的场景。目前,Octave主要支持英语和西班牙语,未来将支持更多语种。Hume AI采用订阅制收费模式,提供免费版和不同等级的付费版本,满足不同用户的需求,付费版本提供更长的使用时长和更多的字符限制。

3. Octave的技术细节和开发者支持

Octave现已在Hume AI的开发者平台上线,开发者可以使用Python和TypeScript SDK访问该模型。平台提供超过40种预设语音,并支持MP3、WAV和PCM音频格式。 开发者平台设置了API使用限制,例如每分钟请求次数和文本长度上限。

4. Octave对AI语音产业的意义

Octave的出现标志着AI语音技术的一次重大飞跃,其更类人化的语音生成能力将有望应用于数字人、影视、游戏等多个领域,推动人机交互体验的提升,并加速AI语音技术的商业化落地。 它解决了长期以来AI语音机械、缺乏情感的痛点,使得人机语音交互更自然流畅。


联系作者

文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...