Meta重磅发布7B-Spirit LM:开创音频与文本融合的新纪元!

AIGC动态3个月前发布 新智元
2 0 0

Meta重磅发布7B-Spirit LM:开创音频与文本融合的新纪元!

原标题:首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
文章来源:新智元
内容字数:6750字

Meta开源Spirit LM:多模态语言模型的创新

Meta近日发布了一个新的多模态语言模型——Spirit LM,具有7B参数的结构,能够同时理解和生成语音及文本。这一模型的目的是为了实现文本与语音之间的自然转换,不仅能够处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。

1. 背景与需求

随着纯文本大模型的不断进步,语音与文本结合的语言模型(SpeechLMs)逐渐成为研究热点。然而,现有模型在训练时通常只侧重于单一模态,导致其在其他任务上的泛化能力有限。传统流程中,通常需要经过ASR、文本模型和TTS三步,效率低且表达性不足。

2. Spirit LM的架构与训练方法

Spirit LM通过交错使用文本和语音数据进行训练,形成了一种新型的token流。其训练数据包括文本序列、语音序列及交错的语音-文本序列。这一模型的基础版使用HuBERT语音编码器,而表达版则额外引入音高和风格token,提升生成语音的表现力。

3. 表达能力的增强

表达版的Spirit LM在生成语音时,能够更好地捕捉情感和风格。这一过程依赖于音高token和风格token的使用,使得模型不仅能理解基本语音,还能生成更具表现力的内容。研究表明,音高变化对语义理解至关重要,而风格特征则有助于提升表达效果。

4. 性能评估与应用

Spirit LM在多项任务中显示出优越的性能,尤其在支持少量样本提示时,能够实现自动语音识别(ASR)和文本转语音(TTS)的良好效果。实验结果显示,在Librispeech数据集上取得了21.9的词错误率和45.5的字符错误率,展现了其强大的跨模态处理能力。

5. 未来展望与挑战

尽管Spirit LM在多模态生成方面表现出色,但仍需进行安全测试和内容调整,以避免生成不安全的内容。研究人员认为,进一步提升模型对情感表达的理解与生成能力仍然是未来的研究重点。

总之,Meta的Spirit LM为多模态语言模型的发展提供了新的思路,展示了在语音与文本生成领域的广阔前景。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...