李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

AIGC动态4个月前发布 机器之心
318 0 0

造出指令遵循能力卓越的多模态语言模型。

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

原标题:李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
文章来源:机器之心
内容字数:7982字

斯坦福大学研发多模态语言模型,实现富有表现力的动作生成与理解

近日,斯坦福大学李飞飞团队提出了一种全新的多模态语言模型,能够实现富有表现力的3D人体动作生成和理解。该模型能够同时接受音频和文本输入,生成与语音内容协调一致的动作,并支持动作编辑。

1. 研究背景与动机

人类沟通交流包含丰富的多模态信息,理解和生类动作需要理解这些多模态行为。该研究利用多模态语言模型,将语音、文本和动作生成任务统一在一个框架下,以实现更自然、更富有表现力的动作生成。

2. 模型架构与训练方法

该模型将动作分解为不同身体部位(脸、手、上身、下身)的token,并结合文本和语音token,构建统一的多模态词汇表。采用两阶段训练流程:首先进行预训练,对齐不同模态的信息;然后进行下游任务训练,使模型遵循各种任务指令。

预训练阶段包含两种模态对齐:组合动作对齐(建模不同身体部位间的空间和时间关系)和音频-文本对齐(利用大量可用的音频-文本数据)。后训练阶段则通过指令微调,使模型能够执行各种下游任务,例如伴语手势生成和文本到动作生成。

3. 实验结果与分析

实验结果表明,该模型在伴语手势生成任务上优于现有SOTA模型,尤其在数据稀缺的情况下优势更明显。模型能够生成与语音同步的自然手势动作,并能根据文本指令编辑动作序列。

实验还验证了预训练策略的重要性。移除任何一个预训练任务都会导致性能下降,表明组合动作对齐和音频-文本对齐对模型性能至关重要。在数据量减少的情况下,该模型仍然表现出优异的泛化能力。

此外,模型还展现了根据动作预测情绪的能力,在该任务上也取得了显著的成果,优于基线模型。

4. 模型应用与未来展望

该模型可以应用于游戏、VR等领域,实现更逼真、更自然的人机交互。其可编辑动作生成能力也为动作捕捉和动画制作提供了新的可能性。这项研究为李飞飞的“空间智能”目标做出了重要贡献。

总而言之,该研究提出了一种新颖的多模态语言模型,有效地统一了3D人体动作的言语和非言语语言,并在动作生成和理解方面取得了显著进展,为未来多模态交互研究提供了新的方向。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...