造出指令遵循能力卓越的多模态语言模型。
探索多模态语言模型在动作生成中的应用
近期,斯坦福大学的研究团队在多模态语言模型的领域取得了重要进展,尤其是在语音、文本和动作生成任务的统一方面。他们提出了一种新型模型,能够同时接受音频和文本输入,生成对应的动作。这项研究对理解人类的多模态沟通至关重要,尤其是对李飞飞教授提出的“空间智能”目标的推动作用。
1. 多模态语言模型的构建
该团队的模型通过将动作转化为token实现多模态的结合,针对不同身体部位(如面部、上身、下身等)进行动作的token化。模型的训练流程分为两个阶段:首先进行预训练,通过身体组合动作对齐和音频-文本对齐来整合不同模态的数据,随后在下游任务中微调模型以遵循具体指令。
2. 预训练的重要性
实验结果表明,该模型在多模态任务中表现优越,尤其是在数据稀缺的情况下,预训练策略的优势更加明显。模型能够在未见过的语音-动作数据上展现出良好的泛化能力,证明了预训练对提升模型性能的关键作用。
3. 可编辑的动作生成
新模型的另一大亮点是其可编辑的动作生成能力。研究团队展示了模型如何根据音频和文本指令生成自然流畅的全身动作,这一技术在游戏和虚拟现实等应用中具有重要价值。同时,模型还展示了根据动作预测情绪的能力,进一步拓展了其应用场景。
4. 结论
该研究不仅为多模态语言模型的发展提供了新的视角,还为人类的动作理解与生成开辟了新的可能性。这一创新模型的成功应用,标志着在实现人机交互中的重要一步,未来有望在更广泛的领域中发挥作用。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...