Motion Anything

Motion Anything – 腾讯联合京东等高校推出的多模态生成框架

Motion Anything是什么

Motion Anything 是一个由澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学和京东等机构共同开发的多模态生成框架。它能够根据文本、音乐或二者的结合，生成高质量且可控的人类。该框架采用基于注意力机制的掩码建模方法，使得对序列中的关键帧和动作可以进行细致的调控，从而有效解决了现有技术在根据条件优先生成动态内容方面的不足。此外，Motion Anything还利用时间自适应和空间对齐的变换器，优化了多种模态条件的整合，提高了生成的连贯性与多样性。同时，Motion Anything推出了Text-Music-Dance () 数据集，包含2153对文本、音乐和舞蹈样本，为多模态生成的研究提供了新的基准。

Motion Anything

Motion Anything的主要功能

多模态生成：基于文本描述、音乐或其组合，生成高质量的人类。
细致控制：通过注意力机制，实现对关键帧和动作的精细调控，达到更精准的生成效果。
动态优先级调整：根据输入的条件（如文本或音乐），动态调整生成的优先级，优先生成与条件相关性最高的动态帧和身体部位。
跨模态对齐：在时间和空间维度上对文本、音乐和进行有效对齐，从而提升生成的一致性和连贯性。

Motion Anything的技术原理

基于注意力的掩码建模：利用注意力机制选择与输入条件（文本或音乐）最相关的部分进行掩码处理。在生成过程中，模型优先恢复被掩码的关键帧和动作，聚焦于动态内容的生成。
时间自适应变换器：根据输入模态（文本、音乐或两者结合），动态调整注意力的计算方式，使的关键帧与文本关键词或音乐节拍进行对齐，增强时间维度的连贯性。
空间对齐变换器：对条件和嵌入进行重新排列，以揭示空间维度。恢复被掩码的关键动作，确保与条件在空间上保持一致性。
多模态条件编码：对文本、音乐等多种模态条件进行同时处理，利用自适应编码器将不同模态的信息整合到生成中，提高生成效果。
数据集支持：推出新的Text-Music-Dance () 数据集，包含2153对文本、音乐和舞蹈样本，为多模态生成提供了丰富的数据支持。