能够在给定音乐条件下生成极长舞蹈序列的网络。
原标题:音乐驱动长序列舞蹈生成新突破!清华大学提出Lodge,解决短时难题 | 一作李镕辉博士主讲预告
文章来源:智猩猩GenAI
内容字数:2625字
1. 引言
近年来,生成式人工智能技术的快速发展为短时舞蹈生成提供了新的可能性。然而,实际舞蹈表演的时长往往超过短时段,社交舞持续3至5分钟,舞蹈剧可能长达15分钟以上。这使得现有技术在生成高质量长序列舞蹈动作时面临显著挑战。如何在细节和全局结构之间取得平衡,成为一个亟待解决的核心问题。
2. Lodge的提出
清华大学在读博士李镕辉提出了Lodge,一个能够在音乐条件下生成极长舞蹈序列的网络。Lodge采用两阶段粗到细的扩散架构,引入具有表现力的特征舞蹈原语,作为连接两个扩散模型的中间表示。这一设计有效平衡了全局编舞模式与局部动作的质量与表现力,为极长舞蹈序列的生成提供了新的解决方案。
3. 两阶段扩散架构
Lodge通过全局扩散和局部扩散两个阶段实现长舞蹈序列生成。全局扩散阶段利用Transformer网络从音乐中提取节奏和结构信息,生成稀疏的特征舞蹈原语(8帧关键动作),以捕捉全局编排模式。这些原语的表达性和语义丰富性为后续局部扩散提供了关键指导。
在局部扩散阶段,框架以舞蹈原语为引导,生成细节丰富的短舞蹈片段,确保片段之间的连续性和表现力。硬提示原语用于片段连接,而软提示原语则提升动作的质量与多样性,最终生成兼具全局编排和局部细节的高质量长舞蹈序列。
4. 实验与结果
Lodge在FineDance和AIST++数据集上进行了实验。FineDance的数据集平均舞蹈时长152.3秒,远高于AIST++的13.3秒,成为主要的训练和测试数据集。实验结果显示,Lodge在用户研究和标准指标的评估中取得了最先进的结果,生成的样本能够并行生成符合编舞规则的舞蹈,同时保留局部细节和物理真实感。
得益于Lodge的并行生成架构,即使生成更长的舞蹈序列,推理时间也不会显著增加。
5. 讲座信息与研究方向
李镕辉将于12月17日19:00参与智猩猩AI新青年讲座,主题为《音乐驱动的高质量长序列舞蹈生成》。他目前是清华大学博士生,研究方向包括人体动作建模与生成、AI编舞、数字人交互等,已在多个国际会议和期刊上发表论文。
感兴趣的朋友可通过添加小助手“米娅”进行报名参加,直播将为观众提供更深入的理解与交流机会。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。