音乐引领舞蹈新纪元：清华大学Lodge项目打破短时生成瓶颈！

能够在给定音乐条件下生成极长舞蹈序列的网络。

原标题：音乐驱动长序列舞蹈生成新突破！清华大学提出Lodge，解决短时难题 | 一作李镕辉博士主讲预告
文章来源：智猩猩GenAI
内容字数：2625字

1. 引言

近年来，生成式人工智能技术的快速发展为短时舞蹈生成提供了新的可能性。然而，实际舞蹈表演的时长往往超过短时段，社交舞持续3至5分钟，舞蹈剧可能长达15分钟以上。这使得现有技术在生成高质量长序列舞蹈动作时面临显著挑战。如何在细节和全局结构之间取得平衡，成为一个亟待解决的核心问题。

2. Lodge的提出

清华大学在读博士李镕辉提出了Lodge，一个能够在音乐条件下生成极长舞蹈序列的网络。Lodge采用两阶段粗到细的扩散架构，引入具有表现力的特征舞蹈原语，作为连接两个扩散模型的中间表示。这一设计有效平衡了全局编舞模式与局部动作的质量与表现力，为极长舞蹈序列的生成提供了新的解决方案。

3. 两阶段扩散架构

Lodge通过全局扩散和局部扩散两个阶段实现长舞蹈序列生成。全局扩散阶段利用Transformer网络从音乐中提取节奏和结构信息，生成稀疏的特征舞蹈原语（8帧关键动作），以捕捉全局编排模式。这些原语的表达性和语义丰富性为后续局部扩散提供了关键指导。

在局部扩散阶段，框架以舞蹈原语为引导，生成细节丰富的短舞蹈片段，确保片段之间的连续性和表现力。硬提示原语用于片段连接，而软提示原语则提升动作的质量与多样性，最终生成兼具全局编排和局部细节的高质量长舞蹈序列。

4. 实验与结果

Lodge在FineDance和AIST++数据集上进行了实验。FineDance的数据集平均舞蹈时长152.3秒，远高于AIST++的13.3秒，成为主要的训练和测试数据集。实验结果显示，Lodge在用户研究和标准指标的评估中取得了最先进的结果，生成的样本能够并行生成符合编舞规则的舞蹈，同时保留局部细节和物理真实感。

得益于Lodge的并行生成架构，即使生成更长的舞蹈序列，推理时间也不会显著增加。

5. 讲座信息与研究方向

李镕辉将于12月17日19:00参与智猩猩AI新青年讲座，主题为《音乐驱动的高质量长序列舞蹈生成》。他目前是清华大学博士生，研究方向包括人体动作建模与生成、AI编舞、数字人交互等，已在多个国际会议和期刊上发表论文。

感兴趣的朋友可通过添加小助手“米娅”进行报名参加，直播将为观众提供更深入的理解与交流机会。

联系作者

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下公众号之一，深入关注大模型与AI智能体，及时搜罗生成式AI技术产品。

阅读原文

# AIGC动态 # 人工智能 # 清华大学 # 短时难题 # 长序列生成 # 音乐驱动舞蹈

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

音乐引领舞蹈新纪元：清华大学Lodge项目打破短时生成瓶颈！

能够在给定音乐条件下生成极长舞蹈序列的网络。

1. 引言

2. Lodge的提出

3. 两阶段扩散架构

4. 实验与结果

5. 讲座信息与研究方向

联系作者

《AI安全指数首揭晓：国内企业崭露头角，高分仅C分引发热议！》

Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点