TANGO 是一款由东京大学和 CyberAgent AI Lab 联合开发的开源框架,致力于生成与目标语音完美同步的全身手势视频。借助分层音频运动嵌入技术和扩散插值网络,TANGO 能够将目标语音与参考视频库中的动作精准匹配,从而打造出高保真、动作同步的视频内容。这项技术的突破显著降低了视频制作成本,广泛应用于新闻播报、虚拟人解说及虚拟 YouTube 内容创作等领域,为用户提供了高效、经济的解决方案。
TANGO是什么
TANGO 是一个创新的开源框架,由东京大学与 CyberAgent AI Lab 共同推出,专注于生成与目标语音同步的全身手势视频。其核心技术包括分层音频运动嵌入和扩散插值网络,旨在确保生成的视频具有高保真度和自然流畅的动作表现。通过这一技术,用户能够在视频制作中实现高效与经济的双重目标,覆盖新闻播报、虚拟人解说及虚拟 YouTube 内容创作等多个领域。
TANGO的主要功能
- 全身手势生成:根据目标语音音频生成与之同步的全身手势视频。
- 高保真度视频制作:确保生成的视频画面清晰,动作自然且与语音内容精确对应。
- 音视频跨模态对齐:利用分层音频运动嵌入技术,实现音频信号与视频动作之间的精准匹配。
- 优质过渡帧生成:通过扩散插值网络生成高质量的过渡帧,确保视频中的动作流畅连贯。
- 保持外观一致性:在生成的视频中确保人物外观和背景与参考视频保持一致,避免视觉上的不协调。
TANGO的技术原理
- 分层音频运动嵌入(AuMoCLIP):利用隐式层次化的音频-动作联合嵌入,在编码音频和动作数据时进行对比学习,将二者映射到一个共同的潜在空间中,从而实现精准的动作检索。
- 扩散插值网络(ACInterp):基于现有的视频生成扩散模型,生成高质量的过渡帧,并通过参考运动模块和背景流保持生成视频与参考视频的外观一致性,有效消除模糊和重影等伪影。
- 动作图检索方法:采用学习驱动的方式,智能检索与目标语音音频匹配的动作路径,能更好地处理不同说话者的动作与音频不同步的情况。
- 图结构:通过有向图结构表示视频帧(节点)及其有效转换(边),系统提取时间特征以检索视频播放路径的子集,必要时利用ACInterp生成平滑的过渡帧。
TANGO的项目地址
- 项目官网:pantomatrix.github.io/TANGO
- arXiv技术论文:https://arxiv.org/pdf/2410.04221
- 在线体验Demo:https://huggingface.co/spaces/H-Liu1997/TANGO
TANGO的应用场景
- 新闻播报:生成与新闻内容同步的全身手势视频,提升播报的自然程度及观众的观看体验。
- 虚拟YouTuber:为虚拟YouTuber制作与语音同步的全身动作视频,增强与粉丝的互动感。
- 在线教育:在教育内容制作中,利用TANGO生成教师的全身手势视频,使远程教学更加生动有效。
- 企业培训:在企业培训视频中添加与讲解同步的手势,提升学习材料的吸引力和信息传递的效率。
- 视频会议:通过TANGO生成的手势视频提升视频会议中的交流体验,尤其在远程协作时更为显著。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...