TANGO 是一款由东京大学和 CyberAgent AI Lab 联合开发的开源框架,致力于生成与目标语音完美同步的全身手势视频。借助分层音频嵌入技术和扩散插值网络,TANGO 能够将目标语音与参考视频库中的动作精准匹配,从而打造出高保真、动作同步的视频内容。这项技术的突破显著降低了视频制作成本,广泛应用于新闻播报、虚拟人解说及虚拟 YouTube 内容创作等领域,为用户提供了高效、经济的解决方案。
TANGO是什么
TANGO 是一个创新的开源框架,由东京大学与 CyberAgent AI Lab 共同推出,专注于生成与目标语音同步的全身手势视频。其核心技术包括分层音频嵌入和扩散插值网络,旨在确保生成的视频具有高保真度和自然流畅的动作表现。通过这一技术,用户能够在视频制作中实现高效与经济的双重目标,覆盖新闻播报、虚拟人解说及虚拟 YouTube 内容创作等多个领域。
TANGO的主要功能
- 全身手势生成:根据目标语音音频生成与之同步的全身手势视频。
- 高保真度视频制作:确保生成的视频画面清晰,动作自然且与语音内容精确对应。
- 音视频跨模态对齐:利用分层音频嵌入技术,实现音频信号与视频动作之间的精准匹配。
- 优质过渡帧生成:通过扩散插值网络生成高质量的过渡帧,确保视频中的动作流畅连贯。
- 保持外观一致性:在生成的视频中确保人物外观和背景与参考视频保持一致,避免视觉上的不协调。
TANGO的技术原理
- 分层音频嵌入(AuMoCLIP):利用隐式层次化的音频-动作联合嵌入,在编码音频和动作数据时进行对比学习,将二者映射到一个共同的潜在空间中,从而实现精准的动作检索。
- 扩散插值网络(ACInterp):基于现有的视频生成扩散模型,生成高质量的过渡帧,并通过参考模块和背景流保持生成视频与参考视频的外观一致性,有效消除模糊和重影等伪影。
- 动作图检索方法:采用学习驱动的方式,智能检索与目标语音音频匹配的动作路径,能更好地处理不同说话者的动作与音频不同步的情况。
- 图结构:通过有向图结构表示视频帧(节点)及其有效转换(边),系统提取时间特征以检索视频播放路径的子集,必要时利用ACInterp生成平滑的过渡帧。
TANGO的项目地址
- 项目官网:pantomatrix.github.io/TANGO
- arXiv技术论文:https://arxiv.org/pdf/2410.04221
- 在线体验Demo:https://huggingface.co/spaces/H-Liu1997/TANGO
TANGO的应用场景
- 新闻播报:生成与新闻内容同步的全身手势视频,提升播报的自然程度及观众的观看体验。
- 虚拟YouTuber:为虚拟YouTuber制作与语音同步的全身动作视频,增强与粉丝的互动感。
- 在线教育:在教育内容制作中,利用TANGO生成教师的全身手势视频,使远程教学更加生动有效。
- 企业培训:在企业培训视频中添加与讲解同步的手势,提升学习材料的吸引力和信息传递的效率。
- 视频会议:通过TANGO生成的手势视频提升视频会议中的交流体验,尤其在远程协作时更为显著。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...