TANGO

TANGO 是一款由东京大学和 CyberAgent AI Lab 联合开发的开源框架，致力于生成与目标语音完美同步的全身手势视频。借助分层音频嵌入技术和扩散插值网络，TANGO 能够将目标语音与参考视频库中的动作精准匹配，从而打造出高保真、动作同步的视频内容。这项技术的突破显著降低了视频制作成本，广泛应用于新闻播报、虚拟人解说及虚拟 YouTube 内容创作等领域，为用户提供了高效、经济的解决方案。

TANGO是什么

TANGO 是一个创新的开源框架，由东京大学与 CyberAgent AI Lab 共同推出，专注于生成与目标语音同步的全身手势视频。其核心技术包括分层音频嵌入和扩散插值网络，旨在确保生成的视频具有高保真度和自然流畅的动作表现。通过这一技术，用户能够在视频制作中实现高效与经济的双重目标，覆盖新闻播报、虚拟人解说及虚拟 YouTube 内容创作等多个领域。

TANGO

TANGO的主要功能

全身手势生成：根据目标语音音频生成与之同步的全身手势视频。
高保真度视频制作：确保生成的视频画面清晰，动作自然且与语音内容精确对应。
音视频跨模态对齐：利用分层音频嵌入技术，实现音频信号与视频动作之间的精准匹配。
优质过渡帧生成：通过扩散插值网络生成高质量的过渡帧，确保视频中的动作流畅连贯。
保持外观一致性：在生成的视频中确保人物外观和背景与参考视频保持一致，避免视觉上的不协调。

TANGO的技术原理

分层音频嵌入（AuMoCLIP）：利用隐式层次化的音频-动作联合嵌入，在编码音频和动作数据时进行对比学习，将二者映射到一个共同的潜在空间中，从而实现精准的动作检索。
扩散插值网络（ACInterp）：基于现有的视频生成扩散模型，生成高质量的过渡帧，并通过参考模块和背景流保持生成视频与参考视频的外观一致性，有效消除模糊和重影等伪影。
动作图检索方法：采用学习驱动的方式，智能检索与目标语音音频匹配的动作路径，能更好地处理不同说话者的动作与音频不同步的情况。
图结构：通过有向图结构表示视频帧（节点）及其有效转换（边），系统提取时间特征以检索视频播放路径的子集，必要时利用ACInterp生成平滑的过渡帧。