TANGO

AI工具1个月前发布 AI工具集
17 0 0

TANGO 是一款由东京大学和 CyberAgent AI Lab 联合开发的开源框架,致力于生成与目标语音完美同步的全身手势视频。借助分层音频嵌入技术和扩散插值网络,TANGO 能够将目标语音与参考视频库中的动作精准匹配,从而打造出高保真、动作同步的视频内容。这项技术的突破显著降低了视频制作成本,广泛应用于新闻播报、虚拟人解说及虚拟 YouTube 内容创作等领域,为用户提供了高效、经济的解决方案。

TANGO是什么

TANGO 是一个创新的开源框架,由东京大学与 CyberAgent AI Lab 共同推出,专注于生成与目标语音同步的全身手势视频。其核心技术包括分层音频嵌入和扩散插值网络,旨在确保生成的视频具有高保真度和自然流畅的动作表现。通过这一技术,用户能够在视频制作中实现高效与经济的双重目标,覆盖新闻播报、虚拟人解说及虚拟 YouTube 内容创作等多个领域。

TANGO

TANGO的主要功能

  • 全身手势生成:根据目标语音音频生成与之同步的全身手势视频。
  • 高保真度视频制作:确保生成的视频画面清晰,动作自然且与语音内容精确对应。
  • 音视频跨模态对齐:利用分层音频嵌入技术,实现音频信号与视频动作之间的精准匹配。
  • 优质过渡帧生成:通过扩散插值网络生成高质量的过渡帧,确保视频中的动作流畅连贯。
  • 保持外观一致性:在生成的视频中确保人物外观和背景与参考视频保持一致,避免视觉上的不协调。

TANGO的技术原理

  • 分层音频嵌入(AuMoCLIP):利用隐式层次化的音频-动作联合嵌入,在编码音频和动作数据时进行对比学习,将二者映射到一个共同的潜在空间中,从而实现精准的动作检索。
  • 扩散插值网络(ACInterp):基于现有的视频生成扩散模型,生成高质量的过渡帧,并通过参考模块和背景流保持生成视频与参考视频的外观一致性,有效消除模糊和重影等伪影。
  • 动作图检索方法:采用学习驱动的方式,智能检索与目标语音音频匹配的动作路径,能更好地处理不同说话者的动作与音频不同步的情况。
  • 图结构:通过有向图结构表示视频帧(节点)及其有效转换(边),系统提取时间特征以检索视频播放路径的子集,必要时利用ACInterp生成平滑的过渡帧。

TANGO的项目地址

TANGO的应用场景

  • 新闻播报:生成与新闻内容同步的全身手势视频,提升播报的自然程度及观众的观看体验。
  • 虚拟YouTuber:为虚拟YouTuber制作与语音同步的全身动作视频,增强与粉丝的互动感。
  • 在线教育:在教育内容制作中,利用TANGO生成教师的全身手势视频,使远程教学更加生动有效。
  • 企业培训:在企业培训视频中添加与讲解同步的手势,提升学习材料的吸引力和信息传递的效率。
  • 视频会议:通过TANGO生成的手势视频提升视频会议中的交流体验,尤其在远程协作时更为显著。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...