Tora是一款由阿里巴巴推出的先进AI视频生成框架,它利用轨迹导向的扩散变换器(DiT)技术,将文本、视觉信息和运动轨迹相结合,创造出高质量且符合现实物理动态的视频内容。该产品包括轨迹提取器、时空DiT以及运动引导融合器,能够精确掌控视频的动态表现,支持生成最长达204帧、720p分辨率的视频。这一技术在运动真实感和模拟现实物理动态方面表现卓越,为视频制作行业带来了新的强大工具。

Tora是什么

Tora是阿里巴巴推出的一款AI视频生成框架,通过轨迹导向的扩散变换器(DiT)技术,将文本、视觉信息和轨迹条件整合在一起,生成高品质且符合物理规律的视频内容。Tora由轨迹提取器、时空DiT和运动引导融合器三部分组成,能够精确控制视频中的动态表现,支持长达204帧的720p高清制作。Tora在运动表现的真实感和模拟现实动态方面具有显著优势,为视频生成领域提供了强大的新工具。

Tora

Tora的主要功能

简单来说,Tora能够根据用户提供的指令(如文字描述、图片或物体移动的路径),生成真实且流畅的视频内容。

  • 轨迹提取器(Trajectory Extractor, TE):将输入的轨迹转化为层次化的时空运动块,这些运动块与视频内容的潜在空间相匹配。
  • 时空扩散变换器(Spatial-Temporal DiT):结合空间和时间的自注意力机制,处理视频数据,使模型能够理解和生成连贯的运动视频。
  • 运动引导融合器(Motion-guidance Fuser, MGF):负责将轨迹提取器生成的时空运动块整合到DiT模型中,确保生成的视频内容遵循预定的轨迹和动态。

Tora的技术原理

  • 轨迹理解:Tora利用“轨迹提取器”工具,能够理解给定的轨迹信息。如同提供一张地图,指引视频中物体应在何处及如何移动。
  • 时空编码:Tora将这些轨迹信息转化为特殊编码,称为“时空运动块”,它们如同视频的骨架,决定视频中物体的运动方式。
  • 视频生成框架:Tora采用了先进的“扩散变换器”(DiT)技术,结合扩散模型与变换器的优点,使其能够生成高质量的视频。
  • 动态融合:Tora的“运动引导融合器”将时空运动块与视频内容相结合,确保生成的视频不仅画面美观,且物体运动自然流畅。
  • 两阶段训练:为提升对运动的理解和生成能力,Tora通过两阶段训练,学习从密集光流中提取运动信息,并根据用户提供的简单轨迹信息生成视频。
  • 数据预处理:在训练前,Tora需对视频数据进行处理,将长视频根据场景检测分割为短片段,并根据美学评分与运动分割结果选择训练视频片段。

Tora

Tora的项目地址

Tora的应用场景

  • 影视制作:Tora可用于生成电影、电视剧或短片中的特效场景,通过轨迹控制生成复杂的动态画面,从而节省拍摄成本和时间。
  • 动画创作:在动画领域,Tora可以根据脚本自动生成动画序列,为动画师提供初步动态草图,加速创作进程。
  • 虚拟现实(VR)和增强现实(AR):Tora可生成与用户互动的动态环境,为VR和AR应用提供逼真的视觉效果。
  • 游戏开发:在电子游戏开发中,Tora可以迅速生成游戏环境和角色动画,提高游戏设计的效率。

常见问题

  • Tora支持哪些格式的视频生成? Tora支持720p分辨率的视频生成,最长可达204帧。
  • 如何获取Tora的使用指南? 使用指南可在Tora的官网和GitHub仓库中找到。
  • Tora的适用范围有哪些? Tora适用于影视制作、动画创作、VR/AR应用以及游戏开发等多个领域。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...