Tora – 阿里推出的AI视频生成框架

Tora是一款由阿里巴巴推出的先进AI视频生成框架，它利用轨迹导向的扩散变换器（DiT）技术，将文本、视觉信息和运动轨迹相结合，创造出高质量且符合现实物理动态的视频内容。该产品包括轨迹提取器、时空DiT以及运动引导融合器，能够精确掌控视频的动态表现，支持生成最长达204帧、720p分辨率的视频。这一技术在运动真实感和模拟现实物理动态方面表现卓越，为视频制作行业带来了新的强大工具。

Tora是什么

Tora是阿里巴巴推出的一款AI视频生成框架，通过轨迹导向的扩散变换器（DiT）技术，将文本、视觉信息和轨迹条件整合在一起，生成高品质且符合物理规律的视频内容。Tora由轨迹提取器、时空DiT和运动引导融合器三部分组成，能够精确控制视频中的动态表现，支持长达204帧的720p高清制作。Tora在运动表现的真实感和模拟现实动态方面具有显著优势，为视频生成领域提供了强大的新工具。

Tora - 阿里推出的AI视频生成框架

Tora的主要功能

简单来说，Tora能够根据用户提供的指令（如文字描述、图片或物体移动的路径），生成真实且流畅的视频内容。

轨迹提取器（Trajectory Extractor， TE）：将输入的轨迹转化为层次化的时空运动块，这些运动块与视频内容的潜在空间相匹配。
时空扩散变换器（Spatial-Temporal DiT）：结合空间和时间的自注意力机制，处理视频数据，使模型能够理解和生成连贯的运动视频。
运动引导融合器（Motion-guidance Fuser， MGF）：负责将轨迹提取器生成的时空运动块整合到DiT模型中，确保生成的视频内容遵循预定的轨迹和动态。

Tora的技术原理

轨迹理解：Tora利用“轨迹提取器”工具，能够理解给定的轨迹信息。如同提供一张地图，指引视频中物体应在何处及如何移动。
时空编码：Tora将这些轨迹信息转化为特殊编码，称为“时空运动块”，它们如同视频的骨架，决定视频中物体的运动方式。
视频生成框架：Tora采用了先进的“扩散变换器”（DiT）技术，结合扩散模型与变换器的优点，使其能够生成高质量的视频。
动态融合：Tora的“运动引导融合器”将时空运动块与视频内容相结合，确保生成的视频不仅画面美观，且物体运动自然流畅。
两阶段训练：为提升对运动的理解和生成能力，Tora通过两阶段训练，学习从密集光流中提取运动信息，并根据用户提供的简单轨迹信息生成视频。
数据预处理：在训练前，Tora需对视频数据进行处理，将长视频根据场景检测分割为短片段，并根据美学评分与运动分割结果选择训练视频片段。

Tora - 阿里推出的AI视频生成框架

Tora的项目地址

项目官网：https://ali-videoai.github.io/tora_video/
GitHub仓库：https://github.com/ali-videoai/Tora
arXiv技术论文：https://arxiv.org/pdf/2407.21705

Tora的应用场景

影视制作：Tora可用于生成电影、电视剧或短片中的特效场景，通过轨迹控制生成复杂的动态画面，从而节省拍摄成本和时间。
动画创作：在动画领域，Tora可以根据脚本自动生成动画序列，为动画师提供初步动态草图，加速创作进程。
虚拟现实（VR）和增强现实（AR）：Tora可生成与用户互动的动态环境，为VR和AR应用提供逼真的视觉效果。
游戏开发：在电子游戏开发中，Tora可以迅速生成游戏环境和角色动画，提高游戏设计的效率。

常见问题

Tora支持哪些格式的视频生成？ Tora支持720p分辨率的视频生成，最长可达204帧。
如何获取Tora的使用指南？ 使用指南可在Tora的官网和GitHub仓库中找到。
Tora的适用范围有哪些？ Tora适用于影视制作、动画创作、VR/AR应用以及游戏开发等多个领域。

阅读原文

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Tora – 阿里推出的AI视频生成框架

Tora是什么

Tora的主要功能

Tora的技术原理

Tora的项目地址

Tora的应用场景

常见问题

Whisper-Medusa - aiOla推出的开源AI语音识别模型

Stable Fast 3D - Stability AI推出的AI新模型，0.5秒将图片转为3D

相关文章

暂无评论

Kimi Chat

ChatGPT

毕业论文生成器

AIGC热点