阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律
关键字：轨迹,视频,架构,研究者,方法
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：陈陈、杜伟你规定路线，Tora 来生成相应轨迹的视频。目前，扩散模型能够生成多样化且高质量的图像或视频。此前，视频扩散模型采用 U-Net 架构，主要侧重于合成有限时长（通常约为两秒）的视频，并且分辨率和纵横比受到固定限制。
Sora 的出现打破了这一限制，其采用 Diffusion Transformer（DiT）架构，不仅擅长制作 10 到 60 秒的高质量视频，而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。
可以说 Sora 是 DiT 架构最有利的证明，然而，基于 Transformer 的扩散模型在有效生成可控动作视频方面还未被充分探索。
针对这一问题，来自阿里的研究者提出了 Tora，这是第一个面向轨迹的 DiT 架构，它将文本、视觉和轨迹条件同时集成在一起以生成视频。Tora 的设计与 DiT 的可扩展性无缝契合，允许精确控制具有不同持续时间、宽高比和分辨率的视频内容。大量实验证明，Tora 在实现高保真度方面表现出色，同时还能细致模拟物理世界的。论文地址：https://arxiv.org/pdf/2407.21

原文链接：阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律