阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律

阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律

AIGC动态欢迎阅读

原标题:阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律
关键字:轨迹,视频,架构,研究者,方法
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:陈陈、杜伟你规定路线,Tora 来生成相应轨迹的视频。目前,扩散模型能够生成多样化且高质量的图像或视频。此前,视频扩散模型采用 U-Net 架构 ,主要侧重于合成有限时长(通常约为两秒)的视频,并且分辨率和纵横比受到固定限制。
Sora 的出现打破了这一限制,其采用 Diffusion Transformer(DiT)架构,不仅擅长制作 10 到 60 秒的高质量视频,而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。
可以说 Sora 是 DiT 架构最有利的证明,然而,基于 Transformer 的扩散模型在有效生成可控动作视频方面还未被充分探索。
针对这一问题,来自阿里的研究者提出了 Tora,这是第一个面向轨迹的 DiT 架构,它将文本、视觉和轨迹条件同时集成在一起以生成视频。Tora 的设计与 DiT 的可扩展性无缝契合,允许精确控制具有不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在实现高保真度方面表现出色,同时还能细致模拟物理世界的。论文地址:https://arxiv.org/pdf/2407.21


原文链接:阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...