性能不输SOTA，计算量仅DiT一半！T2X任务新范式来了 | 中山大学&360 AI Research

AIGC动态欢迎阅读

原标题：性能不输SOTA，计算量仅DiT一半！T2X任务新范式来了 | 中山大学&360 AI Research
关键字：复杂度,团队,任务,注意力,图像
文章来源：量子位
内容字数：0字

内容摘要：

Qihoo-T2X团队投稿量子位 | 公众号 QbitAI性能不输SOTA模型，计算开销却更低了——
中山大学和360 AI Research联合推出PT-DiT，同参数规模下，计算量仅为DiT的51.4%，Lumina-Next的17.5%。
具体来说，PT-DiT基于Proxy token机制，能用于文生图（Qihoo-T2I）、文生视频（Qihoo-T2V）和文生多视图（Qihoo-T2MV）等多种任务。
（Qihoo-T2X指文本到任意视觉任务）
话不多说，我们直接看几个最终生成效果，文生图be like：
接下来是今年火热的视频生成，prompt如下：
Sunset cityscape with spires, buildings, clouds, warm glow, and trees.(夕阳下的城市景观，有尖塔、建筑物、云朵、温暖的光芒和树木。)
最后是多视图生成，宝剑、小黄鸭等任意素材均可实现转3D效果。
目前该研究已经开放了论文、项目主页和代码仓库，即将开源。
研究动机当前，基于Diffusion Transformer的模型（Sora , Vidu, Flux等

原文链接：性能不输SOTA，计算量仅DiT一半！T2X任务新范式来了 | 中山大学&360 AI Research