性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了 | 中山大学&360 AI Research

AIGC动态2个月前发布 量子位
7 0 0

性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了 | 中山大学&360 AI Research

AIGC动态欢迎阅读

原标题:性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了 | 中山大学&360 AI Research
关键字:复杂度,团队,任务,注意力,图像
文章来源:量子位
内容字数:0字

内容摘要:


Qihoo-T2X团队 投稿量子位 | 公众号 QbitAI性能不输SOTA模型,计算开销却更低了——
中山大学和360 AI Research联合推出PT-DiT,同参数规模下,计算量仅为DiT的51.4%,Lumina-Next的17.5%。
具体来说,PT-DiT基于Proxy token机制,能用于文生图(Qihoo-T2I)、文生视频(Qihoo-T2V)和文生多视图(Qihoo-T2MV)等多种任务。
(Qihoo-T2X指文本到任意视觉任务)
话不多说,我们直接看几个最终生成效果,文生图be like:
接下来是今年火热的视频生成,prompt如下:
Sunset cityscape with spires, buildings, clouds, warm glow, and trees.(夕阳下的城市景观,有尖塔、建筑物、云朵、温暖的光芒和树木。)
最后是多视图生成,宝剑、小黄鸭等任意素材均可实现转3D效果。
目前该研究已经开放了论文、项目主页和代码仓库,即将开源。
研究动机当前,基于Diffusion Transformer的模型(Sora , Vidu, Flux等


原文链接:性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了 | 中山大学&360 AI Research

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...