语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场
关键字：图像,模型,研究者,文本,序列
文章来源：人工智能学家
内容字数：0字

内容摘要：

来源：新智元编辑：Aeneas 好困
【导读】就在刚刚，Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型了！完美融合Transformer和扩散领域之后，语言模型和图像大一统，又近了一步。也就是说，真正的多模态AI模型，可能很快就要来了！Transformer和Diffusion，终于有了一次出色的融合。
自此，语言模型和图像生成大一统的时代，也就不远了！
这背后，正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。
论文地址：https://arxiv.org/abs/2408.11039
英伟达高级科学家Jim Fan盛赞：之前曾有很多尝试，去统一Transformer和Diffusion，但都失去了简洁和优雅。
现在，是时候来一次Transfusion，来重新激活这种融合了！
在X上，论文共一Chunting Zhou，为我们介绍了Transfusion其中的「玄机」。
为何它能让我们在一个模型中，同时利用两种方法的优势？
这是因为，Transfusion将语言建模（下一个token预测）与扩散相结合，这样，就可以在

原文链接：语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场