统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者
关键字：模型,图像,文本,语言,向量
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：陈陈本文引入了 Transfusion，这是一种可以在离散和连续数据上训练多模态模型的方法。一般来说，多模态生成模型需要能够感知、处理和生成离散元素（如文本或代码）和连续元素（如图像、音频和视频数据）。
在离散模态领域，以预测下一个词为目标的语言模型占据主导地位，而在生成连续模态方面，扩散模型及其泛化形式则是当前最先进技术。
研究者一直试图将语言模型与扩散模型结合，一种方法是直接扩展语言模型，使其能够利用扩散模型作为一个工具，或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理，然后在离散的 token 上训练一个标准的语言模型，这种方法虽然简化了模型架构，但也会造成信息的丢失。
在这项工作中，来自 Meta 、 Waymo 等机构的研究者展示了通过训练单个模型来预测离散文本 token 和扩散连续图像，从而实现两种模态的完全集成，且不会丢失任何信息。
具体而言，本文引入了一个训练模型的新方法 Transfusion，能够无缝地生成离散和连续的模态。Transfusion 将语言模型损失函数与扩散相结合，在混合模态序列上训练单个 tra

原文链接：统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者