多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」
关键字：解码器,模型,表征,骨干,文本
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：蛋酱最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 – 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。
能够同时生成多种模态输出的多模态模型一般是通过某种形式的词汇扩展（将多模态表征转换为离散 token 并添加到模型的基本词汇表中）来实现的，即在预训练阶段或在后期微调阶段进行跨模态对齐。
多模态预训练方法具有很强的性能优势（例如，一个模型可以原生理解多种模态），但也有缺点。例如，无法解决如何在预训练后添加新模态的问题，也缺乏灵活性，因为添加另一种模态需要从头开始训练一个新的模型，并进行超参数搜索，以获得模态之间的最佳训练数据混合比。因此，这种解决方案不适合小众模态，特别是 IMU、蛋白质序列等。
或者，将词汇扩展到另一种模态可以在一个从未见过该模态的模型上进行预训练后进行。只在文本模态下训练的解码器模型可以在上下文中遵循指令并从样本中学习，通常是通过微调将另一种模态（如音频或图像功能）嫁接到现有的强大文本骨干上，以利用文本模态的可表达性和人类用户的可控性。这

原文链接：多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」