字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果
关键字：字节跳动,模型,文本,图片,豆包
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。
在这个过程中，模态的对齐是通过文本 token 隐式实现的，如何做好这一步的对齐非常关键。
针对这一问题，大学、字节跳动豆包大模型团队和中国科学院大学的研究人员提出了一种基于对比学习的文本 token 筛选方法（CAL），从文本中筛选出与图像高度相关的 token，并加大其损失函数权重，从而实现更精准的多模态对齐。论文链接：https://arxiv.org/pdf/2405.17871
代码链接：https://github.com/foundation-multimodal-m

原文链接：字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果