复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V

复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V

AIGC动态欢迎阅读

原标题:复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V
关键字:模型,视觉,图像,字节跳动,对象
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | 任同学多模态大模型在不同的任务中表现出了令人印象深刻的能力,但是在处理复杂任务时,模型的性能仍然受到了单步推理范式的限制。为此,复旦团队联合字节跳动提出了 VoCoT,这是一个多步骤的、基于视觉的、以对象为中心的思想链推理框架。
VoCoT 具有两个关键特征:(1)以对象为中心的推理路径,围绕跨模态共享的对象级信息展开,以及(2)以多模态交叉和对齐的方式对对象概念进行视觉上的表征,有效地弥合了 LMM 在长文本过程中的模态差异。
通过将 VoCoT 引入流行的开源 LMM 架构中,研究人员引入了多模态大模型 VolCano。在仅有 7B 个参数和有限的输入分辨率的条件下,VolCano 在各种场景下都表现出了优异的性能,在需要复杂推理的任务中超越了包括 GPT-4V 在内的 SOTA 模型。
论文标题:
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
论文链接:
https://arxiv.org/abs/2405.16919
背景与挑战


原文链接:复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...