上交&阿里：掀开多模态大模型的头盖骨，解密黑盒模型推理过程

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：上交&阿里：掀开多模态大模型的头盖骨，解密黑盒模型推理过程
关键字：图像,模型,显著特征,注意力,特征
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谢年年多模态大模型的发展势头正猛，研究者们热衷于通过微调模型，打造出具有更高输入分辨率、更复杂功能、更强感知能力以及更精细粒度的模型。
但是，当我们深究这些模型时，不禁要问：这些多模态大模型的内部机制是如何运作的？它们是如何凭借系统token、图像token、用户Token这些复杂的输入，推导出准确的答案呢？
由于大模型固有的黑盒特性，再加上多模态的输入输出和复杂深层次的结构，理解MLLMs的内部机制变得异常困难。
知其然更要知其所以然，为了揭开这一谜团，上海交通大学与阿里巴巴的研究团队最近引入了一种信息流方法，来可视化图像和文本在复杂推理任务中的交互过程。这种方法利用注意力得分和Grad-CAM技术量化图像、用户和系统token对答案token的影响程度，展示了信息流的动态变化，并发现了一些非常有趣的现象。
下图展示了在多模态大模型不同层中token信息流的注意力得分。从左到右依次是系统token、图像token和用户token，他们的信息流向输出token汇聚。
可以发现，在浅层与深层中不同token信息流汇聚情况有所区别。在深层（12-32），系统to

原文链接：上交&阿里：掀开多模态大模型的头盖骨，解密黑盒模型推理过程

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文