上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程

上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程

AIGC动态欢迎阅读

原标题:上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程
关键字:图像,模型,显著特征,注意力,特征
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | 谢年年多模态大模型的发展势头正猛,研究者们热衷于通过微调模型,打造出具有更高输入分辨率、更复杂功能、更强感知能力以及更精细粒度的模型。
但是,当我们深究这些模型时,不禁要问:这些多模态大模型的内部机制是如何运作的?它们是如何凭借系统token、图像token、用户Token这些复杂的输入,推导出准确的答案呢?
由于大模型固有的黑盒特性,再加上多模态的输入输出和复杂深层次的结构,理解MLLMs的内部机制变得异常困难。
知其然更要知其所以然,为了揭开这一谜团,上海交通大学与阿里巴巴的研究团队最近引入了一种信息流方法,来可视化图像和文本在复杂推理任务中的交互过程。这种方法利用注意力得分和Grad-CAM技术量化图像、用户和系统token对答案token的影响程度,展示了信息流的动态变化,并发现了一些非常有趣的现象。
下图展示了在多模态大模型不同层中token信息流的注意力得分。从左到右依次是系统token、图像token和用户token,他们的信息流向输出token汇聚。
可以发现,在浅层与深层中不同token信息流汇聚情况有所区别。在深层(12-32),系统to


原文链接:上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...