MM 2024 Oral: 大模型带你鉴赏世界名画！同济大学发布

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：MM 2024 Oral: 大模型带你鉴赏世界名画！同济大学发布
关键字：画作,模型,能力,艺术,数据
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谢年年现有的大模型已经能够创作令人惊叹画作，那鉴赏艺术画作岂不是信手拈来？
但同济大学的研究团队却发现——并非如此。
他们发现这些大模型虽然对熟知的知名画作分析得头头是道，但一遇到较为冷门的画作就容易产生“视觉幻觉”，造成诸如张冠李戴的错误。
比如给大模型看梵高的《向日葵》，它能从画面布局、色彩搭配到笔触技巧等各个方面给出详尽的分析，相当准确：
然而，一换到那些不太出名的画作前，即便是像Gemini和GPT-4V这样强大的模型也会犯迷糊。（图中红色表示错误分析）
作者认为现有的大模型在分析画作时，往往倾向于首先识别给定的画作，然后相应地进行分析。简单来说，他们是先认出了这副画，然后再从记忆中调取关于这幅画的知识。这仅限于照本宣科，还不是真正意义上的具备鉴赏能力。
这种“识别再分析”的过程高度依赖于识别的准确性，一旦遇到不认识的画作，就容易出错，产生“视觉上的错觉”。
而作者更希望赋予大模型formal analysis（形式分析）的能力，主要关注作品的形式元素，如线条、色彩、构图等，以及它们在作品中的组合和表现方式。
因此作者首先构建一个包含近19K画作和

原文链接：MM 2024 Oral: 大模型带你鉴赏世界名画！同济大学发布