AIGC动态欢迎阅读
原标题:MM 2024 Oral: 大模型带你鉴赏世界名画!同济大学发布
关键字:画作,模型,能力,艺术,数据
文章来源:夕小瑶科技说
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 谢年年现有的大模型已经能够创作令人惊叹画作,那鉴赏艺术画作岂不是信手拈来?
但同济大学的研究团队却发现——并非如此。
他们发现这些大模型虽然对熟知的知名画作分析得头头是道,但一遇到较为冷门的画作就容易产生“视觉幻觉”,造成诸如张冠李戴的错误。
比如给大模型看梵高的《向日葵》,它能从画面布局、色彩搭配到笔触技巧等各个方面给出详尽的分析,相当准确:
然而,一换到那些不太出名的画作前,即便是像Gemini和GPT-4V这样强大的模型也会犯迷糊。(图中红色表示错误分析)
作者认为现有的大模型在分析画作时,往往倾向于首先识别给定的画作,然后相应地进行分析。简单来说,他们是先认出了这副画,然后再从记忆中调取关于这幅画的知识。这仅限于照本宣科,还不是真正意义上的具备鉴赏能力。
这种“识别再分析”的过程高度依赖于识别的准确性,一旦遇到不认识的画作,就容易出错,产生“视觉上的错觉”。
而作者更希望赋予大模型formal analysis(形式分析) 的能力,主要关注作品的形式元素,如线条、色彩、构图等,以及它们在作品中的组合和表现方式。
因此作者首先构建一个包含近19K画作和
原文链接:MM 2024 Oral: 大模型带你鉴赏世界名画!同济大学发布
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...