多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学

推理次数\x26gt;30时,模型表现趋于稳定

多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学

原标题:多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
文章来源:量子位
内容字数:5636字

淘天集团发布中文视觉问答基准Chinese SimpleVQA,OpenAI o1视觉能力最强

淘天集团未来生活实验室近日发布了首个面向事实知识的中文视觉问答基准Chinese SimpleVQA,并对多个视觉大模型进行了评测。该基准包含2200个高质量问答对,涵盖8个主要话题和56个子话题,旨在系统性地衡量视觉大模型在各个领域的视觉识别能力和知识水平。评测结果显示,OpenAI的o1-preview模型表现最佳,但在知识扩展方面,所有模型都面临挑战,普遍存在“过于自信”的问题。

1. Chinese SimpleVQA:一个严谨的中文视觉问答基准

Chinese SimpleVQA 的构建过程十分严谨,包含自动化问答对生成和多轮质量控制两个阶段。首先,研究人员从收集图文对,并通过对象识别、知识问题生成和合并问答三个步骤自动生成问答对。随后,经过自动验证、难度筛选和人工验证三个步骤的严格筛选,最终保留了1100幅图片和2200个问答对。数据脱敏也确保了数据的安全性和可靠性。该基准具有多跳评估、多样性、高质量、静态一致性和易于评估五大特点。

2. 评测结果:o1-preview表现最佳,但模型普遍“过于自信”

研究团队对13个闭源模型和21个开源模型进行了评测。结果显示,o1-preview在图像主体识别和知识扩展问题上均表现最佳,其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。在注重中文能力的模型中,Qwen-VL系列表现最为突出。然而,评测也揭示了模型的几个不足:知识扩展难于主体识别,模型规模与知识能力正相关,以及普遍存在的“幻觉”问题,即模型倾向于自信地提供错误信息。

3. 模型能力分析:知识深度和能力边界

评测结果还分析了模型在不同知识领域的表现和出错时机。结果表明,模型在现代建筑、工程技术和科学等主题上表现优异,但在其他主题上稍逊一筹。大部分模型主要出错于知识扩展阶段,而部分模型则在图像识别阶段就表现不佳。此外,模型的准确性随推理次数增加而提高,但在超过30次尝试后趋于稳定,这表明模型的知识能力存在边界。

4. Chinese SimpleVQA 的意义和未来展望

Chinese SimpleVQA 的发布为中文视觉问答领域提供了一个重要的基准,有助于推动多模态大模型的研发和评估。其严谨的构建流程和全面的评测结果,为研究人员提供了宝贵的资源和参考,有助于更好地理解和改进视觉大模型的知识能力和可靠性。未来,该基准有望进一步完善和扩展,涵盖更多领域和更复杂的场景,从而更好地促进多模态大模型技术的进步。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...