能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了
关键字：能力,模型,报告,文字,表示
文章来源：机器之心
内容字数：12179字

内容摘要：

机器之心专栏
机器之心编辑部2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而，它们的能力缺乏细致且偏应用级的评测，可信度和因果推理能力的对比也尚存空白。
近日，上海人工智能实验室的学者们与北京航空航天大学、复旦大学、学、新加坡国立大学、悉尼大学和香港中文大学（深圳）等院校合作发布 308 页详细报告，对 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 等热门的 LLM 和 MLLM 进行评测。根据 4 种模态（文本、代码、图像及视频）和 3 种能力（泛化能力、安全可信能力和因果推理能力）形成了 12 个评分项，并通过 230 个生动案例，揭示了 14 个实证性的发现。*作者顺序按照字母顺序排名
评测报告：https://arxiv.org/abs/2401.15

原文链接：能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了