ACL 2024 Oral｜我们离真正的多模态思维链推理还有多远？

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：ACL 2024 Oral｜我们离真正的多模态思维链推理还有多远？
关键字：模型,研究者,基准,思维,样本
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com该文章的第一作者陈麒光，目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。
在过去的几年中，大型语言模型（Large Language Models, LLMs）在自然语言处理（NLP）领域取得了突破性的进展。这些模型不仅能够理解复杂的语境，还能够生成连贯且逻辑严谨的文本。
然而，随着科技的发展和应用场景的多样化，单一文本模态的能力显然已经不能满足现代需求。人们日益期待能够处理和理解多种模态信息（如图像、视频、音频等）的智能系统，以应对更复杂的任务和场景。研究者们开始尝试将文本 CoT 的能力扩展到多模态思维链推理领域，以应对更加复杂和多样化的任务需求。
最早的多模态思维链研究之一是由 Lu 等人 [1] 引入的 ScienceQA

原文链接：ACL 2024 Oral｜我们离真正的多模态思维链推理还有多远？