o3 都要来了还能做点什么?人大&蚂蚁团队:自下而上数据合成让大模型能够多模态推理

“像人类一样思考,获得真正通用的推理能力”。

o3 都要来了还能做点什么?人大&蚂蚁团队:自下而上数据合成让大模型能够多模态推理

原标题:o3 都要来了还能做点什么?人大&蚂蚁团队:自下而上数据合成让大模型能够多模态推理
文章来源:AI科技评论
内容字数:9564字

高效视觉推理:EMNLP 2024录用论文解读

本文总结了中国人民大学高瓴人工智能学院和蚂蚁技术研究院团队发表于EMNLP 2024的论文“From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis”,该论文提出了一种“由浅入深”的即插即用视觉推理框架,并配套开发了一种高效的自下而上数据合成方法,以解决当前视觉语言模型在多模态推理方面的局限性。

1. 视觉语言模型的“致命弱点”

尽管视觉语言模型在许多任务上表现出色,但它们在一些看似简单的问题上却经常出错,例如识别细微物体、准确计数以及理解图像中的文字信息。研究团队将这些问题归纳为三个方面: “老花眼”(缺乏对局部细节的精确感知能力),“注意力涣散”(在复杂背景下计数容易出错),“文盲”(对图像中文字信息的捕捉能力较差)。

2. “由浅入深”:即插即用的视觉推理范式

为了解决这些问题,研究团队提出了一种“由浅入深”的多步视觉推理框架。该框架将复杂问题分解为一系列简单的子问题,通过逐步推理得出答案。这种方法具有三大优势:首先,它降低了任务难度;其次,推理链路透明,结果可解释;最后,它即插即用,无需额外训练即可应用于不同的视觉语言模型。

3. “由浅入深”推理框架实现细节

该框架包含四个工具:定位工具、高亮工具、文本工具和问答工具,分别模拟人类处理视觉信息的特定能力。通过这些工具的协同工作,框架能够逐步分解问题,并最终生成答案。其任务拆解过程是动态的,每一步都依赖于之前的步骤,更贴近人类的认知过程。

4. 自下而上的数据合成方法

为了解决视觉推理数据匮乏的问题,研究团队开发了一种自下而上的数据合成方法。该方法通过四个模块:实体识别、多级节点构建、子问题设计和主问题合成,自动生成高质量的视觉推理链数据。该方法已用于构建并开源了一个包含百万量级推理链的数据集。

5. 实验效果

实验结果表明,“由浅入深”推理框架在多个基准测试集上均实现了显著且稳定的性能提升,并且在不同架构的视觉语言模型上都具有良好的适应性。此外,更大规模的数据集能够进一步提升模型性能,而该团队的自动化合成方法能够以极低的成本生成大规模高质量数据。

6. 结语

该研究提出了一种新的视觉推理范式和高效的数据合成方法,为提升视觉语言模型的推理能力提供了新的思路。未来,研究团队将继续探索更复杂的推理模式和更广泛的应用场景,以期实现更强大的多模态推理能力。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...