该方法在解决问题的每一步都始终保持着较高的推理质量。
AtomThink:提升多模态大语言模型的数学推理能力
在人工智能领域,高阶数学推理一直是一个复杂的挑战。为此,中山大学、香港科技大学、上海交通大学及华为诺亚方舟实验室的研究团队提出了AtomThink框架,旨在通过引入“慢思考”能力来提升多模态大语言模型(MLLM)的数学推理性能。本文将对此框架及其背景进行简要概述。
1. 背景与挑战
随着OpenAI的强人工智能技术的发展,如何在视觉数学任务中有效应用“慢思考”技术成为了研究的热点。然而,现有模型在信息建模的质量上存在不足,尤其是在推理链中间步骤的质量评估上。这些缺陷使得针对性性能提升变得困难。
2. 原子步骤质量评估
本研究首次提出了一种原子步骤质量评估策略,关注语义维度的最小推理步骤。通过分析GPT-4o的推理行为,建立了一个规范的推理能力集合,并评估当前开源模型的原子步骤质量,发现其在多个能力项上表现欠佳。
3. AtomThink慢思考框架
AtomThink框架由三部分组成:多模态注释引擎、原子步骤微调和策略搜索。动态提示和短CoT增强策略用于生成高质量的推理路径,并构建AtomMATH数据集,以支持模型的指令微调和过程监督训练。
4. 实验结果
实验表明,AtomThink框架在多模态数学推理任务中表现优异。使用QuickThink和SlowThink两种推理范式时,模型的性能显著提升,尤其在MathVista和MathVerse任务上,AtomThink版本超越基线模型,显示出强大的可扩展性。
5. 总结与展望
通过引入原子思维能力,AtomThink框架有效提升了多模态大语言模型的数学推理性能,并为未来开发更广泛的慢思考模型奠定了基础。研究团队发布了高质量的长CoT数据集,期待在学术界和工业界的进一步应用。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...