MM-Eureka

AI工具2周前更新 AI工具集
396 0 0

MM-Eureka – 上海AI Lab联合上交大等推出的多模态推理模型

MM-Eureka 是一个由上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究者们共同研发的多模态推理模型。该模型利用基于规则的大规模强化学习(RL),将单模态推理中的关键特性,如回答长度的稳定增长、准确率奖励和视觉顿悟时刻,成功扩展至多模态场景。

MM-Eureka是什么

MM-Eureka 是一个专门设计的多模态推理模型,开发团队由上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员组成。该模型通过规则驱动的大规模强化学习(RL),将单模态推理中的重要特性(例如稳定的回答长度增长、准确率奖励以及视觉顿悟时刻)迁移至多模态环境中。

MM-Eureka 提供了两个核心模型:MM-Eureka-8B 和 MM-Eureka-Zero-38B,分别基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。仅使用 54,000 张图文数据进行规则型强化学习训练,平均性能便超越了使用 1,000,000 张数据的 MPO 模型。MM-Eureka-Zero-38B 仅利用 8,000 张图文数学推理数据,在自主构建的 K12 基准测试中超过了指令模型 8.2%,在 MathVerse 上的表现也相当出色。

MM-Eureka

MM-Eureka的主要功能

  • 多模态推理能力:MM-Eureka 能够有效处理文本和视觉信息,扩展了大规模基于规则的强化学习(RL)至多模态推理领域。
  • 复现关键特性:该模型成功在多模态空间中复现了文本 RL 系统(如 DeepSeek-R1)的核心特性,包括准确率奖励和响应长度的稳定增长,以及反思行为的自发涌现。
  • 数据高效性:在仅使用 54,000 张图文数据进行规则型 RL 训练的情况下,MM-Eureka 的平均性能超过了使用 1,000,000 张数据的 MPO 模型,整体基准准确率与使用 12,000,000 张数据进行 CoT SFT 训练的模型相当。

MM-Eureka的技术原理

  • 基于规则的大规模强化学习框架:MM-Eureka 基于 OpenRLHF 开发了一个高效且可扩展的多模态大规模强化学习框架,支持多种模型及 RL 算法,使得模型能够在多模态环境中进行有效训练,并成功复现了 DeepSeek-R1 的关键特性。
  • 数据过滤与稳定训练:团队发现,数据选择对于稳定的 RL 训练至关重要,基于难度的数据过滤策略对训练的稳定性起到了关键作用。
  • 视觉顿悟时刻(Visual aha-moment):MM-Eureka 在训练过程中展现了类似 DeepSeek-R1 的视觉顿悟时刻,表现为模型学会反思与回溯,重新审视图像中的关键信息。
  • 极简的强化学习设计:在 MM-Eureka 中,极简的 RL 设计被证明是有效的。实验表明,添加 KL 散度会限制模型探索,导致无法观察到响应长度的提升,因此采用简单的奖励函数(如准确性奖励和格式奖励),结合难度基础的数据过滤策略进行稳定训练。
  • 高效的数据利用:MM-Eureka 显示出极高的数据效率。仅用 54,000 张图文数据进行规则型强化学习训练,其平均性能即超越了使用 1,000,000 张数据的 MPO 模型。MM-Eureka-Zero 仅利用 8,000 张图文数学推理数据(指令模型的 0.05%),在自建的 K12 基准测试中超越指令模型 8.2%,在 MathVerse 上表现相当,表明在多模态推理领域,简单的规则型 RL 设计可以显著提升训练效果,即使在数据量较少的情况下,也能达到与大规模训练相当的性能。

MM-Eureka的项目地址

MM-Eureka的应用场景

  • 教育领域:通过强大的推理能力和反思机制,MM-Eureka 有助于学生更好地理解和解决复杂数学问题。
  • 增强现实(AR)和虚拟现实(VR):在 AR 和 VR 场景中,结合视觉与语言信息,MM-Eureka 可以提供更沉浸式和交互式的用户体验。
  • 数据分析和决策支持:MM-Eureka 的多模态推理能力使其在数据分析和决策支持方面表现优异,能够处理复杂的图文数据,帮助用户从大量信息中提取关键信息,做出更明智的决策。
  • 自动化和智能助手:作为智能助手的核心技术,MM-Eureka 能为用户提供更智能和自然的交互体验。
  • 游戏和娱乐:在游戏和娱乐领域,MM-Eureka 的多模态推理能力可以用于研发更智能的非玩家角色(NPC)和交互式剧情。

常见问题

  • MM-Eureka支持哪些类型的输入数据?MM-Eureka 支持文本和视觉信息的多模态输入,能够处理复杂的图文数据。
  • 如何获取MM-Eureka的源代码?您可以访问其Github仓库 [MM-Eureka GitHub](https://github.com/ModalMinds/MM-EUREKA) 下载源代码。
  • MM-Eureka的性能如何?MM-Eureka 展现出优秀的性能,仅使用少量数据就能超越使用大量数据训练的模型。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...