Ovis2

AI工具9小时前更新 AI工具集
0 0 0

Ovis2 – 阿里国际推出的多模态大语言系列模型

Ovis2 是阿里巴巴国际团队最新推出的多模态大型语言模型,旨在通过结构化嵌入对齐技术有效解决视觉与文本之间的差异。Ovis2 在前一代 Ovis 模型的基础上进行了优化,增强了小规模模型的性能密度,并通过指令微调和偏好学习显著提升了思维链(CoT)推理能力。

Ovis2是什么

Ovis2 是阿里巴巴国际团队研发的新一代多模态大型语言模型。它采用结构化嵌入对齐的方法,有效解决了视觉和文本模态之间的差异,并在 Ovis 系列架构的基础上进行了强化,特别提升了小规模模型在能力密度方面的表现。Ovis2 具备指令微调和偏好学习的特性,从而显著提升了思维链(CoT)推理能力。此外,Ovis2 还引入了视频处理和多图像处理能力,增强了对多语言的支持以及在复杂场景下的光学字符识别(OCR)能力。该系列模型分为六个不同的参数规模,包括1B、2B、4B、8B、16B 和 34B,均在 OpenCompass 多模态评测中表现优异,特别是在数学推理和视频理解方面。Ovis2 的开源为多模态大模型的研究和应用开辟了新的方向和工具。

Ovis2

Ovis2的主要功能

  • 多模态理解与生成:能够处理文本、图像和视频等多种输入模态,生成高质量的文本输出,支持在复杂场景中的视觉和语言任务。
  • 推理能力增强:借助思维链(CoT)推理能力的提升,解决复杂的逻辑和数学问题,并提供逐步推理的解决方案。
  • 视频与多图像处理:具备视频理解能力,能够选择关键帧并处理多图像输入,从而应对跨帧的复杂视觉信息。
  • 多语言支持及OCR功能:支持多种语言的文本处理,可以从复杂的视觉元素(如表格和图表)中提取结构化数据。
  • 小模型优化:通过优化训练策略,使小规模模型具备更高的能力密度,以满足多样化的应用需求。

Ovis2的技术原理

  • 结构化嵌入对齐:利用视觉tokenizer将图像切割成若干图像块(patch),提取特征后将其映射为“视觉单词”,进而形成概率化的视觉token。视觉token与文本token共同输入到大语言模型(LLM),实现模态间的结构化对齐。
  • 四阶段训练策略
    • 第一阶段:冻结大语言模型,专注于视觉模块的训练,以学习视觉特征与嵌入之间的转化。
    • 第二阶段:进一步训练视觉模块,增强其对高分辨率图像的理解及多语言OCR能力。
    • 第三阶段:使用对话形式的视觉数据,使视觉嵌入与大语言模型的对话格式对齐。
    • 第四阶段:进行多模态指令训练和偏好学习,提升模型对用户指令的遵循能力及输出质量。
  • 视频理解提升:利用MDP3算法(基于帧与文本的相关性、组合多样性和序列性)进行关键帧选择,从而提升视频理解的效果。
  • 基于Transformer架构:结合强大的视觉编码器(如ViT)和语言模型(如Qwen),实现高效的多模态融合与生成。

Ovis2的项目地址

Ovis2的应用场景

  • 研究人员与开发者:从事人工智能和多模态技术研究的专业人士,以及需要开发智能应用的开发者,能够进行模型优化、算法改进或开发多模态应用。
  • 内容创作者:新闻媒体、广告和营销行业的从业者,能够快速生成图片或视频的描述、文案和标题,从而提升创作效率。
  • 教育工作者与学生:教师可以生成图片或视频的解释性文字,帮助学生理解复杂内容;学生则可以通过视觉问答功能解决学习中的疑难问题。
  • 企业用户:在金融、法律、医疗等行业工作的人员,可以处理复杂的文档、图像或视频数据,提取关键信息,辅助决策。
  • 普通用户与技术爱好者:对人工智能感兴趣的人群,能够进行简单的多模态任务,例如生成图片描述或进行视觉问答,探索技术在日常生活中的应用。
阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...