Ovis2 – 阿里国际推出的多模态大语言系列模型
Ovis2 是阿里巴巴国际团队最新推出的多模态大型语言模型,旨在通过结构化嵌入对齐技术有效解决视觉与文本之间的差异。Ovis2 在前一代 Ovis 模型的基础上进行了优化,增强了小规模模型的性能密度,并通过指令微调和偏好学习显著提升了思维链(CoT)推理能力。
Ovis2是什么
Ovis2 是阿里巴巴国际团队研发的新一代多模态大型语言模型。它采用结构化嵌入对齐的方法,有效解决了视觉和文本模态之间的差异,并在 Ovis 系列架构的基础上进行了强化,特别提升了小规模模型在能力密度方面的表现。Ovis2 具备指令微调和偏好学习的特性,从而显著提升了思维链(CoT)推理能力。此外,Ovis2 还引入了视频处理和多图像处理能力,增强了对多语言的支持以及在复杂场景下的光学字符识别(OCR)能力。该系列模型分为六个不同的参数规模,包括1B、2B、4B、8B、16B 和 34B,均在 OpenCompass 多模态评测中表现优异,特别是在数学推理和视频理解方面。Ovis2 的开源为多模态大模型的研究和应用开辟了新的方向和工具。
Ovis2的主要功能
- 多模态理解与生成:能够处理文本、图像和视频等多种输入模态,生成高质量的文本输出,支持在复杂场景中的视觉和语言任务。
- 推理能力增强:借助思维链(CoT)推理能力的提升,解决复杂的逻辑和数学问题,并提供逐步推理的解决方案。
- 视频与多图像处理:具备视频理解能力,能够选择关键帧并处理多图像输入,从而应对跨帧的复杂视觉信息。
- 多语言支持及OCR功能:支持多种语言的文本处理,可以从复杂的视觉元素(如表格和图表)中提取结构化数据。
- 小模型优化:通过优化训练策略,使小规模模型具备更高的能力密度,以满足多样化的应用需求。
Ovis2的技术原理
- 结构化嵌入对齐:利用视觉tokenizer将图像切割成若干图像块(patch),提取特征后将其映射为“视觉单词”,进而形成概率化的视觉token。视觉token与文本token共同输入到大语言模型(LLM),实现模态间的结构化对齐。
- 四阶段训练策略:
- 第一阶段:冻结大语言模型,专注于视觉模块的训练,以学习视觉特征与嵌入之间的转化。
- 第二阶段:进一步训练视觉模块,增强其对高分辨率图像的理解及多语言OCR能力。
- 第三阶段:使用对话形式的视觉数据,使视觉嵌入与大语言模型的对话格式对齐。
- 第四阶段:进行多模态指令训练和偏好学习,提升模型对用户指令的遵循能力及输出质量。
- 视频理解提升:利用MDP3算法(基于帧与文本的相关性、组合多样性和序列性)进行关键帧选择,从而提升视频理解的效果。
- 基于Transformer架构:结合强大的视觉编码器(如ViT)和语言模型(如Qwen),实现高效的多模态融合与生成。
Ovis2的项目地址
- GitHub仓库:https://github.com/AIDC-AI/Ovis
- HuggingFace模型库:https://huggingface.co/collections/AIDC-AI/ovis2
Ovis2的应用场景
- 研究人员与开发者:从事人工智能和多模态技术研究的专业人士,以及需要开发智能应用的开发者,能够进行模型优化、算法改进或开发多模态应用。
- 内容创作者:新闻媒体、广告和营销行业的从业者,能够快速生成图片或视频的描述、文案和标题,从而提升创作效率。
- 教育工作者与学生:教师可以生成图片或视频的解释性文字,帮助学生理解复杂内容;学生则可以通过视觉问答功能解决学习中的疑难问题。
- 企业用户:在金融、法律、医疗等行业工作的人员,可以处理复杂的文档、图像或视频数据,提取关键信息,辅助决策。
- 普通用户与技术爱好者:对人工智能感兴趣的人群,能够进行简单的多模态任务,例如生成图片描述或进行视觉问答,探索技术在日常生活中的应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...