Ovis1.6

AI工具2年前 (2024)发布 AI工具集

Ovis1.6是一款由阿里国际AI团队开发的多模态大模型，在多模态权威评测基准OpenCompass上展现了卓越的性能，尤其是在参数数量不超过30亿的模型中，综合得分位列第一，超越了众多主流竞争对手。Ovis1.6在数学推理、视觉理解等多项任务中表现优异，甚至超过了闭源的GPT-4o-mini模型。该模型能够处理文本与图像等多种数据输入，具备出色的视觉感知推理、科学问题解答及生活场景理解能力。

Ovis1.6是什么

Ovis1.6是阿里国际AI团队推出的一款领先的多模态大模型，凭借其在多模态评测基准OpenCompass上的优异成绩脱颖而出，尤其在30亿参数以下的模型中，综合得分名列第一。它在数学推理、视觉理解等多个领域展现了卓越的能力，甚至在某些任务上超过了闭源的GPT-4o-mini。Ovis1.6可以处理文本和图像等多种输入数据，具备强大的视觉感知、科学问题解答以及日常场景理解能力。

Ovis1.6

Ovis1.6的主要功能

数学推理问答：能够精准解答各种数学问题，包括复杂的公式和逻辑推理。
物体识别：具备识别多种物体的能力，如不同花卉品种，展现其在图像识别方面的优势。
文本提取：支持多语言的文本提取，能够从各种文档中识别并提取信息。
复杂任务决策：能够处理多种类型的数据输入，进行复杂的决策任务，例如综合分析图像和文本。
图像理解：在图像理解方面达到SOTA（State of the Art）水平，能够处理高分辨率和极端长宽比的图像。

Ovis1.6的技术原理

创新架构设计：Ovis1.6基于视觉tokenizer与视觉嵌入表结合大语言模型的架构，采用可学习的视觉嵌入表，将视觉特征转化为概率化的视觉token，经过多次加权索引生成结构化的视觉嵌入，从而提升多模态任务的表现。
高分图像处理：Ovis1.6支持处理极端长宽比的图像，并兼容高分辨率图像，展现出色的图像理解能力。
全面数据优化：在训练过程中，Ovis1.6使用多种数据集，如Caption、VQA、OCR、Table和Chart等，全面的数据覆盖显著提升了其在多模态问答和指令跟随等任务上的表现。
卓越模型性能：在OpenCompass的多模态评测中，Ovis1.6-Gemma2-9B在30B参数模型中综合排名第一，展现出色的性能。