Ola 的核心设计在于其渐进式模态对齐策略。
原标题:最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造
文章来源:机器之心
内容字数:8971字
Ola:一款超越现有模型的全模态语言模型
本文介绍了Ola,一个由腾讯混元Research、清华大学智能视觉实验室和南洋理工大学S-Lab合作开发的全模态语言模型。Ola在图像、视频和音频理解方面展现出卓越性能,甚至超越了当前最先进的专用多模态模型,例如Qwen2.5-VL和InternVL2.5。
1. Ola模型的核心优势
Ola的核心在于其**渐进式模态对齐策略**。该策略并非一次性融合所有模态数据,而是逐步引入:首先是图像和文本,然后是语音数据(连接语言和音频),最后是视频数据(连接所有模态)。这种方法降低了训练难度和成本,并保持了跨模态对齐数据的规模相对较小。
2. Ola模型的架构和数据
Ola采用可扩展的架构,支持全模态输入和流式文本及语音生成。它包含视觉和音频联合对齐模块,利用局部-全局注意力池化层融合视觉输入,并实现视觉、音频和文本标记的组合。此外,Ola集成了逐句流式解码模块,实现高质量语音合成。
在数据方面,Ola利用了大规模文本-图像数据、视频对话数据以及精心设计的音频数据(包括ASR、音频字幕、音频问答等)。值得一提的是,Ola团队开发了一种方法生成跨模态视频数据,利用视频和字幕生成问答对,从而加强模型对视频和音频之间关系的理解。
3. Ola模型的性能表现
在多个基准测试中,Ola都取得了领先的成绩:
- 图像基准测试:在OpenCompass基准测试中,Ola在8个数据集上的平均准确率达到72.6%,在所有30B参数以内的模型中排名第一,超越了GPT-4o、InternVL2.5等模型。
- 视频基准测试:在VideoMME中,Ola取得了68.4%的准确率,超越了LLaVA-Video、VideoLLaMA3等模型。
- 音频基准测试:Ola在语音识别和评估等任务中也表现出色,接近最好音频理解模型的水平。
实验结果表明,Ola的全模态训练策略有效提升了模型性能,尤其是在结合音频信息后,视频理解能力得到了显著提升。
4. Ola模型的开源贡献
Ola模型、代码和训练数据均已开源,旨在推动全模态理解领域的研究发展。其渐进式模态对齐策略为训练高效且性能强大的全模态模型提供了一种新的思路。
5. 总结
Ola模型在全模态理解领域取得了显著突破,其高效的训练策略和优异的性能为未来通用人工智能模型的研究提供了宝贵的参考。 该模型的开源也为研究者提供了更便捷的工具,促进该领域的进一步发展。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台