原标题:视觉 LLM 开源的疯狂月!阿里 Qwen、腾讯混元、谷歌等连续开源重磅模型
文章来源:夕小瑶科技说
内容字数:11205字
2024年12月视觉-语言大模型开源爆发
2024年12月,视觉-语言大模型领域迎来了前所未有的开源热潮。众多科技巨头,包括谷歌、Meta、阿里、腾讯等,纷纷发布了各自的重磅开源模型,标志着多模态AI技术发展进入了一个新的阶段。本文将对本月发布的几个主要开源大模型进行简要概述,帮助读者快速了解其核心特点和应用前景。
1. PaliGemma 2: Google的视觉语言模型升级
PaliGemma 2是基于PaLI-3和Gemma 2模型家族开发的新一代视觉语言模型。它支持图像和文本作为输入,生成文本输出,并支持多种语言。该模型提供3种尺寸(3B、10B、28B)的参数版本和3种分辨率(224、448、896)版本,在30多个任务上超越了其前身PaliGemma,尤其是在较大模型尺寸上表现更为突出。 其亮点在于扩展了迁移任务,包括文本检测与识别、表格结构识别、分子结构识别、光学乐谱识别等,并在许多任务上取得了最先进的结果。此外,PaliGemma 2还针对低精度版本进行了基准测试,使其更易于在CPU设备上部署。
2. InternVL 2.5: OpenGVLab的高性能多模态模型
InternVL 2.5是一个参数规模覆盖1B到78B的多模态大型语言模型系列。其78B参数版本是首个在MMMU基准测试中准确率超过70%的开源多模态大型语言模型,性能与GPT-4o等领先的闭源商业模型相当。InternVL 2.5在多学科推理、文档理解、多图像/视频理解等方面表现出色,并具有强大的扩展潜力。该模型采用“ViT MLP LLM”范式,并通过动态处理高分辨率多模态数据、单模型训练步骤和渐进式扩展策略等方法进行训练。
3. Qwen2-VL: 强大的多模态理解和生成能力
Qwen2-VL-72B是一个预训练模型,无需指令微调。其亮点在于对各种分辨率和比率的图像的理解,以及对超过20分钟视频的理解能力。它可以用于高质量的视频问答、对话和内容创作,并支持多种语言。Qwen2-VL采用动态分辨率和多模态旋转位置嵌入(M-ROPE)等技术,增强了其多模态处理能力,使其能够与手机、机器人等设备集成。
4. HunyuanVideo: 腾讯的文本生成视频模型
HunyuanVideo是腾讯开源的文本生成视频模型,其性能与领先的闭源模型相当,甚至在某些方面超越了它们。该模型拥有130亿参数,能够进行自然和镜头切换,在视频生成效果上表现出色。目前版本分辨率为720P,未来计划推出更高分辨率版本,并增加图像生成视频和视频自动配乐功能。HunyuanVideo采用统一的图视频生成架构、MLLM文本编码器和3D VAE等技术,实现了高质量的视频生成。
5. OminiControl: 高效的参考图像集成框架
OminiControl是一个高效且通用的框架,旨在将参考图像集成到预训练的Diffusion Transformer模型中。通过参数重用机制,它仅需增加约0.1%的额外参数就能有效整合参考图像,并能够统一处理多种有参考图像的生成任务,包括主题驱动的生成和空间对齐条件生成。OminiControl通过自生成训练数据,在主题驱动生成方面表现出色。
总而言之,2024年12月视觉LLM开源大,标志着多模态AI技术发展进入新的阶段,这些开源模型的出现将极大推动多模态AI应用的普及和发展,值得期待未来在该领域的更多突破。
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:低负担解码AI世界,硬核也可爱!聚集35万AI发烧友、开发者和从业者,广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189