颠覆视觉AI：阿里Qwen、腾讯混元与谷歌重磅模型齐亮相！

原标题：视觉 LLM 开源的疯狂月！阿里 Qwen、腾讯混元、谷歌等连续开源重磅模型
文章来源：夕小瑶科技说
内容字数：11205字

2024年12月，视觉模型领域迎来了一场重磅开源盛宴，多家知名企业接布了闭源和开源的视觉语言模型。这些模型不仅展示了强大的性能，还为多模态AI的应用奠定了基础。

本月闭源视觉模型的发布频繁，如《智谱 GLM-4V-Flash API》、Gemini 2.0等，这些模型在功能和应用场景上都表现出色，推动了行业的发展。

开源视觉语言模型也在12月密集发布，主要包括来自阿里、腾讯、谷歌和Meta等公司的重磅产品。模型如PaliGemma 2、InternVL 2.5和HunyuanVideo等，展现了强大的图像识别、视频生成和多模态处理能力。

以下是几款重要的开源模型：

PaliGemma 2是新一代视觉语言模型，支持多种语言，能够处理图像和视频描述、问题回答等任务。其在30多个任务上表现优异，特别是在长文本生成和医学图像理解方面。

InternVL 2.5是一个先进的多模态大型语言模型，参数覆盖从1B到78B，首次在MMMU基准测试中超过70%的准确率，具备强大的多任务处理能力。

Qwen 2-VL能够理解超过20分钟的视频，支持多语言，并具备复杂的推理和决策能力，适用于手机、机器人等设备。

HunyuanVideo是腾讯推出的文本生成视频模型，具有130亿参数，能够生成高质量的视频，未来可能推出更高分辨率版本。

这些模型的发布不仅展示了开源技术的进步，也为多模态AI应用的全面爆发奠定了基础。随着技术的不断演进，未来的视觉模型将进一步提升智能应用的质量和范围。

总之，2024年12月的视觉模型开源盛宴标志着多模态AI发展的重要里程碑，期待未来更多创新成果的涌现。

联系作者

文章来源：夕小瑶科技说
作者微信：
作者简介：解码AI世界，硬核也可爱！聚集35万AI发烧友、开发者和从业者，广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

文章版权归作者所有，未经允许请勿转载。

暂无评论...