开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑
关键字：模型,中文,视觉,数据,能力
文章来源：量子位
内容字数：4756字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI开源多模态SOTA模型再易主！
Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。
CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。
网友闻讯而来，发现ChatGPT新绝技之“AI挑瓜”，我们开源届也不缺了。更复杂的学术图表，它也能理解并给出详细解释。
CogVLM2整体模型参数量仅19B，却能在多项指标取得接近或超过GPT-4V的水平，此外还有几大亮点：
支持8K文本长度
支持高达1344*1344的图像分辨率
提供支持中英文双语的开源模型版本
开源可商用
英文版经网友测试也有不错的表现。
特别值得注意的是，尽管CogVLM2的总参数量为19B，但得益于精心设计的多专家模块结构，每次进行推理时实际激活的参数量仅约12B，这样一来，全量推理（BF16/PF16）需要42GB 显存。
接下来划重点了：
Int4量化版本，仅需要16GB显存。
也就是一张英伟达RTX4080，或者刚出不久的RTX4070 Ti SUPER就能搞定了。
性能不俗，

原文链接：开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑