GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发
关键字：视觉,模型,用户界面,海滩,图形
文章来源：新智元
内容字数：4670字

内容摘要：

新智元报道编辑：Aeneas
【新智元导读】GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。如今，GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。
然而，如果想在不影响性能的前提下，寻求具有成本效益的替代方案，开源方案就蕴藏着无限可能。
国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案，可访问性绝对可以保障。
三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA，在视觉处理领域具有极大的潜力。
LLaVaLLaVA是端到端训练的多模态大模型，来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员，最初的版本在4月发布。
它将视觉编码器和用于通用视觉和语言理解的Vicuna 结合在⼀起，实现了令人印象深刻的能力。
10月份，升级后的LLaVA-1.5的表现已经接近多模态GPT-4，在Science QA数据集上取得了SOTA。
13B模型的训练，只需要8个A100就可以在1天内完成。
可以看到，LLaVA能处理各类问题，且生成的

原文链接：GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发