AIGC动态欢迎阅读
原标题:GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
关键字:视觉,模型,用户界面,海滩,图形
文章来源:新智元
内容字数:4670字
内容摘要:
新智元报道编辑:Aeneas
【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。如今,GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。
然而,如果想在不影响性能的前提下,寻求具有成本效益的替代方案,开源方案就蕴藏着无限可能。
国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案,可访问性绝对可以保障。
三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA,在视觉处理领域具有极大的潜力。
LLaVaLLaVA是端到端训练的多模态大模型,来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员,最初的版本在4月发布。
它将视觉编码器和用于通用视觉和语言理解的Vicuna 结合在⼀起,实现了令人印象深刻的聊天能力。
10月份,升级后的LLaVA-1.5的表现已经接近多模态GPT-4,在Science QA数据集上取得了SOTA。
13B模型的训练,只需要8个A100就可以在1天内完成。
可以看到,LLaVA能处理各类问题,且生成的
原文链接:GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...