AIGC动态欢迎阅读
原标题:LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
关键字:视觉,模型,基准,数据,表征
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:编辑部
【新智元导读】近日,LeCun和谢赛宁等大佬,共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。在寒武纪大爆发中,视觉的出现对于早期动物至关重要。
捕食、避险、引导进化, 穿越时间,组成了多彩的世界。
大多数人类知识,也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验,以及与物理世界的交互所获得。
对应到大模型的学习,虽然更大的规模可以增强多模态的能力,但视觉方面的研究和设计似乎没有跟上。
另一方面,过度依赖语言,则可能会成为多模态学习研究的瓶颈。
近日,LeCun和谢赛宁团队推出了Cambrian-1,一项采用以视觉为中心的方法设计多模态大语言模型(MLLM)的研究,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。
论文地址:https://arxiv.org/abs/2406.16860
开源代码:https://github.com/cambrian-mllm/cambrian
Cambrian-1使用MLLM指
原文链接:LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...