LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V
关键字：视觉,模型,基准,数据,表征
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】近日，LeCun和谢赛宁等大佬，共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型，同时全面开源了模型权重、代码、数据集，以及详细的指令微调和评估方法。在寒武纪大爆发中，视觉的出现对于早期动物至关重要。
捕食、避险、引导进化，穿越时间，组成了多彩的世界。
大多数人类知识，也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验，以及与物理世界的交互所获得。
对应到大模型的学习，虽然更大的规模可以增强多模态的能力，但视觉方面的研究和设计似乎没有跟上。
另一方面，过度依赖语言，则可能会成为多模态学习研究的瓶颈。
近日，LeCun和谢赛宁团队推出了Cambrian-1，一项采用以视觉为中心的方法设计多模态大语言模型（MLLM）的研究，同时全面开源了模型权重、代码、数据集，以及详细的指令微调和评估方法。
论文地址：https://arxiv.org/abs/2406.16860
开源代码：https://github.com/cambrian-mllm/cambrian
Cambrian-1使用MLLM指

原文链接：LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V