AIGC动态欢迎阅读
原标题:完全开源!谢赛宁发布最新SOTA多模态模型Cambrian-1,“不与GPT-4V媲美”
关键字:视觉,基准,数据,编码器,模型
文章来源:夕小瑶科技说
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 21#
6月15日,智源大会「多模态大模型」论坛中,纽约大学助理教授谢赛宁从哲学的角度出发,分享了AI是否需要更强的视觉基础来实现理解和意义。
昨天,杨立坤、谢赛宁团队推出其最新研究工作,聚焦多模态模型视觉,发布以视觉为中心的多模态大语言模型(MLLM)–Cambrian-1。
Cambrian-1不仅实现了SOTA,还提供了一个全面的、开放的指令调优MLLMs的指南,并且完全开源。
谢赛宁本科毕业于上海交通大学,曾在Facebook人工智能研究院担任研究科学家谢赛宁从Meta离职,加入纽约大学担任助理教授。
论文题目: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
论文链接: https://arxiv.org/pdf/2406.16860
接下来,让我们来看看研究的具体细节。
总的来说,Cambrian-1在传统协议与使用MLLMs评估视觉表示之间建立了联系,使用MLLM指令微调作为各种视觉表示的评估协议,MLLMs通过视觉问答来解决多种现实世界中的感知任
原文链接:完全开源!谢赛宁发布最新SOTA多模态模型Cambrian-1,“不与GPT-4V媲美”
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189