抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法

抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法

AIGC动态欢迎阅读

原标题:抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法
关键字:模型,视觉,编码器,语言,数据
文章来源:机器之心
内容字数:0字

内容摘要:


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com一作刁海文,是大连理工大学博士生,导师是卢湖川教授。目前在北京智源人工智能研究院实习,指导老师是王鑫龙博士。他的研究兴趣是视觉与语言,大模型高效迁移,多模态大模型等。共同一作崔玉峰,毕业于北京航空航天大学,是北京智源人工智能研究院视觉中心算法研究员。他的研究兴趣是多模态模型、生成模型和计算机视觉,主要工作有 Emu 系列。
近期,关于多模态大模型的研究如火如荼,工业界对此的投入也越来越多。国外相继推出了炙手可热的模型,例如 GPT-4o (OpenAI)、Gemini(Google)、Phi-3V (Microsoft)、Claude-3V(Anthropic),以及 Grok-1.5V(xAI)等。与此同时,国内的 GLM-4V(智谱 AI)、Step-1.


原文链接:抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...