今日arXiv最热CV大模型论文：国产开源视觉大模型InternVL 1.5发布，赶超GPT-4V水准

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日arXiv最热CV大模型论文：国产开源视觉大模型InternVL 1.5发布，赶超GPT-4V水准
关键字：模型,图像,数据,基准,分辨率
文章来源：夕小瑶科技说
内容字数：5992字

内容摘要：

夕小瑶科技说原创作者 | 墨墨2023年9月，OpenAI发布了多模态大模型GPT-4V，开启了多模态研究热潮。短短8个月时间内，闭源模型如Gemini系列, Qwen-VL-Max，开源模型如Mini-Gemini, LLaVA-NeXT百花齐放。
然而，在多模态大模型领域，闭源和开源模型依然存在着明显的鸿沟。
开源模型能否在性能上和闭源模型并肩？
又要如何才能做到这一点？
来自上海人工智能实验室、商汤科技研究院、清华大学等的研究者们发布了他们的答案——开源多模态大模型InternVL 1.5。
在18项主流基准中，InternVL 1.5在其中8项中达到sota！实验结果表明，InternVL 1.5已经有了与领先的闭源模型相媲美的水准。
论文标题：How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
论文链接：https://arxiv.org/pdf/2404.16821
模型演示：https://internvl.opengvlab.

原文链接：今日arXiv最热CV大模型论文：国产开源视觉大模型InternVL 1.5发布，赶超GPT-4V水准

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文