AIGC动态欢迎阅读
原标题:今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准
关键字:模型,图像,数据,基准,分辨率
文章来源:夕小瑶科技说
内容字数:5992字
内容摘要:
夕小瑶科技说 原创作者 | 墨墨2023年9月,OpenAI发布了多模态大模型GPT-4V,开启了多模态研究热潮。短短8个月时间内,闭源模型如Gemini系列, Qwen-VL-Max,开源模型如Mini-Gemini, LLaVA-NeXT百花齐放。
然而,在多模态大模型领域,闭源和开源模型依然存在着明显的鸿沟。
开源模型能否在性能上和闭源模型并肩?
又要如何才能做到这一点?
来自上海人工智能实验室、商汤科技研究院、清华大学等的研究者们发布了他们的答案——开源多模态大模型InternVL 1.5。
在18项主流基准中,InternVL 1.5在其中8项中达到sota!实验结果表明,InternVL 1.5已经有了与领先的闭源模型相媲美的水准。
论文标题:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
论文链接:https://arxiv.org/pdf/2404.16821
模型演示:https://internvl.opengvlab.
原文链接:今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189