国产多模态卷上下文长度：原生支持24K图文输入输出，图像视频理解对标GPT4V

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：国产多模态卷上下文长度：原生支持24K图文输入输出，图像视频理解对标GPT4V
关键字：模型,图像,视频,能力,代码
文章来源：量子位
内容字数：0字

内容摘要：

陈林投稿自凹非寺量子位 | 公众号 QbitAI国产多模态大模型，也开始卷上下文长度。
书生·浦语灵笔（InternLM-XComposer）多模态大模型升级2.5版本——
原生支持24K多模态图文上下文，超过20轮的图文交互，具备图像视频理解、网页创作、图文写作等多项功能。
该开源模型一出，一度在Hugging Face登上热榜第五。
作为8B量级性能最优秀的多模态大模型之一，它在多项评测性能上对标GPT4V和Gemini Pro。
而除了支持长上下文输入，InternLM-XComposer 2.5版本（以下简称IXC 2.5）同时训练了长序列输出能力，模型支持高质量网页创作和文章生成。
兼容三种多模态理解能力IXC 2.5同时兼顾了多模态模型的理解和内容输出能力，主要包括三种多模态理解能力。
包括超过4K分辨率的图像理解、多轮多图超长对话、精细视频内容分析。
来具体看看大模型实力如何。
高分辨率图像理解，它支持分析文档、网页、图表等信息丰富的超高清图像。
比如扔给它之前的文章，图像分辨率为1312×22619像素，并询问IXC 2.5关于截图内容的问题。
嗯，还能知道是量子位

原文链接：国产多模态卷上下文长度：原生支持24K图文输入输出，图像视频理解对标GPT4V