国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频理解对标GPT4V

AIGC动态3个月前发布 量子位
7 0 0

国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频理解对标GPT4V

AIGC动态欢迎阅读

原标题:国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频理解对标GPT4V
关键字:模型,图像,视频,能力,代码
文章来源:量子位
内容字数:0字

内容摘要:


陈林 投稿自 凹非寺量子位 | 公众号 QbitAI国产多模态大模型,也开始卷上下文长度。
书生·浦语灵笔(InternLM-XComposer)多模态大模型升级2.5版本——
原生支持24K多模态图文上下文,超过20轮的图文交互,具备图像视频理解、网页创作、图文写作等多项功能。
该开源模型一出,一度在Hugging Face登上热榜第五。
作为8B量级性能最优秀的多模态大模型之一,它在多项评测性能上对标GPT4V和Gemini Pro。
而除了支持长上下文输入,InternLM-XComposer 2.5版本(以下简称IXC 2.5)同时训练了长序列输出能力,模型支持高质量网页创作和文章生成。
兼容三种多模态理解能力IXC 2.5同时兼顾了多模态模型的理解和内容输出能力,主要包括三种多模态理解能力。
包括超过4K分辨率的图像理解、多轮多图超长对话、精细视频内容分析。
来具体看看大模型实力如何。
高分辨率图像理解,它支持分析文档、网页、图表等信息丰富的超高清图像。
比如扔给它之前的文章,图像分辨率为1312×22619像素,并询问IXC 2.5关于截图内容的问题。
嗯,还能知道是量子位


原文链接:国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频理解对标GPT4V

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...