AIGC动态欢迎阅读
原标题:国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频理解对标GPT4V
关键字:模型,图像,视频,能力,代码
文章来源:量子位
内容字数:0字
内容摘要:
陈林 投稿自 凹非寺量子位 | 公众号 QbitAI国产多模态大模型,也开始卷上下文长度。
书生·浦语灵笔(InternLM-XComposer)多模态大模型升级2.5版本——
原生支持24K多模态图文上下文,超过20轮的图文交互,具备图像视频理解、网页创作、图文写作等多项功能。
该开源模型一出,一度在Hugging Face登上热榜第五。
作为8B量级性能最优秀的多模态大模型之一,它在多项评测性能上对标GPT4V和Gemini Pro。
而除了支持长上下文输入,InternLM-XComposer 2.5版本(以下简称IXC 2.5)同时训练了长序列输出能力,模型支持高质量网页创作和文章生成。
兼容三种多模态理解能力IXC 2.5同时兼顾了多模态模型的理解和内容输出能力,主要包括三种多模态理解能力。
包括超过4K分辨率的图像理解、多轮多图超长对话、精细视频内容分析。
来具体看看大模型实力如何。
高分辨率图像理解,它支持分析文档、网页、图表等信息丰富的超高清图像。
比如扔给它之前的文章,图像分辨率为1312×22619像素,并询问IXC 2.5关于截图内容的问题。
嗯,还能知道是量子位
原文链接:国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频理解对标GPT4V
联系作者
文章来源:量子位
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...