AIGC动态欢迎阅读
原标题:只需将感知推理能力拆分,2B大模型就能战胜20B!国产新框架高效处理视觉任务
关键字:模型,视觉,指令,性能,能力
文章来源:量子位
内容字数:0字
内容摘要:
Prism团队 投稿至 凹非寺量子位 | 公众号 QbitAI只要把推理和感知能力拆分,2B大模型就能战胜20B?!
上海AI Lab联合学、香港中文大学等机构,共同推出了一套两阶段框架——Prism。
这一框架不仅显式地解耦了视觉语言模型(VLM)的感知和推理,还提供了一种更高效的处理视觉语言任务的方案。
最终让2B VLM和ChatGPT的组合表现出相当于10倍参数量VLM的性能。
Prism框架架构及功能在解决复杂的视觉语言任务时,模型的感知和推理能力至关重要。当模型在基准测试中表现不佳时,我们如何区分问题源自感知能力还是推理能力?
针对这一问题,Prism框架将视觉语言任务处理拆分为两个阶段:
感知阶段:VLM作为感知模块遵循指令提取输入图片的视觉信息,并以文本形式输出
推理阶段:LLM作为推理模块根据提取得到的文本信息,结合输入文本生成回复
框架架构如下图所示:
Prism框架中用于引导VLM生成图片描述的指令可以是问题相关的,也可以是问题无关的。
VLM在框架中只用于视觉感知,而推理任务则由LLM解决。通过固定框架中的LLM,可以测试不同VLM的感知能力;相对应地
原文链接:只需将感知推理能力拆分,2B大模型就能战胜20B!国产新框架高效处理视觉任务
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...