只需将感知推理能力拆分，2B大模型就能战胜20B！国产新框架高效处理视觉任务

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：只需将感知推理能力拆分，2B大模型就能战胜20B！国产新框架高效处理视觉任务
关键字：模型,视觉,指令,性能,能力
文章来源：量子位
内容字数：0字

内容摘要：

Prism团队投稿至凹非寺量子位 | 公众号 QbitAI只要把推理和感知能力拆分，2B大模型就能战胜20B？！
上海AI Lab联合学、香港中文大学等机构，共同推出了一套两阶段框架——Prism。
这一框架不仅显式地解耦了视觉语言模型（VLM）的感知和推理，还提供了一种更高效的处理视觉语言任务的方案。
最终让2B VLM和ChatGPT的组合表现出相当于10倍参数量VLM的性能。
Prism框架架构及功能在解决复杂的视觉语言任务时，模型的感知和推理能力至关重要。当模型在基准测试中表现不佳时，我们如何区分问题源自感知能力还是推理能力？
针对这一问题，Prism框架将视觉语言任务处理拆分为两个阶段：
感知阶段：VLM作为感知模块遵循指令提取输入图片的视觉信息，并以文本形式输出
推理阶段：LLM作为推理模块根据提取得到的文本信息，结合输入文本生成回复
框架架构如下图所示：
Prism框架中用于引导VLM生成图片描述的指令可以是问题相关的，也可以是问题无关的。
VLM在框架中只用于视觉感知，而推理任务则由LLM解决。通过固定框架中的LLM，可以测试不同VLM的感知能力；相对应地

原文链接：只需将感知推理能力拆分，2B大模型就能战胜20B！国产新框架高效处理视觉任务