横扫13个视觉语言任务！哈工深发布多模态大模型「九天」，性能直升5%

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：横扫13个视觉语言任务！哈工深发布多模态大模型「九天」，性能直升5%

关键字：视觉,任务,图像,模型,语言

文章来源：新智元

内容字数：9346字

内容摘要：新智元报道编辑：LRS【新智元导读】哈工深发布全新多模态大语言模型九天（JiuTian-LION），融合细粒度空间感知和高层语义视觉知识，在13个评测任务上实现了sota性能。为了应对多模态大语言模型中视觉信息提取不充分的问题，哈尔滨工业大学（深圳）的研究人员提出了双层知识增强的多模态大语言模型-九天（JiuTian-LION）。论文链接: https://arxiv.org/abs/2311.11860GitHub: https://github.com/rshaojimmy/JiuTian项目主页: https://rshaojimmy.github.io/Projects/JiuTian-LION与现有的工作相比，九天首次分析了图像级理解任务和区域级定位任务之间的内部冲突，提出了分段指令微调策略和混合适配器来实现两种任务的互相提升。通过注入细粒度空间感知和高层语义视觉知识，九天实现了…

原文链接：点此阅读原文：横扫13个视觉语言任务！哈工深发布多模态大模型「九天」，性能直升5%