横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

AIGC动态11个月前发布 新智元
13 0 0

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

AIGC动态欢迎阅读

原标题:横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

关键字:视觉,任务,图像,模型,语言

文章来源:新智元

内容字数:9346字

内容摘要:新智元报道编辑:LRS【新智元导读】哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。为了应对多模态大语言模型中视觉信息提取不充分的问题,哈尔滨工业大学(深圳)的研究人员提出了双层知识增强的多模态大语言模型-九天(JiuTian-LION)。论文链接: https://arxiv.org/abs/2311.11860GitHub: https://github.com/rshaojimmy/JiuTian项目主页: https://rshaojimmy.github.io/Projects/JiuTian-LION与现有的工作相比,九天首次分析了图像级理解任务和区域级定位任务之间的内部冲突,提出了分段指令微调策略和混合适配器来实现两种任务的互相提升。通过注入细粒度空间感知和高层语义视觉知识,九天实现了…

原文链接:点此阅读原文:横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...