一次可输入多张图像,还能多轮对话!最新开源数据集,让AI更接近现实

AIGC动态6个月前发布 量子位
7 0 0

一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实

AIGC动态欢迎阅读

原标题:一次可输入多张图像,还能多轮对话!最新开源数据集,让AI更接近现实
关键字:报告,图像,模型,基准,长上
文章来源:量子位
内容字数:0字

内容摘要:


刘子煜 投稿量子位 | 公众号 QbitAI大模型对话能更接近现实了!
不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。
这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Multi-Image Dialog Understanding)。
大型视觉语言模型(LVLMs)的核心能力之一是生成自然且有意义的回答,从而能够与人类进行流畅的图文对话。
尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力,但在具有长上下文长度,且需要多轮对话和多图输入的真实对话场景中,表现则相对不足。
此外,现有的LVLM Benchmarks主要采用单项选择题或简短回答的形式,难以全面评估LVLMs在真实世界人机互动应用中的表现。
为此,研究团队在论文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多图多轮评测基准MMDU及大规模指令微调数据集MMDU-45k,旨在评估


原文链接:一次可输入多张图像,还能多轮对话!最新开源数据集,让AI更接近现实

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...