一次可输入多张图像，还能多轮对话！最新开源数据集，让AI更接近现实

AIGC动态1年前 (2024)发布量子位

一次可输入多张图像，还能多轮对话！最新开源数据集，让AI聊天更接近现实

AIGC动态欢迎阅读

原标题：一次可输入多张图像，还能多轮对话！最新开源数据集，让AI更接近现实
关键字：报告,图像,模型,基准,长上
文章来源：量子位
内容字数：0字

内容摘要：

刘子煜投稿量子位 | 公众号 QbitAI大模型对话能更接近现实了！
不仅可以最多输入20张图像，还能支持多达27轮对话。可处理文本+图像tokens最多18k。
这就是最新开源的超长多图多轮对话理解数据集MMDU（Multi-Turn Multi-Image Dialog Understanding）。
大型视觉语言模型（LVLMs）的核心能力之一是生成自然且有意义的回答，从而能够与人类进行流畅的图文对话。
尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力，但在具有长上下文长度，且需要多轮对话和多图输入的真实对话场景中，表现则相对不足。
此外，现有的LVLM Benchmarks主要采用单项选择题或简短回答的形式，难以全面评估LVLMs在真实世界人机互动应用中的表现。
为此，研究团队在论文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多图多轮评测基准MMDU及大规模指令微调数据集MMDU-45k，旨在评估

原文链接：一次可输入多张图像，还能多轮对话！最新开源数据集，让AI更接近现实