21.5万张X光，78万个问题！德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：21.5万张X光，78万个问题！德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
关键字：报告,方法,问题,作者,数据
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST 好困
【新智元导读】多模态大语言模型（MLLM）在医学视觉问答（VQA）领域展现出巨大潜力，通过提供针对医学图像的具体临床问题的回答，有助于提高医疗专业人员的工作效率。然而，现有医学VQA数据集规模较小且问题过于简单，限制了模型训练和微调。为了解决这一问题，研究团队提出了Medical-CXR-VQA，这是一个大规模的X光胸片问答数据库，覆盖了更广泛的问题类型，包括异常、存在、位置等七种问题类型，为构建更准确的医学VQA模型提供了基础。多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力，在各个领域取得了巨大成功。
在医学领域上，视觉问答 (VQA) 是医学多模态大语言模型的一项重要任务，它可以通过回答针对医学图像的具体临床问题，有效提高医疗专业人员的效率。这一类工作可以减轻公共卫生系统的负担，对于医疗资源贫乏的国家来说尤其重要。
然而，现有的医学 VQA 数据集规模较小，仅包含相当于分类任务的简单问题，缺乏语义推理和临床知识。
如图1所示，现有的ImageCLF VQA-MED

原文链接：21.5万张X光，78万个问题！德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA