今日Arxiv最热NLP大模型论文：浙江大学发布统一的幻觉检测框架UNIHD

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日Arxiv最热NLP大模型论文：浙江大学发布统一的幻觉检测框架UNIHD
关键字：幻觉,图像,文本,模型,工具
文章来源：夕小瑶科技说
内容字数：9594字

内容摘要：

夕小瑶科技说原创作者 | 芒果、Python引言：多模态大语言模型的幻觉问题及其重要性在人工智能领域，多模态大语言模型（MLLMs）已经取得了显著的进步，它们在多种任务中展现出了类似人类认知和学习的能力，为人工通用智能（AGI）的未来开辟了前所未有的可能性。然而，尽管MLLMs在处理复杂任务时表现出色，它们仍然容易产生一种被称为“幻觉”的现象。这种现象指的是模型生成的内容虽然看似可信，但实际上与输入数据或已建立的世界知识相矛盾。这些幻觉不仅妨碍了MLLMs的实际部署，还可能导致错误信息的传播。
因此，能够检测MLLMs响应中的多模态幻觉的检测器迫切需要，以便向用户警示潜在风险，并推动更可靠MLLMs的发展。然而，现有的研究工作存在局限性，例如专注于单一任务、幻觉类别范围有限，以及缺乏细粒度的评估。这些限制阻碍了实际幻觉检测进展的快速发展，提出了一个问题：我们能否开发出一种统一的视角来检测MLLMs中的幻觉？
为了应对这一挑战，该研究提出了一个任务不可知的、工具增强的统一多模态幻觉检测框架UNIHD，该框架通过一系列辅助工具来验证幻觉的发生。还提出了一个新的多模态基准测试MHaluBe

原文链接：今日Arxiv最热NLP大模型论文：浙江大学发布统一的幻觉检测框架UNIHD