今日arXiv最热NLP大模型论文：华东师大发布对话级大模型幻觉评价基准DiaHalu

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日arXiv最热NLP大模型论文：华东师大发布对话级大模型幻觉评价基准DiaHalu
关键字：幻觉,基准,事实性,内容,模型
文章来源：夕小瑶科技说
内容字数：9173字

内容摘要：

夕小瑶科技说原创作者 | Tscom随着人工智能领域的快速发展，大语言模型（LLMs）在自然语言处理（NLP）的多个领域取得了显著的成功。这些模型通过自然语言生成（NLG）技术解决了许多下游任务，从而在多样化的NLP领域中展现出其强大的能力。然而，随着LLMs的广泛应用，其面临的挑战也日益凸显，尤其是“幻觉”问题。所谓“幻觉”，主要是指LLMs倾向于为特定来源生成无意义或不真实的内容。这种现象给现实世界的应用场景带来了风险，因为它可能导致误导性信息的传播和理解上的混淆。
尽管存在这些挑战，研究人员提出了许多用于检测LLMs幻觉的基准（benchmarks）。然而，现有的基准存在一些问题：它们通常是通过人为设计的触发提示词来诱导LLMs产生幻觉，而不是LLMs在日常使用中自然生成的；大多数基准仅关注事实性幻觉，忽视了忠实性幻觉；并且它们大多只集中在句子级和段落级的幻觉检测，而对话级的幻觉检测同样重要，但在以往的研究中并未提及。
为了应对这些挑战，本文提出了一个新的对话级幻觉评估基准（DiaHalu），旨在通过专业学者的标注，覆盖四个常见的多轮对话领域和五种幻觉子类型，从而为进一步的研究

原文链接：今日arXiv最热NLP大模型论文：华东师大发布对话级大模型幻觉评价基准DiaHalu