今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu

今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu

AIGC动态欢迎阅读

原标题:今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu
关键字:幻觉,基准,事实性,内容,模型
文章来源:夕小瑶科技说
内容字数:9173字

内容摘要:


夕小瑶科技说 原创作者 | Tscom随着人工智能领域的快速发展,大语言模型(LLMs)在自然语言处理(NLP)的多个领域取得了显著的成功。这些模型通过自然语言生成(NLG)技术解决了许多下游任务,从而在多样化的NLP领域中展现出其强大的能力。然而,随着LLMs的广泛应用,其面临的挑战也日益凸显,尤其是“幻觉”问题。所谓“幻觉”,主要是指LLMs倾向于为特定来源生成无意义或不真实的内容。这种现象给现实世界的应用场景带来了风险,因为它可能导致误导性信息的传播和理解上的混淆。
尽管存在这些挑战,研究人员提出了许多用于检测LLMs幻觉的基准(benchmarks)。然而,现有的基准存在一些问题:它们通常是通过人为设计的触发提示词来诱导LLMs产生幻觉,而不是LLMs在日常使用中自然生成的;大多数基准仅关注事实性幻觉,忽视了忠实性幻觉;并且它们大多只集中在句子级和段落级的幻觉检测,而对话级的幻觉检测同样重要,但在以往的研究中并未提及。
为了应对这些挑战,本文提出了一个新的对话级幻觉评估基准(DiaHalu),旨在通过专业学者的标注,覆盖四个常见的多轮对话领域和五种幻觉子类型,从而为进一步的研究


原文链接:今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...