LongCite – 清华推出的开源模型,提升LLMs的精准引用减少幻觉

LongCite是什么

LongCite是清华大学推出的一项创新项目,旨在提高大型语言模型(LLMs)在处理长文本问答任务时的可信性和可验证性。该项目通过生成细致的句子级引用,使用户能够核实模型的回答是否准确。其核心组成部分包括LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集,以及基于该数据集训练的LongCite-8B和LongCite-9B模型。这些模型能够理解长篇内容并提供准确的回答,附带直接可查阅的文本引用,从而增强信息的透明度与可靠性。

LongCite - 清华推出的开源模型,提升LLMs的精准引用减少幻觉

LongCite的主要功能

  • 细致引用生成:LongCite允许语言模型在回答长文本问题时生成精确到句子级别的引用,使用户能直接追溯到原文的具体内容。
  • 提升回答的准确性:LongCite确保模型的回答更忠实于原文,减少模型产生“幻觉”(即生成与原文不符的信息)的可能性。
  • 增强可验证性:用户可以根据模型提供的细致引用验证回答的真实性和准确性,从而提高模型输出的可信度。
  • 自动化数据构建:LongCite利用CoF(从粗到细)流程,自动生成带有细粒度引用的高质量长文本问答数据,为模型训练提供丰富的标注资源。
  • 评测基准:LongCite引入LongBench-Cite评测基准,专门用于评估模型在长文本问答中生成引用的能力,包括引用的正确性和质量。

LongCite的技术原理

  • 长文本处理能力:LongCite支持超长上下文窗口的大型语言模型(如GLM-4-9B-1M,Gemini 1.5等),能够处理和理解数万字的文本内容。
  • 细致引用生成:LongCite训练模型生成精确到句子级别的引用,使每个回答都能追溯到原文的具体句子,从而提升回答的可验证性。
  • 自动化数据构建流程(CoF):通过自指导(Self-Instruct)方法,从长文本中自动生成问题和答案对。该流程从长文本中检索与答案相关的句子块,并生成块级引用,随后提取支持每个陈述的具体句子,以生成句子级引用。
  • 监督式微调(Supervised Fine-Tuning, SFT):基于CoF流程生成的带有细粒度引用的高质量数据集对大型语言模型进行微调,以提升模型在长文本问答任务中的表现。

LongCite的项目地址

LongCite的应用场景

  • 学术研究:研究人员和学者可以使用LongCite查询大量文献资料,并获取带有引用的详细答案,以支持其研究工作。
  • 法律咨询:法律专业人员利用LongCite分析法律文件,获取具体的法律条款或案例引用,以辅助法律分析和案件研究。
  • 金融分析:金融分析师和投资者借助LongCite理解复杂的金融报告和市场研究,获取关键数据和趋势的准确引用。
  • 医疗咨询:医疗专业人员依赖LongCite查询医学文献,获取基于最新研究成果的诊断和治疗建议的引用。
  • 新闻报道:记者和新闻机构使用LongCite验证报道中的信息,确保发布的新闻内容准确无误,并提供可靠的来源引用。

常见问题

  • LongCite如何提高问答的可信性?通过生成细粒度的句子级引用,用户可以直接核实模型的回答与原文的一致性,从而提高问答的可信性。
  • LongCite支持哪些类型的文本?LongCite能够处理超长上下文的文本,适用于各种长文本材料,例如学术论文、法律文件、金融报告等。
  • 如何获取LongCite的模型和数据?用户可以通过访问LongCite的GitHub仓库和HuggingFace模型库获取相关模型和数据集。
  • LongCite的应用范围有哪些?LongCite适用于学术研究、法律咨询、金融分析、医疗咨询以及新闻报道等多个领域。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...