原标题:六大维度,LLM「问题生成」首次正面PK人类!伯克利等发布最新研究
文章来源:新智元
内容字数:5867字
大型语言模型在问题生成中的行为倾向研究
1. 研究背景:长期以来,问题生成(Question Generation,QG)任务依赖于自动化方法。大型语言模型(LLMs)的出现提升了QG的性能,但尚未深入研究LLMs生成问题的特点,例如长度、类型、上下文关注度等与人类生成的差异。
2. 研究方法:加州大学伯克利分校等机构的研究人员提出了一种基于LLMs的自动化评估方法,对LLMs生成的问题与人类生成的问题进行了多维度对比。研究使用了两个代表性LLMs:GPT-4o和LLaMA-3.1-70b-Instruct,并以WikiText数据集作为上下文,生成大量问题进行分析。评估指标包括问题长度、类型、上下文覆盖范围、可回答性、非常见性以及所需答案长度等。
3. 主要发现:
3.1 问题类型:LLMs倾向于生成需要描述性、较长答案的问题,尤其偏向于询问具体事实和数字。与人类相比,LLMs较少生成需要跨多个事实进行推理的问题。
3.2 问题长度:LLMs生成的问题长度与人类生成的问题长度大致相似(约20个单词),但LLMs在长度上的偏好差异较小,而人类生成的问题长度变化更大。
3.3 上下文覆盖范围:人类生成的问题更倾向于集中在上下文的开头或结尾,而LLMs对整个上下文的关注更加均衡,与问答任务中人类的关注点相反。
3.4 可回答性与非常见性:LLMs生成的问题在提供上下文时通常是可回答的。然而,去除上下文后,LLMs生成问题的回答质量显著下降,表明LLMs生成的问题对于评估RAG系统或进行自动幻觉测试很有价值。GPT-4o生成的问题比人类构建的HotpotQA数据集显示出更高比例的非常见问题。
3.5 所需答案长度:LLMs生成的答案通常比人类标注的答案长得多。研究人员通过压缩答案,在保持评分的同时显著降低了答案长度。
4. 研究意义:该研究首次揭示了LLMs在问题生成中的偏好,为评估下游应用(如RAG系统和幻觉检测)的提示工程优化提供了经验,有助于防止LLMs在不当情境下的滥用,并加深了对LLMs在问题生成中的行为倾向的理解。
5. 结论:研究结果表明,LLMs在问题生成方面存在与人类不同的行为倾向。理解这些差异对于改进LLMs的性能,以及更好地利用LLMs进行各种下游任务至关重要。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。