MIT等首次深度研究「集成LLM」预测能力：可媲美人类群体准确率

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：MIT等首次深度研究「集成LLM」预测能力：可媲美人类群体准确率
关键字：模型,人类,政策,研究人员,问题
文章来源：新智元
内容字数：9515字

内容摘要：

新智元报道编辑：LRS
【新智元导读】针对31个问题，基于12个各式各样LLM，两项研究结果表明，LLM群体优于单纯的无信息基线模型，并且在统计上与人类群体没有差异。在实践中，人类预测的准确性依赖于「群体智慧」（wisdom of the crowd）效应，即通过聚集一群个体预测者，对未来的预测准确率会显著提高。
过去关于大型语言模型（LLMs）预测能力的工作表明，即便是最强大的LLM也仍然比不过人类的群体智慧。
最近，来自伦敦经济学院、MIT和宾夕法尼亚大学的研究人员做了两项研究，通过简单、实际适用的预测集成方法，表明LLMs可以实现与人类群体竞赛相当的预测准确率。论文链接：https://arxiv.org/pdf/2402.19379.pdf
在第一个研究中，将31个二元问题由12个LLM进行集成预测，与为期三个月的预测锦标赛中925名人类预测者的预测进行了比较，主要分析结果表明，LLM群体优于单纯的无信息基线模型，并且在统计上与人类群体没有差异。
在探索性分析中，研究人员发现这两种方法在中等效应尺寸等价界限（medium-effect-size equivalence

原文链接：MIT等首次深度研究「集成LLM」预测能力：可媲美人类群体准确率