揭开在线购物新纪元:多样任务真实数据助力Shopping MMLU基准发布!

基于亚马逊真实在线购物数据打造

揭开在线购物新纪元:多样任务真实数据助力Shopping MMLU基准发布!

原标题:多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
文章来源:量子位
内容字数:5206字

在线购物领域最强大模型的评估基准——Shopping MMLU

近期,亚马逊联合香港科技大学和圣母大学,共同推出了一个针对在线购物领域的大规模评测基准——Shopping MMLU。该基准旨在全面评估大语言模型(LLM)在在线购物中的能力与潜力,尤其是面对多任务和少样本学习的挑战。

一、评测基准的必要性

在线购物的复杂性主要体现在以下几个方面:

  1. 多任务性:在线购物涉及多种实体(商品、属性、评论等)和用户行为(浏览、查询、购买等),需要模型具备联合建模能力。
  2. 少样本性:冷启动场景导致新用户和新商品的出现,模型需具备少样本学习能力。

二、Shopping MMLU的构建

Shopping MMLU覆盖了四项在线购物能力,共计57个任务,包括:

  1. 在线购物概念理解
  2. 在线购物知识推理
  3. 用户行为理解
  4. 多语言能力

该基准大部分基于真实的亚马逊在线购物数据构建,经过人工检验以确保数据质量。

三、实验结果与发现

研究对27个主流大语言模型进行了评估,发现:

  1. 闭源模型(如Claude-3)整体表现优于开源模型,但后者逐渐缩小差距。
  2. 特定领域模型(如eCeLLM)并未在同参数量级下取得最佳成绩,显示出Shopping MMLU的难度。

四、模型强化的策略

研究分析了如何通过微调和大模型增强手段提升模型在Shopping MMLU上的表现。结果表明:

  1. 模型在不同能力和任务上的得分高度正相关,表明知识的共享性。
  2. 通用能力强的模型在特定领域的应用更为有效,微调需注重数据质量。

五、总结与展望

Shopping MMLU为在线购物领域提供了一个全面的评测标准,能够有效评估大语言模型的能力与潜力。该基准的开源与维护,鼓励研究人员深入探索相关应用,为后续研究奠定了基础。未来,Shopping MMLU将继续吸引新模型参与评估,推动在线购物领域的技术进步。

更多信息可参考论文和GitHub资源:

论文:链接

数据及评测代码:链接

评估榜单:链接


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...