基于亚马逊真实在线购物数据打造
原标题:多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
文章来源:量子位
内容字数:5206字
在线购物领域最强大模型的评估基准——Shopping MMLU
近期,亚马逊联合香港科技大学和圣母大学,共同推出了一个针对在线购物领域的大规模评测基准——Shopping MMLU。该基准旨在全面评估大语言模型(LLM)在在线购物中的能力与潜力,尤其是面对多任务和少样本学习的挑战。
一、评测基准的必要性
在线购物的复杂性主要体现在以下几个方面:
- 多任务性:在线购物涉及多种实体(商品、属性、评论等)和用户行为(浏览、查询、购买等),需要模型具备联合建模能力。
- 少样本性:冷启动场景导致新用户和新商品的出现,模型需具备少样本学习能力。
二、Shopping MMLU的构建
Shopping MMLU覆盖了四项在线购物能力,共计57个任务,包括:
- 在线购物概念理解
- 在线购物知识推理
- 用户行为理解
- 多语言能力
该基准大部分基于真实的亚马逊在线购物数据构建,经过人工检验以确保数据质量。
三、实验结果与发现
研究对27个主流大语言模型进行了评估,发现:
- 闭源模型(如Claude-3)整体表现优于开源模型,但后者逐渐缩小差距。
- 特定领域模型(如eCeLLM)并未在同参数量级下取得最佳成绩,显示出Shopping MMLU的难度。
四、模型强化的策略
研究分析了如何通过微调和大模型增强手段提升模型在Shopping MMLU上的表现。结果表明:
- 模型在不同能力和任务上的得分高度正相关,表明知识的共享性。
- 通用能力强的模型在特定领域的应用更为有效,微调需注重数据质量。
五、总结与展望
Shopping MMLU为在线购物领域提供了一个全面的评测标准,能够有效评估大语言模型的能力与潜力。该基准的开源与维护,鼓励研究人员深入探索相关应用,为后续研究奠定了基础。未来,Shopping MMLU将继续吸引新模型参与评估,推动在线购物领域的技术进步。
更多信息可参考论文和GitHub资源:
论文:链接
数据及评测代码:链接
评估榜单:链接
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...