揭开在线购物新纪元：多样任务真实数据助力Shopping MMLU基准发布！

基于亚马逊真实在线购物数据打造

原标题：多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024
文章来源：量子位
内容字数：5206字

近期，亚马逊联合香港科技大学和圣母大学，共同推出了一个针对在线购物领域的大规模评测基准——Shopping MMLU。该基准旨在全面评估大语言模型（LLM）在在线购物中的能力与潜力，尤其是面对多任务和少样本学习的挑战。

在线购物的复杂性主要体现在以下几个方面：

Shopping MMLU覆盖了四项在线购物能力，共计57个任务，包括：

该基准大部分基于真实的亚马逊在线购物数据构建，经过人工检验以确保数据质量。

研究对27个主流大语言模型进行了评估，发现：

研究分析了如何通过微调和大模型增强手段提升模型在Shopping MMLU上的表现。结果表明：

Shopping MMLU为在线购物领域提供了一个全面的评测标准，能够有效评估大语言模型的能力与潜力。该基准的开源与维护，鼓励研究人员深入探索相关应用，为后续研究奠定了基础。未来，Shopping MMLU将继续吸引新模型参与评估，推动在线购物领域的技术进步。

更多信息可参考论文和GitHub资源：

论文：链接

数据及评测代码：链接

评估榜单：链接

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

文章版权归作者所有，未经允许请勿转载。

暂无评论...