MMLU-Pro基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

MMLU-Pro基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

AIGC动态欢迎阅读

原标题:MMLU-Pro基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署
关键字:解读,数据,模型,图像,视频
文章来源:HyperAI超神经
内容字数:0字

内容摘要:


在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。
然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。
为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始MMLU数据集、STEM网站、TheoremQA 和 SciBench 等。该数据集现已在 hyper.ai 提供下载,下拉文章获取链接~
9 月 9 日-9 月 14 日,hyper.ai 官网更新速览:
*优质公共数据集:10 个
* 优质教程精选:3 个
* 社区文章精选:4 篇
* 热门百科词条:5 条
* 9 月截稿顶会:3 个
访问官网:hyper.ai给大家推荐一个线上学术分享活动,上海交通大学博士后周子宜将以「蛋白质语言模型的小样本学习方法」为题,带来干货分享,点击即可预约观看⬇️公共数据集精选1.MMLU-Pro


原文链接:MMLU-Pro基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

联系作者

文章来源:HyperAI超神经
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...