一秒侦破大模型“高分低能”：贾佳亚团队联手剑桥清华等共推评测新范式

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：一秒侦破大模型“高分低能”：贾佳亚团队联手剑桥清华等共推评测新范式
关键字：模型,余数,步骤,华为,字节跳动
文章来源：AI前线
内容字数：0字

内容摘要：

作者 | MR-Ben 团队
颠覆过往大模型评测标准，最新、最全、最权威的测评数据集 MR-Ben 来了！
这是继今年 4 月发布堪称 GPT-4 + DALL- E-3 的王炸产品超强视觉语言模型 Mini-Gemini 后，港中文贾佳亚团队再次提出的极具代表性的作品。在 MR-Ben 的“监督”下，大模型不仅要像学生那样会答题，还要像老师那样会阅卷，真实的推理能力无所遁形。
MR-Ben 细致地评测了不少国内外一线的开源和闭源模型，如 GPT4-Turbo、Cluade3.5-Sonnet、Mistral-Large、Zhipu-GLM4、Moonshot-v1、Yi-Large、Qwen2-70B、Deepseek-V2 等，并进行了详尽的分析。
哪些看似美丽的大模型会被“卸妆”，哪个模型地表最强？目前该工作所有代码和数据均已开源，一起来看看！
Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/
Arxiv Page: https://arxiv.org/abs/2406.13975
Github Re

原文链接：一秒侦破大模型“高分低能”：贾佳亚团队联手剑桥清华等共推评测新范式