豆包文科成绩超了一本线，为什么理科不行？

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：豆包文科成绩超了一本线，为什么理科不行？
关键字：豆包,模型,字节跳动,成绩,题目
文章来源：量子位
内容字数：0字

内容摘要：

金磊发自凹非寺量子位 | 公众号 QbitAI什么？好多大模型的文科成绩超一本线，还是最卷的河南省？？？
△图源：极客公园没错，最近就有这么一项大模型“高考大摸底”评测走红了。
河南高考文科今年的一本线是521分，根据这项评测，共计四个大模型大于或等于这个分数，其中头两名最值得关注：
GPT-4o：562分
字节豆包：542.5分
……
从结果中来看，GPT-4o的表现依旧是处于领先状态，而在国产大模型这边，比较亮眼的成绩便属于豆包了。
并且在语文和历史等科目的成绩甚至还超越了GPT-4o。
这也让不少网友纷纷感慨：
AI文科成绩这么好，看来在处理语言和逻辑上还是很有优势的。
不过有一说一，毕竟国产大模型的竞争是如此之激烈，这份评测的排名真的靠谱吗？发布仅数月的豆包，真具备此等实力吗？以及这数学……又是怎么一回事儿？
先看评测榜单要回答上述的问题，我们不妨先来查一查豆包在最新的权威评测榜单中的表现是否一致。
首先有请由智源研究院发布的FlagEval（天秤）。
它的评测方式是这样的：
对于开源模型， FlagEval会综合概率选择和生成两种方式来评测，对于闭源模型， FlagE

原文链接：豆包文科成绩超了一本线，为什么理科不行？