豆包文科成绩超了一本线,为什么理科不行?

AIGC动态5个月前发布 量子位
5 0 0

豆包文科成绩超了一本线,为什么理科不行?

AIGC动态欢迎阅读

原标题:豆包文科成绩超了一本线,为什么理科不行?
关键字:豆包,模型,字节跳动,成绩,题目
文章来源:量子位
内容字数:0字

内容摘要:


金磊 发自 凹非寺量子位 | 公众号 QbitAI什么?好多大模型的文科成绩超一本线,还是最卷的河南省???
△图源:极客公园没错,最近就有这么一项大模型“高考大摸底”评测走红了。
河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这个分数,其中头两名最值得关注:
GPT-4o:562分
字节豆包:542.5分
……
从结果中来看,GPT-4o的表现依旧是处于领先状态,而在国产大模型这边,比较亮眼的成绩便属于豆包了。
并且在语文和历史等科目的成绩甚至还超越了GPT-4o。
这也让不少网友纷纷感慨:
AI文科成绩这么好,看来在处理语言和逻辑上还是很有优势的。
不过有一说一,毕竟国产大模型的竞争是如此之激烈,这份评测的排名真的靠谱吗?发布仅数月的豆包,真具备此等实力吗?以及这数学……又是怎么一回事儿?
先看评测榜单要回答上述的问题,我们不妨先来查一查豆包在最新的权威评测榜单中的表现是否一致。
首先有请由智源研究院发布的FlagEval(天秤)。
它的评测方式是这样的:
对于开源模型, FlagEval会综合概率选择和自由生成两种方式来评测,对于闭源模型, FlagE


原文链接:豆包文科成绩超了一本线,为什么理科不行?

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...