上交举办“大模型奥林匹克竞赛”，GPT-4o仅得39分

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：上交举办“大模型奥林匹克竞赛”，GPT-4o仅得39分
关键字：模型,基准,能力,认知,问题
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谢年年大模型的奥林匹克竞赛来了！
最近，上交构建了一个全面、极具挑战性的奥赛级别的基准——OlympicArena，从来自62个不同奥林匹克竞赛中筛选出11,163个问题，涵盖数学、物理、化学、生物、地理、天文学和计算机科学等七个学科，细分为34个专业领域。除了8类逻辑推理任务外，还有5类视觉推理能力，分为13种答案类型（如表达式、区间）。
论文标题:OlympicArena: Benchmarking Multi-discipline
Cognitive Reasoning for Superintelligent AI
论文链接：https://arxiv.org/pdf/2406.12753
奥林匹克竞赛，作为选拔拔尖青少年人才的竞赛，其难度与挑战性不言而喻。在奥赛中获得优异成绩的同学可以获得保送名牌大学和参加自主招生考试的资格。
那么大模型在奥赛中的表现如何呢？
作者提供了一套全面的资源来支持AI研究，包括基准数据集、开源标注平台、详细的评估工具和带有自动提交功能的排行榜：
https://github.com/GAIR-NLP/OlympicAre

原文链接：上交举办“大模型奥林匹克竞赛”，GPT-4o仅得39分

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文

# AIGC动态 # 基准 # 模型 # 能力 # 认知 # 问题

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

上交举办“大模型奥林匹克竞赛”，GPT-4o仅得39分

AIGC动态欢迎阅读

内容摘要：

联系作者

Andrej Karpathy提出未来计算机2.0构想：完全由神经网络驱动！网友炸锅了

谷歌重磅：告别RAG，长上下文的大语言模型无需检索增强

相关文章

暂无评论

上交举办“大模型奥林匹克竞赛”，GPT-4o仅得39分

AIGC动态欢迎阅读

内容摘要：

联系作者

Andrej Karpathy提出未来计算机2.0构想： 完全由神经网络驱动！网友炸锅了

谷歌重磅：告别RAG，长上下文的大语言模型无需检索增强

相关文章

暂无评论

Andrej Karpathy提出未来计算机2.0构想：完全由神经网络驱动！网友炸锅了