DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉

AIGC动态2年前 (2025)发布机器之心

势均力敌，不分伯仲。

原标题：DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉
文章来源：机器之心
内容字数：9556字

DeepSeek R1：性价比路线挑战OpenAI精英

近日，机器之心报道了DeepSeek R1推理模型与OpenAI ChatGPT模型的对比测试结果，引发广泛关注。测试涵盖创意写作、数学、指令遵循等领域，DeepSeek R1以其高性价比的表现，成功挑战OpenAI付费“精英”模型，为AI领域带来新的思考。

测试设计与方法
测试采用8个不同类型的prompt，涵盖创意写作（老爸笑话、创意故事）、逻辑推理（另类藏头诗、追踪球的下落）、知识问答（历史颜色命名、挑战巨型质数）、以及复杂的指令遵循（赶飞机、复数集合测试）。测试结果以DeepSeek R1: ChatGPT o1: ChatGPT o1 Pro的比分呈现，最终比分为5:2:4，DeepSeek R1表现亮眼。
创意写作：DeepSeek R1展现灵气
在创意写作方面，DeepSeek R1在“老爸笑话”和“亚伯拉罕·林肯发明篮球”的创意故事创作中表现突出，其生成的答案充满想象力和趣味性，胜过OpenAI模型。
逻辑推理与知识问答：各有千秋
在“另类藏头诗”任务中，DeepSeek R1因理解错误而失分，而ChatGPT o1 Pro表现最佳。在“历史颜色命名”和“挑战巨型质数”中，三个模型都展现了不错的知识储备和推理能力，但ChatGPT o1 Pro在风格上略胜一筹。DeepSeek R1在“挑战巨型质数”中凭借精确答案获得胜利，展现了其强大的信息检索和计算能力。
指令遵循：细节决定成败
在“赶飞机”任务中，DeepSeek R1虽然计算时间略慢于ChatGPT o1，但其附加的风险提示和实用建议，使其在细节处理上胜出。在“追踪球的下落”中，三个模型均正确回答，展现了对物体物理状态的理解能力。
复杂指令：暴露不足
在“复数集合测试”中，DeepSeek R1在计算总位数时出现错误，而ChatGPT o1和o1 Pro则准确完成任务，展现了其在处理复杂指令方面的优势。
总结：性价比路线的胜利
总的来说，DeepSeek R1在多项测试中展现了与OpenAI付费模型相媲美的能力，尤其在创意写作和信息检索方面表现出色。虽然在一些复杂任务中仍存在不足，但其高性价比优势使其在AI竞技场中占据一席之地，打破了“高成本才能高性能”的刻板印象。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # AI模型性能差异 # DeepSeekR1性能评测 # OpenAIo1对比测试 # 八大应用场景AI测评 # 大模型长尾应用

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉

势均力敌，不分伯仲。

DeepSeek R1：性价比路线挑战OpenAI精英

测试设计与方法

创意写作：DeepSeek R1展现灵气

逻辑推理与知识问答：各有千秋

指令遵循：细节决定成败

复杂指令：暴露不足

总结：性价比路线的胜利

联系作者

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

ICLR 2025｜大模型也需要好奇心，TeleAI 提出探索驱动的对齐方法，8B越级胜70B

相关文章

暂无评论

DeepSeek R1有没有赶上OpenAI o1？ 八大场景测评结果出炉

势均力敌，不分伯仲。

DeepSeek R1：性价比路线挑战OpenAI精英

测试设计与方法

创意写作：DeepSeek R1展现灵气

逻辑推理与知识问答：各有千秋

指令遵循：细节决定成败

复杂指令：暴露不足

总结：性价比路线的胜利

联系作者

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

ICLR 2025｜大模型也需要好奇心，TeleAI 提出探索驱动的对齐方法，8B越级胜70B

相关文章

暂无评论

DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉