势均力敌,不分伯仲。
原标题:DeepSeek R1有没有赶上OpenAI o1? 八大场景测评结果出炉
文章来源:机器之心
内容字数:9556字
DeepSeek R1:性价比路线挑战OpenAI精英
近日,机器之心报道了DeepSeek R1推理模型与OpenAI ChatGPT模型的对比测试结果,引发广泛关注。测试涵盖创意写作、数学、指令遵循等领域,DeepSeek R1以其高性价比的表现,成功挑战OpenAI付费“精英”模型,为AI领域带来新的思考。
测试设计与方法
测试采用8个不同类型的prompt,涵盖创意写作(老爸笑话、创意故事)、逻辑推理(另类藏头诗、追踪球的下落)、知识问答(历史颜色命名、挑战巨型质数)、以及复杂的指令遵循(赶飞机、复数集合测试)。测试结果以DeepSeek R1: ChatGPT o1: ChatGPT o1 Pro的比分呈现,最终比分为5:2:4,DeepSeek R1表现亮眼。
创意写作:DeepSeek R1展现灵气
在创意写作方面,DeepSeek R1在“老爸笑话”和“亚伯拉罕·林肯发明篮球”的创意故事创作中表现突出,其生成的答案充满想象力和趣味性,胜过OpenAI模型。
逻辑推理与知识问答:各有千秋
在“另类藏头诗”任务中,DeepSeek R1因理解错误而失分,而ChatGPT o1 Pro表现最佳。在“历史颜色命名”和“挑战巨型质数”中,三个模型都展现了不错的知识储备和推理能力,但ChatGPT o1 Pro在风格上略胜一筹。DeepSeek R1在“挑战巨型质数”中凭借精确答案获得胜利,展现了其强大的信息检索和计算能力。
指令遵循:细节决定成败
在“赶飞机”任务中,DeepSeek R1虽然计算时间略慢于ChatGPT o1,但其附加的风险提示和实用建议,使其在细节处理上胜出。在“追踪球的下落”中,三个模型均正确回答,展现了对物体物理状态的理解能力。
复杂指令:暴露不足
在“复数集合测试”中,DeepSeek R1在计算总位数时出现错误,而ChatGPT o1和o1 Pro则准确完成任务,展现了其在处理复杂指令方面的优势。
总结:性价比路线的胜利
总的来说,DeepSeek R1在多项测试中展现了与OpenAI付费模型相媲美的能力,尤其在创意写作和信息检索方面表现出色。虽然在一些复杂任务中仍存在不足,但其高性价比优势使其在AI竞技场中占据一席之地,打破了“高成本才能高性能”的刻板印象。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台