本文深入体验了Deepseek-R1的解题能力。
原标题:Deepseek-R1:半步成神
文章来源:智猩猩GenAI
内容字数:2254字
DeepSeek R1: 高考数学压轴题挑战
本文作者分享了使用大型语言模型DeepSeek R1解决一道高考数学压轴题的体验,并与其他模型O1-preview和O1-mini进行了对比。这道题是作者根据浙江高考数学题改编的加强版,难度较高,旨在测试模型的推理和解题能力。
1. 题目与背景
题目要求已知一个数列的递推公式(文中未给出具体公式),求其前101项和最接近的选项(A. 7 B. 8 C. 9 D. 10)。作者设计这道题的初衷是源于浙江高考和月考中常出现的数列压轴题,并借此考察大型语言模型的解题能力。
2. 模型测试与结果对比
作者首先测试了DeepSeek R1,它成功解决了2022年浙江高考数学压轴题。随后,作者将自己设计的加强版题目分别提交给O1-preview、O1-mini和DeepSeek R1。
O1-preview给出了冗长的解答过程,但最终结果(5.19)与正确答案相差甚远。
O1-mini也未能给出正确答案。
DeepSeek R1则通过类似于人工解题的“奇技淫巧”,得到了8.625的近似值,虽然在题目允许的误差范围内,但由于未能完全理解“最接近”的含义,选择了8,而非更接近正确答案的9。
3. DeepSeek R1的表现与分析
作者认为DeepSeek R1的表现令人震惊,它展现了强大的推理和解题能力,能够秒杀高考级别的题目。DeepSeek R1抓住了数列的渐进增长趋势,并进行高精度拟合,这与人工解题的思路相符。虽然在最终选择答案时出现了一点小失误,但其整体表现已经超越了其他测试的模型。
4. 作者的结论
作者认为DeepSeek R1的推理和解题水平已经达到很高的高度,至少能够轻松应对高考级别的数学题目。尽管存在一些细节上的不足,例如未能完全理解题干中的“最接近”的含义,但这并不影响作者对其能力的肯定。作者相信,随着技术的不断发展,大型语言模型在数学解题方面的能力将会不断提升。
5. 文章总结
本文通过一个具有挑战性的高考数学压轴题,对DeepSeek R1等大型语言模型的解题能力进行了测试和评估。结果表明,DeepSeek R1在处理复杂数学问题方面展现出了令人印象深刻的能力,虽然仍存在一些需要改进的地方,但其潜力巨大,未来发展值得期待。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,专注于生成式人工智能。