DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

AIGC动态1年前 (2025)发布量子位

团队还给基准测试挑出了bug

原标题：DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键
文章来源：量子位
内容字数：2879字

DeepSeek-R1-Preview：超越Lite版，与OpenAI o1比肩的开源大模型即将到来

近日，DeepSeek的全新大模型DeepSeek-R1-Preview引发广泛关注。它在代码基准测试LiveCodeBench上取得了令人瞩目的成绩，表现与OpenAI o1的中档推理设置相当，甚至在某些方面超越了GPT-4o。

DeepSeek-R1-Preview：脱胎换骨的升级
不同于此前发布的轻量级预览版DeepSeek-R1-Lite-Preview，DeepSeek-R1-Preview采用了更大规模的基础模型。这意味着其推理能力得到了显著提升，在LiveCodeBench的测试中与OpenAI o1的中档推理设置不相上下。DeepSeek团队还参与了LiveCodeBench评分系统的bug修复工作，确保了测试结果的准确性。
强大的代码能力与自我反思机制
DeepSeek-R1-Lite-Preview已展现出强大的代码生成能力，并在某些情况下表现出类似“自我反思”的纠错能力，这在后续用户的测试中得到了验证。DeepSeek-R1-Preview作为其升级版，预计代码能力将更上一层楼。 LiveCodeBench的测试也涵盖了代码自修复、执行和测试输出预测等多个方面，全面评估了模型的代码能力。
LiveCodeBench：公平可靠的代码能力评估平台
LiveCodeBench由UC伯克利、MIT和康奈尔大学团队推出，其独特的测试方法避免了数据泄露问题，并通过持续更新题目保证了测试的公平性和可靠性，获得了开发者社区的广泛认可。
开源的承诺与未来的期待
DeepSeek此前已宣布R1模型将开源，这意味着与OpenAI o1编程能力相当的开源模型即将发布。这一消息引发了网友们的热议，许多人期待着DeepSeek-R1-Preview的开源以及API的上线。一些开发者甚至呼吁Cursor将R1-Preview集成到其Agent模式中。
国产大模型的蓬勃发展
文章还简要介绍了其他国产大模型的最新进展，例如MiniMax开源的4M超长上下文新模型，以及其他在特定领域取得突破的模型。这表明国产大模型领域正处于快速发展阶段。
OpenAI的动向
文章最后提及OpenAI即将发布o3-mini模型，并透露了该模型的一些特性，例如速度快、大多数情况下不如o1-pro等信息。这预示着大模型领域的竞争将更加激烈。

总而言之，DeepSeek-R1-Preview的出现标志着开源大模型领域取得了重大进展，其强大的代码能力和即将到来的开源，将对整个行业产生深远的影响。未来，随着更多开源模型和API的发布，程序员们或许真的只需要按Tab键就能完成编程工作。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # DeepSeek模型 # Tab键编程 # 代码能力评估 # 开源大模型 # 编程辅助工具

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

团队还给基准测试挑出了bug

DeepSeek-R1-Preview：超越Lite版，与OpenAI o1比肩的开源大模型即将到来

DeepSeek-R1-Preview：脱胎换骨的升级

强大的代码能力与自我反思机制

LiveCodeBench：公平可靠的代码能力评估平台

开源的承诺与未来的期待

国产大模型的蓬勃发展

OpenAI的动向

联系作者

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

多活十年！OpenAI为研究长寿推出GPT-4b，联手清华大牛丁胜搞“细胞重编程”，奥特曼本人投资

相关文章

暂无评论