DeepSeek 发布全新开源大模型，数学推理能力超越 LLaMA-2

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：DeepSeek 发布全新开源大模型，数学推理能力超越 LLaMA-2
关键字：模型,数据,缩放,性能,任务
文章来源：夕小瑶科技说
内容字数：10726字

内容摘要：

夕小瑶科技说原创作者 | 智商掉了一地、Python自从 LLaMA 被提出以来，开源大型语言模型（LLM）的快速发展就引起了广泛研究关注，随后的一些研究就主要集中于训练固定大小和高质量的模型，但这往往忽略了对 LLM 缩放规律的深入探索。
开源 LLM 的缩放研究可以促使 LLM 提高性能和拓展应用领域，对于推进自然语言处理和人工智能领域具有重要作用。在缩放规律的指导下，为了解决目前 LLM 缩放领域中存在的不明确性，由 DeepSeek 的 AI 团队发布了全新开源模型 LLMDeepSeek LLM。此外，作者还在这个基础模型上进行了监督微调（SFT）和直接偏好优化（DPO），从而创建了 DeepSeek Chat 模型。
在性能方面，DeepSeek LLM 67B 在代码、数学和推理任务中均超越了 LLaMA-2 70B，而 DeepSeek LLM 67B Chat 在开放性评估中更是超越了 GPT-3.5。这一系列的表现为开源 LLM 的未来发展奠定了一定基础。
论文题目: DeepSeek LLM: Scaling Open-Source Language Model

原文链接：DeepSeek 发布全新开源大模型，数学推理能力超越 LLaMA-2