AIGC动态欢迎阅读
原标题:DeepSeek 发布全新开源大模型,数学推理能力超越 LLaMA-2
关键字:模型,数据,缩放,性能,任务
文章来源:夕小瑶科技说
内容字数:10726字
内容摘要:
夕小瑶科技说 原创作者 | 智商掉了一地、Python自从 LLaMA 被提出以来,开源大型语言模型(LLM)的快速发展就引起了广泛研究关注,随后的一些研究就主要集中于训练固定大小和高质量的模型,但这往往忽略了对 LLM 缩放规律的深入探索。
开源 LLM 的缩放研究可以促使 LLM 提高性能和拓展应用领域,对于推进自然语言处理和人工智能领域具有重要作用。在缩放规律的指导下,为了解决目前 LLM 缩放领域中存在的不明确性,由 DeepSeek 的 AI 团队发布了全新开源模型 LLMDeepSeek LLM。此外,作者还在这个基础模型上进行了监督微调(SFT)和直接偏好优化(DPO),从而创建了 DeepSeek Chat 模型。
在性能方面,DeepSeek LLM 67B 在代码、数学和推理任务中均超越了 LLaMA-2 70B,而 DeepSeek LLM 67B Chat 在开放性评估中更是超越了 GPT-3.5。这一系列的表现为开源 LLM 的未来发展奠定了一定基础。
论文题目: DeepSeek LLM: Scaling Open-Source Language Model
原文链接:DeepSeek 发布全新开源大模型,数学推理能力超越 LLaMA-2
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...