一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo
关键字：模型,中文,基准,语料库,方面
文章来源：机器之心
内容字数：4811字

内容摘要：

机器之心报道
编辑：陈萍、小舟开源大模型领域，又迎来一位强有力的竞争者。
近日，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2，主打训练成本更低、推理更加高效。项目地址：https://github.com/deepseek-ai/DeepSeek-V2
论文标题：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
DeepSeek-V2 参数量达 236B，其中每个 token 激活 21B 参数，支持 128K token 的上下文长度。与 DeepSeek 67B （该模型去年上线）相比，DeepSeek-V2 实现了更强的性能，同时节省了 42.5% 的训练成本，减少了 93.3% 的 KV 缓存，并将最大生成吞吐量提升 5.76 倍。DeepSeek-V2 的模型表现非常亮眼：在 AlignBench 基准上超过 GPT-4，接近 GPT-4- turbo；在 MT-Bench

原文链接：一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo