一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

AIGC动态欢迎阅读

原标题:一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
关键字:模型,中文,基准,语料库,方面
文章来源:机器之心
内容字数:4811字

内容摘要:


机器之心报道
编辑:陈萍、小舟开源大模型领域,又迎来一位强有力的竞争者。
近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。项目地址:https://github.com/deepseek-ai/DeepSeek-V2
论文标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
DeepSeek-V2 参数量达 236B,其中每个 token 激活 21B 参数,支持 128K token 的上下文长度。与 DeepSeek 67B (该模型去年上线)相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升 5.76 倍。DeepSeek-V2 的模型表现非常亮眼:在 AlignBench 基准上超过 GPT-4,接近 GPT-4- turbo;在 MT-Bench


原文链接:一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...