新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

AIGC动态7个月前发布 量子位
6 0 0

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

AIGC动态欢迎阅读

原标题:新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍
关键字:腾讯,模型,团队,基准,专家
文章来源:量子位
内容字数:3515字

内容摘要:


鱼羊 发自 凹非寺量子位 | 公众号 QbitAI“最强”开源大模型之争,又有新王入局:
大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称:
它在基准测试中击败了此前所有开源模型。
包括同为混合专家模型的Grok-1和Mixtral。
新王搅局,迅速引发了开源社区的热议。
毕竟,仅从纸面数据来看,DBRX颇具特点:总参数量为1320亿,但因为是混合专家模型,每次激活参数量仅为360亿。
就是说,在总参数量接近Llama2-70B的2倍的情况下,DBRX的生成速度也比Llama2-70B快1倍。
△DBRX vs Llama2-70B另外,DBRX是在12T token上从头训练的,训练数据量是Llama2的6倍,远高于Chinchilla定律推荐量。
网友们的第一反应be like:
首席科学家:打赌输了就把头发染蓝来看DBRX的具体细节。
DBRX由16个专家模型组成,每次训练推理会有4个专家处于激活状态。其上下文长度为32K。
为了训练DBRX,Databricks团队从云厂商那里租用了3072个H100。
一个细节是,团队向Wired透露,经过两个月的训练之后


原文链接:新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...