新开源之王来了！1320亿参数，逻辑数理全面打赢Grok，还比Llama2-70B快1倍

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：新开源之王来了！1320亿参数，逻辑数理全面打赢Grok，还比Llama2-70B快1倍
关键字：腾讯,模型,团队,基准,专家
文章来源：量子位
内容字数：3515字

内容摘要：

鱼羊发自凹非寺量子位 | 公众号 QbitAI“最强”开源大模型之争，又有新王入局：
大数据巨头Databricks，刚刚发布MoE大模型DBRX，并宣称：
它在基准测试中击败了此前所有开源模型。
包括同为混合专家模型的Grok-1和Mixtral。
新王搅局，迅速引发了开源社区的热议。
毕竟，仅从纸面数据来看，DBRX颇具特点：总参数量为1320亿，但因为是混合专家模型，每次激活参数量仅为360亿。
就是说，在总参数量接近Llama2-70B的2倍的情况下，DBRX的生成速度也比Llama2-70B快1倍。
△DBRX vs Llama2-70B另外，DBRX是在12T token上从头训练的，训练数据量是Llama2的6倍，远高于Chinchilla定律推荐量。
网友们的第一反应be like：
首席科学家：打赌输了就把头发染蓝来看DBRX的具体细节。
DBRX由16个专家模型组成，每次训练推理会有4个专家处于激活状态。其上下文长度为32K。
为了训练DBRX，Databricks团队从云厂商那里租用了3072个H100。
一个细节是，团队向Wired透露，经过两个月的训练之后

原文链接：新开源之王来了！1320亿参数，逻辑数理全面打赢Grok，还比Llama2-70B快1倍