标签:专家
8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿
新智元报道编辑:编辑部【新智元导读】前几日,一条MoE的磁力链接引爆AI圈。刚刚出炉的基准测试中,8*7B的小模型直接碾压了Llama 2 70B!网友直呼这是初创公...
深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏
新智元报道编辑:编辑部【新智元导读】上周末,Mistral甩出的开源MoE大模型,震惊了整个开源社区。MoE究竟是什么?它又是如何提升了大语言模型的性能?Mistra...
一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型
机器之心报道机器之心编辑部「高端」的开源,往往采用最朴素的发布方式。昨天,Mistral AI 在 X 平台甩出一条磁力链接,宣布了新的开源动作。没有长篇官方博...
首个开源MoE大模型发布!7Bx8个专家,离GPT-4最近的一集
梦晨 发自 凹非寺量子位 | 公众号 QbitAI“取消今晚所有计划!”,许多AI开发者决定不睡了。只因首个开源MoE大模型刚刚由Mistral AI发布。MoE架构全称专家混合...
澜码科技创始人、CEO周健:专家知识的数字化是AI Agent落地的制胜之匙|甲子引力
Agent出现后,人机交互会发生变化。11月30日至12月1日,由中国科技产业智库「甲子光年」主办的「致追风赶月的你」2023甲子引力年终盛典在北京顺利举行!百余...
DeepMind最新研究:这个AI Agent,几分钟学会人类专家行为,登上Nature子刊
只需要几分钟,就可以成功模仿专家行为,并记住所有学过的知识,Google DeepMind 研发的 AI Agent,登上了 Nature 子刊。据介绍,在 3D 模拟中,该智能体能够...
北大具身智能新成果:无需训练,听指令就能灵活走位
北大前沿计算研究中心 投稿量子位 | 公众号 QbitAI北京大学董豪团队具身导航最新成果来了:无需额外建图和训练,只需说出导航指令,如:Walk forward across ...
8张3090,1天压缩万亿参数大模型!3.2TB骤降至160GB,压缩率高达20倍
新智元报道编辑:好困【新智元导读】最近,来自ISTA的研究人员提出了一种全新的模型量化方法QMoE,可以将1.6万亿个参数的SwitchTransformer压缩到160GB以下(...
将混合专家推向极限:只需更新0.32%的参数就能完成模型微调
机器之心报道编辑:Panda W微调无需更新全部模型参数,这种方法只需更新不到 1% 的参数。众所周知,大模型的训练成本很高,但其实对预训练后的模型进行微调也...