标签:专家

大模型MoE的前世今生,10个模型一文搞懂!

2024年3、4月这段时间,很多MoE模型扎堆发布,包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。 下面这个表格列出了部分近期发布的MoE工作MoE模型目前风头正劲,就...
阅读原文

全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral

新智元报道编辑:编辑部 【新智元导读】最大开源模型,再次刷爆纪录!Snowflake的Arctic,以128位专家和4800亿参数,成为迄今最大的开源模型。它的特点,是又...
阅读原文

国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑

APUS-xDAN-4.0(MoE)参数规模1360亿,可在消费级显卡4090上运行。 作者|程茜 编辑|心缘 智东西4月2日报道,今天,全球移动互联网公司APUS与大模型创企新旦智...
阅读原文

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI“最强”开源大模型之争,又有新王入局: 大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称: 它在基准测试中击败...
阅读原文

一次性支持 200 万字无损上下文!Kimi智能助手玩了个大的——月之暗面「登月」最新进展!

夕小瑶科技说 原创作者 | 王二狗让大模型一次性无损地「吃下」一本书已经不是什么稀奇的事了,但如果我告诉你是下面👇🏻这样一本近百万字的书呢? 没错,这么疯...
阅读原文

马斯克正式开源 Grok-1,成为全球最大的开源大模型

开源了 但又没 完全开源今日凌晨,在一片质疑声中,信守承诺的马斯克卡在最后一日正式开源了 GroK。 好消息是, 马斯克开源了 Grok 1.0 的完整代码,坏消息是...
阅读原文

突发:马斯克Grok开源!

全球最大开源大模型!马斯克Grok-1参数量3410亿,正式开源。 作者|云鹏 编辑|心缘 6个月掏出3410亿参数自研大模型,马斯克说到做到! 智东西3月18日消息,就...
阅读原文

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

鱼羊 克雷西 发自 凹非寺量子位 | 公众号 QbitAI马斯克说到做到: 旗下大模型Grok现已开源! 代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是...
阅读原文

GPT-4正接管人类数据专家!先验知识让LLM大胆预测,准确率堪比传统方式

新智元报道编辑:桃子 【新智元导读】终有一天,LLM可以成为人类数据专家,针对不同领域进行数据分析,大大解放AI研究员。在数据科学中,AI研究员经常面临处...
阅读原文

群魔乱舞:MoE大模型详解

700个开发硬件免费申请➕现金大奖!生成式 AI、机器人 AI、PC AI 三大赛道!AMD Pervasive AI 开发者挑战赛报名火热进行中,扫码了解详情并报名~导读本文是知...
阅读原文

斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了

来源:机器学习研究组订阅 在我们的工作群里,经常会有一位管理者来协调每个人的工作并汇总工作成果。近日,斯坦福大学的 Mirac Suzgun 和 OpenAI 的 Adam Ta...
阅读原文

国内首个!最火的MoE大模型APP来了,免费下载,人人可玩

明敏 发自 凹非寺量子位 | 公众号 QbitAIMoE(混合专家)模型最近有多火,不用过多介绍了吧? 作为当下最顶尖、最前沿的大模型技术方向,MoE能在不增加推理成...
阅读原文

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

机器之心专栏 机器之心编辑部2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理...
阅读原文

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

机器之心专栏 机器之心编辑部对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每...
阅读原文

从零手搓MoE大模型,大神级教程来了

克雷西 发自 凹非寺量子位 | 公众号 QbitAI传说中GPT-4的“致胜法宝”——MoE(混合专家)架构,自己也能手搓了! Hugging Face上有一位机器学习大神,分享了如何...
阅读原文