标签：专家

评测超Llama2，混合专家模型（MoE）会是大模型新方向吗？

混合专家模型（MoE）成为最近关注的热点。先是 Reddit 上一篇关于 GPT-4 结构的猜测帖，暗示了 GPT-4 可能是由 16 个子模块组成的专家模型（MoE）的混合体。...

阅读原文

AIGC动态

2年前 (2023)

深度揭秘爆火MoE！GPT-4关键架构，成开源模型逆袭锏

新智元报道编辑：编辑部【新智元导读】上周末，Mistral甩出的开源MoE大模型，震惊了整个开源社区。MoE究竟是什么？它又是如何提升了大语言模型的性能？Mistra...

阅读原文

AIGC动态

2年前 (2023)

8x7B开源MoE击败Llama 2逼近GPT-4！欧版OpenAI震惊AI界，22人公司半年估值20亿

新智元报道编辑：编辑部【新智元导读】前几日，一条MoE的磁力链接引爆AI圈。刚刚出炉的基准测试中，8*7B的小模型直接碾压了Llama 2 70B！网友直呼这是初创公...

阅读原文

AIGC动态

2年前 (2023)

一条磁力链接席卷AI圈，87GB种子直接开源8x7B MoE模型

机器之心报道机器之心编辑部「高端」的开源，往往采用最朴素的发布方式。昨天，Mistral AI 在 X 平台甩出一条磁力链接，宣布了新的开源动作。没有长篇官方博...

阅读原文

AIGC动态

2年前 (2023)

首个开源MoE大模型发布！7Bx8个专家，离GPT-4最近的一集

梦晨发自凹非寺量子位 | 公众号 QbitAI“取消今晚所有计划！”，许多AI开发者决定不睡了。只因首个开源MoE大模型刚刚由Mistral AI发布。MoE架构全称专家混合...

阅读原文

AIGC动态

2年前 (2023)

澜码科技创始人、CEO周健：专家知识的数字化是AI Agent落地的制胜之匙｜甲子引力

Agent出现后，人机交互会发生变化。11月30日至12月1日，由中国科技产业智库「甲子光年」主办的「致追风赶月的你」2023甲子引力年终盛典在北京顺利举行！百余...

阅读原文

AIGC动态

2年前 (2023)

DeepMind最新研究：这个AI Agent，几分钟学会人类专家行为，登上Nature子刊

只需要几分钟，就可以成功模仿专家行为，并记住所有学过的知识，Google DeepMind 研发的 AI Agent，登上了 Nature 子刊。据介绍，在 3D 模拟中，该智能体能够...

阅读原文

AIGC动态

2年前 (2023)

北大具身智能新成果：无需训练，听指令就能灵活走位

北大前沿计算研究中心投稿量子位 | 公众号 QbitAI北京大学董豪团队具身导航最新成果来了：无需额外建图和训练，只需说出导航指令，如：Walk forward across ...

阅读原文

AIGC动态

2年前 (2023)

8张3090，1天压缩万亿参数大模型！3.2TB骤降至160GB，压缩率高达20倍

新智元报道编辑：好困【新智元导读】最近，来自ISTA的研究人员提出了一种全新的模型量化方法QMoE，可以将1.6万亿个参数的SwitchTransformer压缩到160GB以下（...

阅读原文

AIGC动态

2年前 (2023)

将混合专家推向极限：只需更新0.32%的参数就能完成模型微调

机器之心报道编辑：Panda W微调无需更新全部模型参数，这种方法只需更新不到 1% 的参数。众所周知，大模型的训练成本很高，但其实对预训练后的模型进行微调也...

阅读原文

AIGC动态

2年前 (2023)

1…3 45