对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

AIGC动态8个月前发布 AI前线
5 0 0

对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

AIGC动态欢迎阅读

原标题:对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线
关键字:模型,解读,小米,腾讯,架构
文章来源:AI前线
内容字数:4369字

内容摘要:


作者|冬梅
1 月 16 日,InfoQ 获悉,经过了半个月的部分客户的内测和反馈,MiniMax 全量发布大语言模型 abab6,该模型为国内首个 MoE(Mixture-of-Experts)大语言模型。早在上个月举办的数字中国论坛成立大会暨数字化发展论坛的一场分论坛上,MiniMax 副总裁魏伟就曾透露将于近期发布国内首个基于 MoE 架构的大模型,对标 OpenAI GPT-4。在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。为什么选择 MoE 架构?那么,MoE 到底是什么?MiniMax 的大模型为何要使用使用 MoE 架构?
MoE 架构全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家。MoE 模型将覆盖不同学习者(专家)的不同输入数据。
图片来源:https ://arxiv.org/pdf/1701.06538.pdf


原文链接:对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

联系作者

文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...