MiniMax 发布首个 MoE 大语言模型,开放平台日均处理数百亿token
AIGC动态欢迎阅读
原标题:MiniMax 发布首个 MoE 大语言模型,开放平台日均处理数百亿token
关键字:模型,议题,小米,腾讯,历史文化
文章来源:Founder Park
内容字数:10956字
内容摘要:
今天,MiniMax 全量发布了首个 MoE 架构的大模型 abab6,参数比上一版本大一个量级,可以更好地从训练语料中学到更精细的规律,完成更复杂的任务。
「基于 MoE 结构,abab6 可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。」
据悉,MiniMax 从 2023 年 6 月开始研发 MoE 模型,当前发布的是第二个版本,第一版已用于 MiniMax 的 C 端产品中。
对比法国大模型初创公司 Mistral 不久前发布的 Mistral-Medium,「abab6 在指令遵从和中文综合能力上都优于 Mistral-Medium,在英文综合能力上与 Mistral- Medium 旗鼓相当。」
以下内容来自 MiniMax 开放平台。
今天,经过了半个月的部分客户的内测和反馈,MiniMax 全量发布大语言模型 abab6,为国内首个 MoE 大语言模型。在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理
原文链接:MiniMax 发布首个 MoE 大语言模型,开放平台日均处理数百亿token
联系作者
文章来源:Founder Park
作者微信:Founder-Park
作者简介:来自极客公园,专注与科技创业者聊「真问题」。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...