MiniMax 发布首个 MoE 大语言模型，开放平台日均处理数百亿token

AIGC动态2年前 (2024)发布 Founder Park

AIGC动态欢迎阅读

原标题：MiniMax 发布首个 MoE 大语言模型，开放平台日均处理数百亿token
关键字：模型,议题,小米,腾讯,历史文化
文章来源：Founder Park
内容字数：10956字

内容摘要：

今天，MiniMax 全量发布了首个 MoE 架构的大模型 abab6，参数比上一版本大一个量级，可以更好地从训练语料中学到更精细的规律，完成更复杂的任务。
「基于 MoE 结构，abab6 可以具备大参数带来的处理复杂任务的能力；计算效率也会得到提升，模型在单位时间内能够训练足够多的数据。」
据悉，MiniMax 从 2023 年 6 月开始研发 MoE 模型，当前发布的是第二个版本，第一版已用于 MiniMax 的 C 端产品中。
对比法国大模型初创公司 Mistral 不久前发布的 Mistral-Medium，「abab6 在指令遵从和中文综合能力上都优于 Mistral-Medium，在英文综合能力上与 Mistral- Medium 旗鼓相当。」
以下内容来自 MiniMax 开放平台。
今天，经过了半个月的部分客户的内测和反馈，MiniMax 全量发布大语言模型 abab6，为国内首个 MoE 大语言模型。在 MoE 结构下，abab6 拥有大参数带来的处理复杂任务的能力，同时模型在单位时间内能够训练足够多的数据，计算效率也可以得到大幅提升。改进了 abab5.5 在处理

原文链接：MiniMax 发布首个 MoE 大语言模型，开放平台日均处理数百亿token