语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3

Next token prediction或许不是通往机器智能的唯一道路。

语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3

原标题:语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3
文章来源:机器之心
内容字数:6145字

人大高瓴-蚂蚁集团联合研发新型大语言模型LLaDA:挑战自回归范式

本文介绍了中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队和蚂蚁集团共同完成的一项研究成果:LLaDA(Large Language Diffusion with Masking)大语言模型。该模型挑战了现有大语言模型普遍依赖自回归机制的传统观念,提出了一种基于掩码扩散模型的全新概率建模框架,在性能上与自回归模型不相上下,甚至在某些方面表现更优。

1. LLaDA:突破自回归局限的创新

当前主流大语言模型依赖于自回归的“next token prediction”范式,即通过预测下一个词来构建语言的联合概率。LLaDA则另辟蹊径,基于“最大似然估计”逼近真实语言分布,采用前向掩码加噪和反向去噪的机制。这种双向生成方式不仅突破了自回归模型单向生成的局限,还通过优化似然下界,提供了一种不同于自回归的、原理严谨的概率建模方案。

2. LLaDA的卓越性能

LLaDA 8B模型在多个方面展现了卓越的性能:

  1. 可扩展性:在MMLU、GSM8K等多个任务上,LLaDA与自回归模型表现相当,甚至在模型规模增大后迅速缩小性能差距,展现了强大的可扩展能力。
  2. 上下文学习与指令遵循:在15个热门基准测试中,预训练了2.3万亿tokens的LLaDA 8B Base模型,其zero/few-shot学习能力超越了LLaMA2 7B Base,并与LLaMA3 8B Base媲美。经过监督微调后,其指令遵循能力显著提升,能够胜任多轮对话及跨语言生成任务。
  3. 平衡的正向与逆向推理能力:LLaDA有效克服了传统自回归模型在逆向推理任务中存在的“逆向诅咒”问题,在诗歌补全等任务中展现了强大的双向推理能力。
  4. 实际应用效果:LLaDA在多轮对话、数学题解和跨语言文本生成等实际应用场景中表现出色,能够准确把握上下文并生成流畅、合理的回答。

3. LLaDA的核心方法

LLaDA的核心在于其概率建模框架:

  1. 前向过程:对文本tokens逐步掩码,直到序列完全掩码。
  2. 反向过程:通过预测被掩码的tokens,逐步恢复数据分布。
  3. 训练目标:仅对被掩码部分计算交叉熵损失,该目标函数为负对数似然的上界。
  4. 预训练:使用Transformer作为掩码预测器,在2.3万亿tokens的数据上进行预训练。
  5. 监督微调(SFT):使用成对数据进行训练,提升模型的指令遵循能力。
  6. 推理:从完全掩码的响应开始,通过离散化的反向过程逐步恢复文本。

4. 总结

LLaDA通过前向掩码加噪与反向去噪机制,成功实现了大语言模型的核心能力,挑战了“大语言模型的智能必然依赖自回归生成”的传统观念。其在可扩展性、上下文学习和指令遵循等方面的优异表现,为大语言模型的研究提供了新的方向和思路。团队计划近期开源推理代码和LLaDA 8B Base权重,后续还将开源LLaDA 8B Instruct权重。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...