嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁

AIGC动态2个月前发布 量子位
345 0 0

8B模型搞定难倒GPT-4o的逆转诅咒

嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁

原标题:嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
文章来源:量子位
内容字数:4474字

人大高瓴与蚂蚁集团联合发布LLaDA:挑战自回归大模型的局限

近日,人大高瓴人工智能研究院和蚂蚁集团合作推出了一种名为LLaDA(Large Language Diffusion with Masking)的大型语言模型,该模型利用扩散模型替代了传统的自回归模型,旨在解决自回归模型在处理双向依赖关系和逆推理任务上的不足。

1. LLaDA的核心创新:扩散模型替代自回归

传统的自回归模型,如GPT系列,通过逐个生成token的方式进行文本预测,这使得它们在处理需要双向理解的任务(例如,根据下句推断上句)上表现不佳。LLaDA则采用扩散模型,能够同时考虑输入序列中的所有token,从而更好地捕捉文本的双向依赖关系。这挑战了LLMs关键能力与自回归模型之间的固有联系。

2. LLaDA的性能表现

LLaDA-8B模型在多个方面展现出优异的性能:

  1. 上下文学习:在近乎所有15个标准的零样本/少样本学习任务中,LLaDA-8B超越了LLaMA2-7B,并与LLaMA3-8B表现相当。
  2. 指令遵循:经过监督微调后,LLaDA的指令遵循能力显著增强。
  3. 反转推理:LLaDA有效地克服了自回归模型在反转推理任务中的局限,在反转诗歌完成任务中甚至超越了GPT-4o。
  4. 可扩展性:LLaDA能够有效扩展到更大的计算资源上。

3. LLaDA的技术细节

LLaDA采用Transformer架构,但去除了因果掩码,允许模型同时处理所有token。它使用随机掩码机制,而不是固定的掩码比例,在训练中只对被掩码的token计算损失。在监督微调阶段,LLaDA根据任务特点选择性地掩码token,进一步提升性能。推理阶段,LLaDA通过反向采样生成文本,并采用多种策略平衡生成效率和质量。

4. LLaDA的意义和未来展望

LLaDA的研究表明,自回归并非实现LLMs智能的唯一路径。其在效率和性能上的提升,为大模型的发展提供了新的方向。这项研究也引发了关于重构掩码语言模型建模、RAG和嵌入式相似性搜索等方面的讨论。虽然此前也出现过超越Transformer的架构,但LLaDA的成功应用,或许预示着扩散模型在大型语言模型领域的新篇章。

5. 研究团队与论文信息

这项研究由人大高瓴人工智能学院与蚂蚁集团共同完成,通讯作者为李崇轩。论文已发表在arXiv上,地址为:https://arxiv.org/abs/2502.09992 项目主页:https://ml-gsai.github.io/LLaDA-demo/


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...