8B模型搞定难倒GPT-4o的逆转诅咒
原标题:嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
文章来源:量子位
内容字数:4474字
人大高瓴与蚂蚁集团联合发布LLaDA:挑战自回归大模型的局限
近日,人大高瓴人工智能研究院和蚂蚁集团合作推出了一种名为LLaDA(Large Language Diffusion with Masking)的大型语言模型,该模型利用扩散模型替代了传统的自回归模型,旨在解决自回归模型在处理双向依赖关系和逆推理任务上的不足。
1. LLaDA的核心创新:扩散模型替代自回归
传统的自回归模型,如GPT系列,通过逐个生成token的方式进行文本预测,这使得它们在处理需要双向理解的任务(例如,根据下句推断上句)上表现不佳。LLaDA则采用扩散模型,能够同时考虑输入序列中的所有token,从而更好地捕捉文本的双向依赖关系。这挑战了LLMs关键能力与自回归模型之间的固有联系。
2. LLaDA的性能表现
LLaDA-8B模型在多个方面展现出优异的性能:
- 上下文学习:在近乎所有15个标准的零样本/少样本学习任务中,LLaDA-8B超越了LLaMA2-7B,并与LLaMA3-8B表现相当。
- 指令遵循:经过监督微调后,LLaDA的指令遵循能力显著增强。
- 反转推理:LLaDA有效地克服了自回归模型在反转推理任务中的局限,在反转诗歌完成任务中甚至超越了GPT-4o。
- 可扩展性:LLaDA能够有效扩展到更大的计算资源上。
3. LLaDA的技术细节
LLaDA采用Transformer架构,但去除了因果掩码,允许模型同时处理所有token。它使用随机掩码机制,而不是固定的掩码比例,在训练中只对被掩码的token计算损失。在监督微调阶段,LLaDA根据任务特点选择性地掩码token,进一步提升性能。推理阶段,LLaDA通过反向采样生成文本,并采用多种策略平衡生成效率和质量。
4. LLaDA的意义和未来展望
LLaDA的研究表明,自回归并非实现LLMs智能的唯一路径。其在效率和性能上的提升,为大模型的发展提供了新的方向。这项研究也引发了关于重构掩码语言模型建模、RAG和嵌入式相似性搜索等方面的讨论。虽然此前也出现过超越Transformer的架构,但LLaDA的成功应用,或许预示着扩散模型在大型语言模型领域的新篇章。
5. 研究团队与论文信息
这项研究由人大高瓴人工智能学院与蚂蚁集团共同完成,通讯作者为李崇轩。论文已发表在arXiv上,地址为:https://arxiv.org/abs/2502.09992 项目主页:https://ml-gsai.github.io/LLaDA-demo/
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破