嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁

8B模型搞定难倒GPT-4o的逆转诅咒

原标题：嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁
文章来源：量子位
内容字数：4474字

人大高瓴与蚂蚁集团联合发布LLaDA：挑战自回归大模型的局限

近日，人大高瓴人工智能研究院和蚂蚁集团合作推出了一种名为LLaDA（Large Language Diffusion with Masking）的大型语言模型，该模型利用扩散模型替代了传统的自回归模型，旨在解决自回归模型在处理双向依赖关系和逆推理任务上的不足。

1. LLaDA的核心创新：扩散模型替代自回归

传统的自回归模型，如GPT系列，通过逐个生成token的方式进行文本预测，这使得它们在处理需要双向理解的任务（例如，根据下句推断上句）上表现不佳。LLaDA则采用扩散模型，能够同时考虑输入序列中的所有token，从而更好地捕捉文本的双向依赖关系。这挑战了LLMs关键能力与自回归模型之间的固有联系。

2. LLaDA的性能表现

LLaDA-8B模型在多个方面展现出优异的性能：

上下文学习：在近乎所有15个标准的零样本/少样本学习任务中，LLaDA-8B超越了LLaMA2-7B，并与LLaMA3-8B表现相当。
指令遵循：经过监督微调后，LLaDA的指令遵循能力显著增强。
反转推理：LLaDA有效地克服了自回归模型在反转推理任务中的局限，在反转诗歌完成任务中甚至超越了GPT-4o。
可扩展性：LLaDA能够有效扩展到更大的计算资源上。

3. LLaDA的技术细节

LLaDA采用Transformer架构，但去除了因果掩码，允许模型同时处理所有token。它使用随机掩码机制，而不是固定的掩码比例，在训练中只对被掩码的token计算损失。在监督微调阶段，LLaDA根据任务特点选择性地掩码token，进一步提升性能。推理阶段，LLaDA通过反向采样生成文本，并采用多种策略平衡生成效率和质量。

4. LLaDA的意义和未来展望

LLaDA的研究表明，自回归并非实现LLMs智能的唯一路径。其在效率和性能上的提升，为大模型的发展提供了新的方向。这项研究也引发了关于重构掩码语言模型建模、RAG和嵌入式相似性搜索等方面的讨论。虽然此前也出现过超越Transformer的架构，但LLaDA的成功应用，或许预示着扩散模型在大型语言模型领域的新篇章。

5. 研究团队与论文信息

这项研究由人大高瓴人工智能学院与蚂蚁集团共同完成，通讯作者为李崇轩。论文已发表在arXiv上，地址为：https://arxiv.org/abs/2502.09992 项目主页：https://ml-gsai.github.io/LLaDA-demo/

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # 大模型预测下一个token # 大语言模型扩散 # 蚂蚁集团AI布局 # 霍大模型 # 高瓴资本投资AI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁

8B模型搞定难倒GPT-4o的逆转诅咒

人大高瓴与蚂蚁集团联合发布LLaDA：挑战自回归大模型的局限

1. LLaDA的核心创新：扩散模型替代自回归

2. LLaDA的性能表现

3. LLaDA的技术细节

4. LLaDA的意义和未来展望

5. 研究团队与论文信息

联系作者

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

DeepSeek，根之技术

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点