LLaDA 2.0

AI工具19小时前更新 AI工具集
3 0 0

LLaDA 2.0 – 蚂蚁集团开源的离散扩散大语言模型

LLaDA 2.0:蚂蚁集团突破性离散扩散大语言模型震撼登场

在人工智能的浪潮中,语言模型的演进从未停止。近日,蚂蚁集团重磅发布了其自主研发的离散扩散大语言模型(dLLM)——LLaDA 2.0。这款模型不仅带来了 16B(mini)和 100B(flash)两个不同规模的版本,更重要的是,它成功打破了传统扩散模型在参数规模扩展上的固有瓶颈,首次将扩散模型的参数量推向了惊人的 100B 量级,为业界树立了新的标杆。

LLaDA 2.0 究竟有何与众不同?

LLaDA 2.0 的出现,标志着离散扩散大语言模型迈入了前所未有的发展阶段。它集成了 16B 和 100B 两种规格,其中 100B 版本更是刷新了扩散语言模型的规模纪录,彻底解决了此前扩散模型难以大规模部署的难题。其核心创新之一在于采用了精巧的 Warmup-Stable-Decay(WSD)持续预训练策略。这一策略使得 LLaDA 2.0 能够实现从自回归(AR)模型向扩散模型的平滑过渡,不仅完美继承了 AR 模型积累的丰富知识,更规避了从零开始训练所带来的高昂计算成本和时间消耗。

LLaDA 2.0 的核心优势概览

  • 磅礴的参数规模:LLaDA 2.0 提供了 16B 和 100B 两个版本,稳居当前扩散语言模型规模的顶端,有效突破了扩散模型在扩展性上的局限。
  • 迅疾的推理效能:得益于先进的并行解码机制,LLaDA 2.0 在推理速度上表现卓越,能够达到每秒 535 个 token,比同等规模的自回归模型快了惊人的 2.1 倍,极大地提升了内容生成的效率。
  • 无缝的知识迁移:通过独创的 Warmup-Stable-Decay(WSD)预训练策略,LLaDA 2.0 实现了从自回归模型到扩散模型的平稳过渡,有效地保留了 AR 模型的知识精华,避免了从头训练的巨大投入。
  • 出色的性能表现:在诸如代码生成、数学推理以及智能体任务等结构化生成领域,LLaDA 2.0 展现出了压倒性的优势。而在其他通用文本生成任务上,其表现也与顶尖的开源 AR 模型不相上下。
  • 开放共享的承诺:为了促进社区的共同发展,LLaDA 2.0 的全部模型权重(包括 16B 和 100B 版本)以及配套的训练代码,已在 Hugging Face 平台上完全开源,为开发者和研究人员提供了便捷的使用入口。

LLaDA 2.0 的技术内核解析

  • 扩散模型架构的革新:LLaDA 2.0 的根基是扩散模型(Diffusion Model),它通过逐步去除噪声的方式来生成文本。与传统的自回归模型逐字生成不同,扩散模型能够实现并行解码,从而大幅提升生成速度。
  • 混合专家架构(MoE)的智慧:引入了混合专家架构(MoE),在每次推理时,仅需激活约 14.4 亿的参数。这种设计在保证模型高性能的同时,显著降低了计算资源的消耗。
  • Warmup-Stable-Decay(WSD)预训练策略的精妙:该策略包含三个阶段的预训练过程:逐步增大块大小、进行全序列训练,以及缩小块大小。这一序列操作使得模型能够从自回归模型平滑地过渡到扩散模型,有效继承已有知识并优化推理效率。
  • 置信度感知并行训练(CAP)的提速之道:在并行解码过程中,CAP 通过引入辅助损失函数,奖励那些“预测正确且置信度高”的 token,从而提升了解码的整体效率,实现了高速推理。
  • 扩散模型版的 DPO 优化:通过利用证据下界(ELBO)来近似条件概率,LLaDA 2.0 将偏好学习(DPO)技术成功适配到扩散模型中,使得模型的输出更符合人类的偏好。
  • 文档级注意力掩码的精细控制:在处理多文档拼接训练时,LLaDA 2.0 设计了文档级注意力掩码,有效防止了不同文档之间产生错误的语义连接,确保了长文本生成过程中的连贯性和准确性。

LLaDA 2.0 的探索之旅:项目地址

  • Hugging Face 模型库:https://huggingface.co/collections/inclusionAI/llada-20
  • 技术报告:https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf

LLaDA 2.0 的广阔应用前景

  • 高效代码生成:LLaDA 2.0 在代码生成领域表现尤为抢眼,能够产出高质量的代码片段,极大地加速了开发者的工作流程。
  • 精准数学推理:该模型在解决数学问题和进行复杂推理方面展现出强大的能力,为教育、科研等领域提供了有力支持。
  • 智能体任务的赋能:LLaDA 2.0 能够支持复杂的智能体调用和处理长文本任务,特别适用于需要多步骤推理和工具集成的场景。
  • 创意文本生成:模型能够生成引人入胜的文本内容,为创意写作、内容创作等领域注入新的活力。
  • 智能知识问答:在知识理解和问答任务中,LLaDA 2.0 表现出色,是构建智能客服、知识图谱等应用的理想选择。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...