ELF

ELF – 何恺明团队推出的首个扩散语言模型

ELF（Embedded Language Flows）模型，由何恺明团队倾力打造，标志着扩散语言模型领域的一项重大突破。它摒弃了传统的自回归模式，转而采用创新的连续扩散范式，全程在连续的嵌入（embedding）空间中进行文本的去噪与生成，直至最后一步才将结果离散化为离散的词元（token）。

ELF模型解析

ELF模型的出现，为语言模型的生成方式带来了革新。该模型在连续嵌入空间中完成绝大部分的去噪过程，并在生成序列的终点，通过一个“解嵌入”（unembedding）层将连续表示转化为离散的词元。尽管仅使用了1.05亿的参数量和450亿的训练词元，并在32个采样步数下，ELF在OpenWebText数据集上取得了24的生成困惑度（perplexity）。这一成就，使得ELF在训练数据需求上大幅领先于主流的离散扩散模型，甚至可以少用近十倍的数据量，并在无条件生成、机器翻译和文本摘要等任务上展现出卓越的性能。

ELF模型的核心功能

嵌入空间内的连续文本生成：ELF模型的核心在于其全程在连续嵌入空间中执行去噪操作。在生成过程的最后阶段，即时间步t=1时，模型通过一个特殊的“解嵌入”层，将连续的向量表示映射回离散的词元。
形式的语言生成：模型能够从纯粹的高斯噪声出发，经过32步的迭代优化，生成出自然流畅、且困惑度极低的人类语言文本。
多样化的条件文本任务支持：ELF模型能够胜任机器翻译（例如WMT14数据集）和文本摘要（例如XSum数据集）等条件生成任务，并且其表现超越了现有的扩散语言模型以及部分自回归模型。
统一的训练与推理架构：该模型最大的特点之一是去噪网络与最终解码网络共享同一套参数。通过一个简单的二值模式切换（去噪模式或解码模式），模型无需额外的训练来构建的解码器，大大简化了模型结构。

ELF模型的技术原理

连续嵌入的编码机制：模型首先利用预训练的T5编码器，将离散的词元映射成双向上下文嵌入。这一编码过程仅在训练阶段使用，推理时不会引入额外的计算负担。
Flow Matching与x-prediction的结合：ELF模型在连续空间中定义了从噪声到清晰数据的“流匹配”（Flow Matching）轨迹。模型直接预测清晰的嵌入向量（x-prediction），而不是预测速度场，这在高维空间中表现更为稳定，并采用均方误差（MSE）作为训练目标。
最终的离散化处理：在生成序列的最后一步，模型利用一个可学习的“解嵌入”矩阵，将连续的嵌入向量投影为词元概率分布（logits）。为了防止任务过于简单，训练时会引入词元级别的噪声扰动，并以交叉熵作为损失函数。
自适应的Classifier-Free Guidance (CFG)：借鉴了图像生成领域Classifier-Free Guidance的思想，ELF在训练阶段引入了“训练时CFG”作为条件信号，有效地提升了生成质量，且在推理时并不会增加额外的计算开销。

如何部署和使用ELF

获取代码：首先，访问ELF项目的GitHub仓库并克隆其源代码。
环境准备：确保已安装必要的依赖库（如PyTorch），并正确配置GPU环境以加速计算。
数据预处理：将待处理的文本数据通过T5编码器转换为连续嵌入格式。
模型训练：利用Flow Matching和x-prediction的目标函数来训练去噪网络，可以选择MSE或交叉熵作为损失函数。
文本生成流程：从高斯噪声开始，调用ELF的去噪网络进行32步迭代，最后一步切换至解码模式，输出最终的词元序列。
下游任务的微调：针对WMT14、XSum等特定任务，可以在相应数据集上对模型进行条件生成任务的微调。

ELF模型的突出优势

极高的数据效率：ELF模型仅需450亿词元的训练数据，相比MDLM、Duo、FLM等竞争对手动辄5000亿词元以上的需求，效率提升了一个数量级。
极低的采样步数：仅需32步采样，ELF模型就能达到甚至超越对手1024步采样才能实现的生成质量。
卓越的生成质量：在OpenWebText数据集上，ELF的生成困惑度低至24，生成的文本更加自然，且AI的痕迹更不明显。
简洁统一的架构：去噪过程与最终解码过程共享同一套网络参数，无需额外构建的解码器模块，避免了潜在的训练开销和误差累积问题。

ELF项目资源

GitHub代码库：https://github.com/lillian039/ELF
arXiv技术论文：https://arxiv.org/pdf/2605.10938

ELF与同类竞品对比

对比维度	ELF	MDLM	LLaDA
技术路线	连续扩散（全程嵌入空间去噪，末步离散化）	离散扩散（直接在词元空间操作，每步保持离散状态）	离散扩散（基于BERT的掩码扩散语言模型）
参数规模	1.05亿	3.5亿 / 13亿	80亿
训练数据	450亿词元（数据量少一个数量级）	5000亿+词元	数万亿词元
采样步数	32步	1024步（标准）/ 64步（需蒸馏）	64~128步
生成困惑度	24（OpenWebText，32步无蒸馏）	约35（1024步）/ 约60（32步无蒸馏）	约30（128步）
架构设计	去噪与解码共享同一网络，无额外模块	每步在词汇空间进行离散状态转移	基于掩码预测的Transformer，每步预测被掩码词元
核心优势	数据效率极高、采样速度快、架构极简	与语言离散性匹配度高，理论直观	大规模参数带来强大表达能力，易于扩展
主要劣势	依赖预训练编码器提供嵌入	训练数据需求大、采样步数多、生成质量受步数影响大	推理成本高、需要海量训练数据、推理步数仍偏多

ELF模型的应用领域

低资源高效文本生成：ELF模型以其卓越的数据效率，能够在有限的数据预算下训练出高质量模型，非常适合资源有限的企业和研究机构快速部署先进的自然语言生成能力。
机器翻译应用：在WMT14等翻译基准测试中，ELF的表现优于现有扩散模型和部分自回归基线，可作为非自回归翻译系统的强大核心引擎。
文本摘要与内容重塑：在XSum等摘要任务中，ELF展现出稳定的性能，特别适用于新闻摘要、文档精炼等需要精确保留关键信息的场景。
创意写作与对话生成：ELF生成的文本困惑度低至24，自然流畅且AI痕迹微弱，非常适合用于长篇小说创作、营销文案撰写等追求类人风格的内容生成领域。
扩散语言模型研究的基石：ELF首次证明了“全程连续”路线在文本生成上的可行性，为未来大模型架构的探索提供了重要的理论参考和基础框架。

阅读原文