DiffusionGemma

DiffusionGemma – 谷歌开源的实验性文本扩散模型

DiffusionGemma：革新文本生成范式的实验性开源模型

Google DeepMind 最新推出的 DiffusionGemma，是一款实验性的开源文本扩散模型，为文本生成领域带来了颠覆性的变革。该模型巧妙地融合了 Gemma 4 架构的强大基础与 Gemini Diffusion 的前沿研究成果，采用 26B MoE（混合专家）设计。其核心亮点在于并行处理 256-token 文本块的去噪能力，能够在单张 NVIDIA H100 GPU 上实现每秒超过 1000 个 token 的惊人生成速度，远超传统自回归模型，显著提升了效率。

DiffusionGemma 的独特之处

DiffusionGemma 不仅仅是速度的提升，更在技术原理上实现了重大突破。它借鉴了图像扩散模型的思路，采用“均匀状态扩散”（Uniform State Diffusion）机制。模型从一个包含随机占位符的 256-token“画布”开始，通过多轮去噪迭代，逐步精炼出高置信度的 token。在这个过程中，已确定的 token 会充当上下文线索，引导相邻位置的 token 解析，最终汇聚成连贯的文本序列。每一次前向传播大约能固定 15–20 个 token，这种并行处理方式极大地提高了吞吐量。

与依赖内存带宽的传统自回归模型不同，DiffusionGemma 将计算瓶颈转移至 GPU 的计算核心。通过为张量核心提供海量的并行去噪任务，模型在本地推理时能保持极高的 GPU 利用率，从而实现卓越的性能。例如，在单张 H100 上能达到 1000+ tokens/秒，而在消费级的 RTX 5090 上也能实现 700+ tokens/秒。

在注意力机制方面，DiffusionGemma 采用了混合注意力架构。在 Prefill 阶段，它使用因果注意力来处理输入提示并填充 KV 缓存。而在 Denoising 阶段，则切换为双向注意力，允许画布中的每个 token 同时关注同一块内的所有其他 token。这种机制使其能够更好地处理代码填充、内联编辑等需要全局上下文理解的非线性文本任务。

此外，DiffusionGemma 还具备实时自我纠错能力。当某个 token 的置信度下降时，采样器可以将其重新噪声化，并在后续步骤中进行修正，确保输出文本的质量。模型还支持多模态输入（文本、图像、视频交错），并拥有高达 256K token 的上下文窗口。通过块自回归扩散机制，模型在保持并行速度的同时，也兼顾了长序列生成的稳定性。

DiffusionGemma 的核心功能与优势

并行文本生成：每次前向传播一次性处理 256 个 token 的去噪，实现整块文本的并行生成，而非逐字输出。
双向上下文推理：生成过程中，每个 token 都能参照同一块内的所有其他 token，从而支持代码补全、内联修改等需要全局理解的任务。
实时自我纠错：当 token 的置信度降低时，模型能够进行自我修正，提升生成文本的准确性。
多模态输入与长序列生成：能够处理多种模态的输入，并支持高达 256K token 的超长上下文窗口。
极致的本地推理速度：在单用户本地场景下，速度比同规格的自回归模型快约 4 倍，极大降低了交互式开发工具的响应延迟。
消费级硬件可运行：量化后仅需 18GB VRAM，使得 RTX 4090/5090 等消费级显卡也能够本地运行，无需昂贵的服务器集群。
开源生态的快速支持：首发即兼容 vLLM、Hugging Face Transformers、MLX、Unsloth 等主流工具链，降低了集成门槛。
非线性文本任务的专长：得益于双向注意力，在代码填充、结构化输出、氨基酸序列设计等需要全局约束的任务上表现出色。

如何部署与使用 DiffusionGemma

DiffusionGemma 的部署与使用非常便捷。用户可以通过 vLLM 的 OpenAI 兼容服务器进行本地部署，配置好扩散采样器和 256-token 画布参数即可对外提供推理服务。模型权重已在 Hugging Face 仓库以 Apache 2.0 协议开源，方便用户下载。此外，模型原生支持 Hugging Face Transformers、SGLang 和 MLX 等主流推理框架进行加载和推理。对于需要进行模型微调的用户，可以使用 Google 开源的 JAX 研究工具箱和官方训练配方，快速进行实验和定制。

DiffusionGemma 的应用场景

DiffusionGemma 的高性能和低门槛使其在多个场景下具有独特的优势：

实时代码辅助：在集成开发环境（IDE）中提供即时响应的内联补全、代码块填充和 Markdown 格式化，显著提升开发效率。
交互式文本编辑：在现有文本中插入或修改局部内容时，能够确保修改点与前后文的全局一致性。
约束密集型生成：适用于数独求解、数学图构建、氨基酸序列设计等需要同时满足多重严格约束的任务。
结构化数据填充：能够一次性生成表格、配置文件或模板化文档中的多个关联字段，提高生成效率。
本地隐私敏感工作流：在消费级 GPU 上离线运行，满足对数据安全性和本地化处理有严格要求的文档分析和敏感文本处理需求。

DiffusionGemma 与标准 Gemma 4 对比

维度	DiffusionGemma	标准 Gemma 4（自回归）
生成方式	离散文本扩散，256-token 并行去噪	自回归，逐词从左到右生成
推理瓶颈	计算受限（Compute-bound）	内存带宽受限（Memory-bound）
注意力机制	双向注意力（可看后文）	因果注意力（只能看前文）
自我纠错	支持，低置信度 token 可重噪声化修正	不支持，token 一旦生成立即固化
单用户本地速度	H100: 1000+ tokens/秒；RTX 5090: 700+ tokens/秒	同硬件下约慢 3–4 倍
输出质量	低于 Gemma 4，不适合追求最高质量的生产场景	更高，Google 推荐用于生产级应用
最佳场景	本地低并发、交互式、速度敏感型工作流	高并发云端服务、质量敏感型任务
模型规格	26B MoE（激活 3.8B）	同系列 MoE 架构