时隔6年BERT升级！仅编码器架构没被，更快更准确更长上下文

抱抱脸CEO：爱了！！

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

原标题：时隔6年BERT升级！仅编码器架构没被，更快更准确更长上下文
文章来源：量子位
内容字数：4640字

时隔六年，一度被认为濒死的BERT模型迎来了它的现代化版本——ModernBERT。这款由Answer.AI和LightOn团队开发的模型，在速度、精度和上下文长度方面都实现了显著提升，并在多个基准测试中取得了SOTA成绩，其开源发布也引发了广泛关注。

速度与效率：ModernBERT的速度是DeBERTa的两倍，在更常见的输入长度混合情况下，速度可达四倍；长上下文推理速度提升约三倍，同时内存占用不到DeBERTa的五分之一。
精度与性能：在信息检索（RAG）、分类、实体抽取等任务中取得了SOTA性能。
更长的上下文：支持8192个token的上下文长度，是传统BERT的16倍。
encoder-only架构：能够同时考虑前后文信息，克服了decoder-only模型只能“向后看”的限制。

作者Jeremy Howard认为，当前生成式模型的热潮掩盖了encoder-only模型的价值。大型生成式模型（如GPT-4）存在成本高、速度慢、私有化等问题，并不适用于所有任务。而ModernBERT凭借其高效性和强大的性能，为许多实际应用提供了更优的选择。

ModernBERT的“现代”体现在三个方面：现代化的Transformer架构、现代数据规模与来源，以及高效的训练策略。

现代化的Transformer架构：ModernBERT采用了改进后的Transformer++架构（受Llama2启发），主要改进包括：使用旋转位置嵌入（RoPE）、GeGLU层替换MLP层、移除不必要的偏置项、在嵌入层后添加归一化层，以及利用Flash Attention 2优化计算效率。
现代数据规模与来源：ModernBERT的训练数据规模达2万亿token，涵盖网络文档、编程代码和科学文章等多种来源，并避免了以往模型中数据重复的问题。
高效的训练策略：ModernBERT采用三阶段训练，包括基础训练、长上下文适应和退火处理。同时，团队还使用了学习率调整、batch-size warmup以及基于ModernBERT-base模型权重的“平铺”扩展等技术来加速训练。