时隔6年BERT升级!仅编码器架构没被,更快更准确更长上下文

抱抱脸CEO:爱了!!

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

原标题:时隔6年BERT升级!仅编码器架构没被,更快更准确更长上下文
文章来源:量子位
内容字数:4640字

ModernBERT:BERT的现代复兴

时隔六年,一度被认为濒死的BERT模型迎来了它的现代化版本——ModernBERT。这款由Answer.AI和LightOn团队开发的模型,在速度、精度和上下文长度方面都实现了显著提升,并在多个基准测试中取得了SOTA成绩,其开源发布也引发了广泛关注。

ModernBERT的优势

  1. 速度与效率:ModernBERT的速度是DeBERTa的两倍,在更常见的输入长度混合情况下,速度可达四倍;长上下文推理速度提升约三倍,同时内存占用不到DeBERTa的五分之一。
  2. 精度与性能:在信息检索(RAG)、分类、实体抽取等任务中取得了SOTA性能。
  3. 更长的上下文:支持8192个token的上下文长度,是传统BERT的16倍。
  4. encoder-only架构:能够同时考虑前后文信息,克服了decoder-only模型只能“向后看”的限制。

作者Jeremy Howard认为,当前生成式模型的热潮掩盖了encoder-only模型的价值。大型生成式模型(如GPT-4)存在成本高、速度慢、私有化等问题,并不适用于所有任务。而ModernBERT凭借其高效性和强大的性能,为许多实际应用提供了更优的选择。

ModernBERT的现代化升级

ModernBERT的“现代”体现在三个方面:现代化的Transformer架构、现代数据规模与来源,以及高效的训练策略。

  1. 现代化的Transformer架构:ModernBERT采用了改进后的Transformer++架构(受Llama2启发),主要改进包括:使用旋转位置嵌入(RoPE)、GeGLU层替换MLP层、移除不必要的偏置项、在嵌入层后添加归一化层,以及利用Flash Attention 2优化计算效率。
  2. 现代数据规模与来源:ModernBERT的训练数据规模达2万亿token,涵盖网络文档、编程代码和科学文章等多种来源,并避免了以往模型中数据重复的问题。
  3. 高效的训练策略:ModernBERT采用三阶段训练,包括基础训练、长上下文适应和退火处理。同时,团队还使用了学习率调整、batch-size warmup以及基于ModernBERT-base模型权重的“平铺”扩展等技术来加速训练。

团队与未来展望

ModernBERT由Answer.AI和LightOn团队开发,核心成员包括Benjamin Warner、Antoine Chaffin和Benjamin ClaviéOn。团队表示,将公开模型权重,支持后续研究,并计划明年训练更大版本的ModernBERT。

总而言之,ModernBERT的出现为encoder-only模型注入了新的活力,证明了其在特定任务中的竞争力,也为未来AI模型的发展提供了新的方向。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...