真正有用的主力模型。
原标题:时隔6年,谷歌BERT终于有替代品了!更快更准更长,还不炒作GenAI
文章来源:机器之心
内容字数:9380字
ModernBERT:BERT的六年后继任者,高效且强大的编码器模型
本文总结了机器之心对ModernBERT的报道,该模型被誉为BERT的六年后继任者,在速度和准确率方面均有显著提升,是真正有用的主力模型。
1. ModernBERT的优势与意义
ModernBERT由Answer.AI、英伟达等发布,包含139M和395M两个版本。它在速度和准确率上超越了BERT及其同类模型,上下文长度增加到8k个token,是首个在大量代码数据上训练的仅编码器模型。不同于近期流行的仅解码器生成式AI模型,ModernBERT专注于检索、分类等实用任务,更快速、准确、高效,且成本更低。
2. 仅编码器模型的价值
尽管生成式AI(GenAI)模型如GPT系列风靡一时,但仅编码器模型在许多实际应用中仍然扮演着关键角色。它们输出数值列表(嵌入向量),直接编码答案,效率高且易于部署,尤其在内容推荐等领域应用广泛。与仅解码器模型相比,仅编码器模型能双向查看token,在特定任务中效率更高。
3. ModernBERT的性能提升
ModernBERT在GLUE等基准测试中超越了DeBERTaV3等领先模型,速度提升高达4倍,尤其在长上下文推理方面优势明显。在代码检索任务中,ModernBERT的性能更是独树一帜,得益于其在大量代码数据上的训练。
4. ModernBERT的技术创新
ModernBERT的改进源于多个方面:
- 现代化的Transformer架构:采用RoPE位置编码、GeGLU激活函数等改进,提升模型效率。
- 全局和局部注意力机制:结合全局和局部注意力,高效处理长输入序列。
- Unpadding和序列Packing:避免填充token带来的计算浪费,进一步提升效率。
- 多样化的训练数据:包含网页文档、代码和科学文章等多种数据来源,提升模型泛化能力。
- 三段式训练流程:分阶段训练,兼顾短长上下文处理能力。
- 权重初始化技巧:利用ModernBERT-base的权重初始化ModernBERT-large,加快训练速度。
5. 结论
ModernBERT作为一款高效、强大的仅编码器模型,为BERT提供了急需的升级,证明了仅编码器模型在现代方法的改进下仍能保持强大的性能,并具有极具吸引力的尺寸/性能比。它为需要高效、可靠且低成本的模型的应用提供了理想选择。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...