AIGC动态欢迎阅读
原标题:无需人工标注!LLM加持文本嵌入学习:轻松支持100种语言,适配数十万下游任务
关键字:数据,研究人员,任务,报告,文本
文章来源:新智元
内容字数:10910字
内容摘要:
新智元报道编辑:LRS
【新智元导读】使用LLM生成海量任务的文本数据,无需人工标注即可大幅提升文本嵌入的适用度,只需1000训练步即可轻松扩展到100种语言。文本嵌入(word embedding)是自然语言处理(NLP)领域发展的基础,可以将文本映射到语义空间中,并转换为稠密的矢量,已经被广泛应用于各种自然语言处理(NLP)任务中,如信息检索(IR)、问答、文本相似度计算、推荐系统等等,
比如在IR领域,第一阶段的检索往往依赖于文本嵌入来进行相似度计算,先在大规模语料库中召回一个小的候选文件集,再进行细粒度的计算;基于嵌入的检索也是检索增强生成(RAG)的关键组成部分,使大型语言模型(LLM)可以访问动态的外部知识,而无需修改模型参数。
早期的文本嵌入学习方法如word2vec,GloVe等大多是静态的,无法捕捉自然语言中丰富的上下文信息;随着预训练语言模型的出现,Sentence-BERT和SimCSE等方法在自然语言推理(NLI)数据集上通过微调BERT来学习文本嵌入。
为了进一步增强文本嵌入的性能和鲁棒性,最先进的方法如E5和BGE采用了更复杂的多阶段训练范式,先对数十亿个
原文链接:无需人工标注!LLM加持文本嵌入学习:轻松支持100种语言,适配数十万下游任务
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...