Seed1.5-Embedding – 字节跳动 Seed 团队推出的向量模型
Seed1.5-Embedding是字节跳动Seed团队最新推出的向量模型,基于Seed1.5 (Doubao-1.5-pro)进行深度训练。该模型在权威评测榜单MTEB上实现了中英文的最先进(SOTA)效果,并在推理密集型检索任务的BRIGHT榜单中表现出色。
Seed1.5-Embedding是什么
Seed1.5-Embedding是字节跳动Seed团队全新发布的向量模型,经过对Seed1.5 (Doubao-1.5-pro)的进一步训练。该模型在MTEB这一权威评测榜单上取得了中英文的SOTA效果,并在BRIGHT榜单的推理密集型检索任务中也展现了优异的成绩。它采用了Siamese双塔结构,依托Seed1.5预训练LLM,通过两阶段的训练流程增强了模型的通用表征能力。第一阶段使用无监督数据进行预微调,通过对比学习将生成模型转化为编码模型;第二阶段则结合有监督和合成数据进行微调,进行多任务优化。通过迭代式难负例挖掘、伪负例过滤和合成数据等策略优化数据质量,显著提升了模型在检索任务中的表现。此外,Seed1.5-Embedding支持多种向量维度选择,包括2048、1024、512和256。
Seed1.5-Embedding的主要功能
- 文本语义编码:将输入文本的语义转化为高维空间中的表征向量,使得相关文本之间的向量相似性更高。这种编码方式能够支持检索、分类、聚类等下游任务,广泛应用于搜索、推荐和内容理解等领域。
- 检索任务:通过计算向量相似度,快速从庞大的文档库中找到与用户查询最相关的信息。该模型在推理密集型检索任务中表现卓越,能够理解复杂的查询与文档匹配关系。
- 多任务优化:支持多种任务类型,包括分类、聚类、成对分类、重排、检索和语义文本相似性(STS)任务,适用各种应用场景。
- 灵活的向量维度支持:支持多种向量维度(2048、1024、512、256),用户可根据具体需求选择合适的维度,即便在较低维度下,模型性能的下降也微乎其微,从而提供灵活的存储和运行效率选择。
- 推理能力优化:通过构造推理密集型检索数据,优化模型在复杂查询和文档匹配中的推理能力,使其能够处理更复杂的语义关系和逻辑推理任务。
Seed1.5-Embedding的技术原理
- 模型架构:Seed1.5-Embedding采用Siamese双塔向量模型结构,查询与文档的向量通过余弦相似度计算匹配得分。模型依托Seed1.5的预训练LLM,将单向注意力转变为双向,构建了小规模的MoE(专家混合)模型,查询和文档的模型参数共享,从而确保了较高的运行效率。
- 两阶段训练流程
- 第一阶段:利用无监督数据进行预微调,通过对比学习将单向Attention的生成模型改造为双向Attention的编码模型,从而充分建模各种文本匹配模式。
- 第二阶段:结合有监督和合成数据进行微调,通过混合多种任务数据进行多任务优化,让模型学习各个任务的最佳表征模式。
- 数据工程策略
- 负例挖掘:设计迭代式的难负例挖掘策略,根据模型自身的偏好挖掘难负例,以提升模型的细粒度相关性区分能力。
- 伪负例过滤:自动过滤与正例过于相似的文本,以避免伪负例对学习的干扰。
- 合成数据:构造通用场景和推理密集场景的数据,从而提升模型在复杂检索任务中的表现。
Seed1.5-Embedding的项目地址
- HuggingFace模型库:https://huggingface.co/ByteDance-Seed/Seed1.5-Embedding
Seed1.5-Embedding的应用场景
- 信息检索与语义搜索:Seed1.5-Embedding能够将文档或网页向量化,支持语义级别的搜索,显著提升召回率和精准度。这在问答系统(QA)、企业内部文档检索、客户服务等应用场景中,能够更准确地理解用户查询意图,快速定位相关文档。
- 文本聚类与话题识别:利用文本向量,Seed1.5-Embedding可以对大量文档进行聚类,自动识别出不同的主题和分类信息。
- 推荐系统:在推荐系统中,该模型能够将用户评论、产品描述等文本信息向量化,通过计算相似度,实现对相似商品和用户的检索。
- 文本分类与情感分析:Seed1.5-Embedding能够将文本生成向量,再输入下游分类模型,提升文本分类、情感分析和立场分析等任务的性能。与传统的TF-IDF特征相比,生成的向量能够更准确地表达文本的含义和上下文关系。
- 复杂查询理解与推理:模型在推理密集型检索任务上表现卓越,能够深入理解复杂查询与文档之间的深层匹配关系。在生物学、地球科学、编程等领域的复杂搜索任务中,Seed1.5-Embedding能够提供更为精准的检索结果。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...