微软最新研究成果：使用GPT-4合成数据来训练AI模型，实现SOTA！

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：微软最新研究成果：使用GPT-4合成数据来训练AI模型，实现SOTA！
关键字：模型,数据,报告,任务,文本
文章来源：夕小瑶科技说
内容字数：5852字

内容摘要：

夕小瑶科技说原创作者 | 谢年年、王二狗文本嵌入是各项NLP任务的基础，用于将自然语言转换为向量表示。现有的大部分方法通常采用复杂的多阶段训练流程，先在大规模数据上训练，再在小规模标注数据上微调。此过程依赖于手动收集数据制作正负样本对，缺乏任务的多样性和语言多样性。
此外，大部分方法采用BERT作为编码器，如非常经典的Sentence-BERT和SimCSE通过在推理数据集上对BERT进行微调学习文本嵌入。
但现在LLMs技术发展得如火如荼，能否用LLMs来克服现有方法的限制，升级文本嵌入方法呢？
当然可以！
最近，微软发布了一种新颖的文本嵌入方法，使用专有的LLMs为93种语言中各种文本嵌入任务生成合成数据，并且涉及了多个任务场景。
微软使用了Mistral-7B对合成数据和标记数据进行混合训练，**成功登顶Huggingface排行榜，比之前的方法高2%**。
论文标题:Improving Text Embeddings with Large Language Models
论文链接:https://arxiv.org/pdf/2401.00368.pdf
模型:https://