OpenAI新模型用的嵌入技术被网友扒出来了

AIGC动态3年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：OpenAI新模型用的嵌入技术被网友扒出来了
关键字：表征,向量,模型,研究者,论文
文章来源：机器之心
内容字数：4099字

内容摘要：

机器之心报道
编辑：蛋酱学起来吧。前几天，OpenAI 来了一波重磅更新，一口气宣布了 5 个新模型，其中就包括两个新的文本嵌入模型。
我们知道，嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联，也更容易执行聚类或检索等任务。
使用更大的嵌入（比如将它们存储在向量存储器中以供检索）通常要比更小的嵌入消耗更高的成本、以及更多的算力、内存和存储。而 OpenAI 此次推出的两个文本嵌入模型分别是更小且高效的 text-embedding-3-small 模型和更大且更强大的 text-embedding-3-large 模型。
这两个新嵌入模型都使用一种技术进行训练，允许开发人员权衡使用嵌入的性能和成本。具体来说，开发者通过在 dimensions API 参数中传递嵌入而不丢失其概念表征属性，从而缩短嵌入（即从序列末尾删除一些数字）。例如在 MTEB 基准上，text-embedding-3-large 可以缩短为 256 的大小，同时性能仍然优于未缩短的 text-embedding-ada-002 嵌入（大小为 1536）。这一

原文链接：OpenAI新模型用的嵌入技术被网友扒出来了