击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

AIGC动态9个月前发布 机器之心
15 0 0

击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

AIGC动态欢迎阅读

原标题:击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了
关键字:模型,基准,上下文,序列,长度
文章来源:机器之心
内容字数:4903字

内容摘要:


机器之心报道
编辑:陈萍、小舟模型参数量只有 137M,5 天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。
我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联,也更容易执行聚类或检索等任务。可见,嵌入在 NLP 领域是非常重要的。
不过,OpenAI 的嵌入模型并不是免费给大家使用的,比如 text-embedding-3-small 的收费价格是每 1k tokens 0.00002 美元。
现在,比 text-embedding-3-small 更好的嵌入模型来了,并且还不收费。
AI 初创公司 Nomic AI 宣布推出 Nomic Embed,这是首个开源、开放数据、开放权重、开放训练代码、完全可复现和可审核的嵌入模型,上下文长度为 8192,在短上下文和长上下文基准测试中击败 OpenAI text-embeding-3-small 和 text-embeddi


原文链接:击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...