拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开
关键字：模型,商汤,任务,向量,维度
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】国产大模型「日日新 5.0」已经在权威主流评测中鲨疯了。变强的背后原因竟是，来自商汤自研中文Embedding模型——Piccolo2。这是首个对标OpenAI向量长度的模型。国产大模型最近在权威主流评测中「杀」疯了！
商汤「日日新 5.0」在中文大模型测评基准SuperCLUE中，成为首个超越GPT-4 Turbo的国产大模型；在OpenCompass的基准表现中，客观评测超过GPT-4 Turbo，主观评测已超过GPT-4o位列第一。
这次「又双叒叕变强」背后是算法、算力、数据的全面「buff」叠加，其中最重要的技术之一、也是解决LLM幻觉问题的关键——商汤自研的通用Embedding模型Piccolo2。
Piccolo2日前已突破SOTA，在由北京智源研究院发布的中文语义向量评测基准C-MTEB评测中名列第一，这是当前最大规模、最为全面的中文语义向量表征能力评测基准，包含分类、聚类、句对分类、重排、检索和句子相似度六大类评测任务和31个数据集。
如今，商汤公开了技术路线。
Piccolo2目前支持512/2K/8K三种向量长度，其中8K模

原文链接：拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开