谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途
关键字：数据,图像,模型,报告,表征
文章来源：新智元
内容字数：5078字

内容摘要：

新智元报道编辑：桃子
【新智元导读】数据获取最新解，便是从生成模型中学习。获取高质量数据，已经成为当前大模型训练的一大瓶颈。
前几天，OpenAI被《纽约时报》，并要求索赔数十亿美元。诉状中，列举了GPT-4抄袭的多项罪证。
甚至，《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。
一直以来，AI界多位大佬认为「合成数据」或许是解决这个问题的最优解。
此前，谷歌团队还提出了用LLM代替人类标记偏好的方法RLAIF，效果甚至不输人类。
现如今，谷歌MIT的研究人员发现，从大模型中学习可以得到使用真实数据训练的最佳模型的表征。
这一最新方法称SynCLR，一种完全从合成图像和合成描述学习虚拟表征的方法，无需任何真实数据。
论文地址：https://arxiv.org/abs/2312.17742
实验结果表明，通过SynCLR方法学习到的表征，能够与OpenAI的CLIP在ImageNet 上的传输效果一样好。
从生成模型中学习目前表现最好的「视觉表征」学习方法依赖于大规模的实际数据集。然而，真实数据的收集却有不少的困难。
为了降低收集数据的成本，研究人员本文中提出了一个问题：
从现成

原文链接：谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途