AIGC动态欢迎阅读
原标题:谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途
关键字:数据,图像,模型,报告,表征
文章来源:新智元
内容字数:5078字
内容摘要:
新智元报道编辑:桃子
【新智元导读】数据获取最新解,便是从生成模型中学习。获取高质量数据,已经成为当前大模型训练的一大瓶颈。
前几天,OpenAI被《纽约时报》,并要求索赔数十亿美元。诉状中,列举了GPT-4抄袭的多项罪证。
甚至,《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。
一直以来,AI界多位大佬认为「合成数据」或许是解决这个问题的最优解。
此前,谷歌团队还提出了用LLM代替人类标记偏好的方法RLAIF,效果甚至不输人类。
现如今,谷歌MIT的研究人员发现,从大模型中学习可以得到使用真实数据训练的最佳模型的表征。
这一最新方法称SynCLR,一种完全从合成图像和合成描述学习虚拟表征的方法,无需任何真实数据。
论文地址:https://arxiv.org/abs/2312.17742
实验结果表明,通过SynCLR方法学习到的表征,能够与OpenAI的CLIP在ImageNet 上的传输效果一样好。
从生成模型中学习目前表现最好的「视觉表征」学习方法依赖于大规模的实际数据集。然而,真实数据的收集却有不少的困难。
为了降低收集数据的成本,研究人员本文中提出了一个问题:
从现成
原文链接:谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...