数据更多更好还是质量更高更好?这项研究能帮你做出选择

数据更多更好还是质量更高更好?这项研究能帮你做出选择

AIGC动态欢迎阅读

原标题:数据更多更好还是质量更高更好?这项研究能帮你做出选择
关键字:数据,效用,模型,样本,质量
文章来源:机器之心
内容字数:8259字

内容摘要:


机器之心报道
编辑:Panda W当计算预算低时,重复使用高质量数据更好;当不差钱时,使用大量数据更有利。对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练,简单来说就是「规模扩展」。
虽然直接扩展模型规模看起来简单粗暴,但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法,所谓量变引起质变,这种观点也被称为神经扩展律(neural scaling laws)。
近段时间,又有不少人认为「数据」才是那些当前最佳的闭源模型的关键,不管是 LLM、VLM 还是扩散模型。随着数据质量的重要性得到认可,已经涌现出了不少旨在提升数据质量的研究:要么是从大型语料库中过滤出高质量数据,要么是生成高质量的新数据。但是,过去的扩展律一般是将「数据」视为一个同质实体,并未将近期人们关注的「数据质量」作为一个考量维度。
尽管网络上的数据规模庞大,但高质量数据(基于多个评估指标)通常很有限。现在,开创性的研究来了 —— 数据过滤维度上的扩展律!它来自卡内基梅隆大学和 Bosch Center for AI,其中尤其关注了「大规模」与「高质量」之间的数量


原文链接:数据更多更好还是质量更高更好?这项研究能帮你做出选择

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...