大模型微调数据选择和构造技巧

AIGC动态8个月前发布 算法邦
15 0 0

大模型微调数据选择和构造技巧

AIGC动态欢迎阅读

原标题:大模型微调数据选择和构造技巧
关键字:数据,模型,腾讯,报告,多样性
文章来源:算法邦
内容字数:4699字

内容摘要:


智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,潞晨科技创始人尤洋,生数科技CEO唐家渝,优必选研究院执行院长焦继超,科大讯飞人形机器人首席科学家季超,DeepWisdom合伙人徐宗泽,腾讯研究科学家张驰,前Meta首席工程负责人胡鲁辉等首批嘉宾已确认带来演讲和报告,欢迎报名。大模型场景微调里面,最关键地的一个是问题是:
选择什么样的数据微调?
大的方向上大家都能把握,大概无非是要注意数据的多样性,要注意数据的质量,那在实践中有哪些技巧呢?
比如我们会经常遇到下面几种情况:
数据要不要都去标注,标的比较慢咋办?
我已经有一批标好的数据了,再去选哪些数据送标注比较好?
能不能总结出一套数据构造方面自动化的方法?
其实在大模型之前,就有很多人研究过这样的问题。在做一个模型时候,比如简单的文本分类,我不可能一股脑把所有数据都扔给标注,这样干存在一个问题,一般情况下我们数据的分布都是符合一个长尾分布的。主要的几个类别数据占据了90%的数据量,剩下的90%的类别只有10%的数据量。
比如小红书上,query的意图识别里,美食,穿搭


原文链接:大模型微调数据选择和构造技巧

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...