大模型微调数据选择和构造技巧

AIGC动态2年前 (2024)发布算法邦

大模型微调数据选择和构造技巧

AIGC动态欢迎阅读

原标题：大模型微调数据选择和构造技巧
关键字：数据,模型,腾讯,报告,多样性
文章来源：算法邦
内容字数：4699字

内容摘要：

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会，阿里巴巴通义千问大模型技术负责人周畅，潞晨科技创始人尤洋，生数科技CEO唐家渝，优必选研究院执行院长焦继超，科大讯飞人形机器人首席科学家季超，DeepWisdom合伙人徐宗泽，腾讯研究科学家张驰，前Meta首席工程负责人胡鲁辉等首批嘉宾已确认带来演讲和报告，欢迎报名。大模型场景微调里面，最关键地的一个是问题是：
选择什么样的数据微调？
大的方向上大家都能把握，大概无非是要注意数据的多样性，要注意数据的质量，那在实践中有哪些技巧呢？
比如我们会经常遇到下面几种情况：
数据要不要都去标注，标的比较慢咋办？
我已经有一批标好的数据了，再去选哪些数据送标注比较好？
能不能总结出一套数据构造方面自动化的方法？
其实在大模型之前，就有很多人研究过这样的问题。在做一个模型时候，比如简单的文本分类，我不可能一股脑把所有数据都扔给标注，这样干存在一个问题，一般情况下我们数据的分布都是符合一个长尾分布的。主要的几个类别数据占据了90%的数据量，剩下的90%的类别只有10%的数据量。
比如小红书上，query的意图识别里，美食，穿搭

原文链接：大模型微调数据选择和构造技巧

联系作者

文章来源：算法邦
作者微信：allplusai
作者简介：智猩猩矩阵账号之一，连接AI新青年，讲解研究成果，分享系统思考。

阅读原文

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

大模型微调数据选择和构造技巧

AIGC动态欢迎阅读

内容摘要：

联系作者

用大语言模型控制交通信号灯，有效缓解拥堵！

中文解读：基于大模型构建企业应用的实战策略｜NVIDIA GTC24 大会预告

相关文章

暂无评论

大模型微调数据选择和构造技巧

AIGC动态欢迎阅读

内容摘要：

联系作者

用大语言模型控制交通信号灯，有效缓解拥堵！

中文解读：基于大模型构建企业应用的实战策略 ｜NVIDIA GTC24 大会预告

相关文章

暂无评论

中文解读：基于大模型构建企业应用的实战策略｜NVIDIA GTC24 大会预告