用近一半数据,有效提升训练集的训练效率
原标题:Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法
文章来源:量子位
内容字数:4814字
vivo AI Lab 提出的数据质量提升方法概述
近期,vivo AI Lab 研究团队提出了一种数据质量提升(DQE)的方法,旨在提高大语言模型(LLM)在文本分类任务中的准确性和效率。研究表明,传统的缩放定律并不总是适用,尤其是在文本分类任务中,扩增训练集的数据量可能导致数据冲突和冗余,从而影响模型性能。
1. 数据清洗与转换
首先,DQE方法对训练集进行初步的数据清洗,处理缺失值、重复数据和标签不一致的数据。接着,利用文本嵌入模型将文本转化为语义向量。通过贪婪采样,随机选择初始数据向量,每次选择与向量中心距离最远的数据以提升数据多样性。
2. 数据集划分与模型微调
最终收集50%的数据作为sampled,剩余50%作为unsampled。使用sampled数据集微调大语言模型,并通过向量检索将未采样数据中的预测错误分为Uncovered、Difficult和Noisy三种类型。通过这种分类,研究者能够更有效地优化模型性能。
3. 错误数据类型识别
Uncovered数据是指sampled未覆盖的数据,Difficult数据是难以学习的样本,而Noisy数据则是由于标签不一致造成的噪声。利用GPT-4o进行辅助判断,能够进一步提高标注的准确性。
4. 实验结果与分析
在多个数据集(如MR、CR、IMDb等)上进行对比实验,结果显示DQE方法以更少的数据获得了更高的准确率,训练效率显著提升。统计显著性分析表明,DQE方法在大多数测试集上表现优于全量数据微调模型。
5. 结论与前景
DQE方法为文本分类任务提供了一种新的思路,通过优化数据质量而非单纯增加数据量,有效提升了模型性能。在实际应用中,尤其是情感分析和用户意图识别等关键领域,数据质量的提升将有助于更好地服务于AI Agent的性能需求。
欲了解更多详情,请参考论文链接:论文地址。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破