LLM实践系列-数据去重之Simhash&Minhash分析与实现

LLM实践系列-数据去重之Simhash&Minhash分析与实现

AIGC动态欢迎阅读

原标题:LLM实践系列-数据去重之Simhash&Minhash分析与实现
关键字:知乎,向量,词频,分词,数据
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


讲座预告11月1日上午10点,南开大学在读博士李森茂,将以《基于扩散模型编码器模块的推理加速》为主题进行直播讲解,欢迎扫码报名~今天给大家带来知乎@真中合欢的一篇文章,《LLM实践–数据去重:Simhash&Minhash 原理分析&代码实现》
知乎:https://zhuanlan.zhihu.com/p/739101179
数据处理是LLM pretrain的核心环节,去重又是数据处理的重要组成部分,这篇文章就分享一下数据去重的一般做法。我写东西的主要是想学会什么,而仅仅是了解什么,所以回答和文章大多都会附上代码,这篇也是一样。这个系列的文章估计废话会比较多。
数据去重大致可以分为三个粒度:文档粒度、段落粒度和句子粒度。
顾名思义,文档粒度就是以文档为单位,删除重复文档。这种做法最为普遍,主要是为了删除完全重复或几乎一致的文档,这种文档一般来自于相同文档的不同源发布转载、重复爬取等。段落粒度和文档粒度没有特别本质的差别,一般适用于一些特殊的源和场景,比如法律相关的文档大量引述法条这种,可能产生大面积引用的场景,做法和文档去重也不会差太多,不过要额外关注一下分段方法。句子粒度的去重


原文链接:LLM实践系列-数据去重之Simhash&Minhash分析与实现

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...