南开大学学报(自然科学版) ›› 2023 ›› Issue (6): 29-.
• • 上一篇 下一篇
出版日期:
发布日期:
Online:
Published:
摘要:
预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练。目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据。本研究提出一种面向大规模文本数据的去重算法,采用先局部后整体的去重策略,极大提高了去重的运算效率。实验结果表明,算法在50 h内完成371 GB数据的去重处理,较已有算法极大地提高了去重效率。
关键词: 文本去重, 最小哈希, 局部敏感哈希
申峻宇, 李东闻, 钟震宇, 张玉志. 一种基于局部敏感哈希的文本数据去重算法及其实现[J]. 南开大学学报(自然科学版), 2023,(6): 29-.
0 / / 推荐
导出引用管理器 EndNote|Reference Manager|ProCite|BibTeX|RefWorks
链接本文: https://xuebao.nankai.edu.cn/jns/CN/
https://xuebao.nankai.edu.cn/jns/CN/Y2023/V56/I6/29