南开大学学报(自然科学版) ›› 2023 ›› Issue (6): 29-.

• • 上一篇    下一篇

一种基于局部敏感哈希的文本数据去重算法及其实现

  

  • 出版日期:2023-12-20 发布日期:2024-02-02

  • Online:2023-12-20 Published:2024-02-02

摘要:

预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练。目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据。本研究提出一种面向大规模文本数据的去重算法,采用先局部后整体的去重策略,极大提高了去重的运算效率。实验结果表明,算法在50 h内完成371 GB数据的去重处理,较已有算法极大地提高了去重效率。

关键词: