文本文件名相似度筛选工具

文本文件名相似度筛选工具

根据文件名相似度对TXT/HTML文件分组,并依据字数、句子数等内容指标自动保留每组中的最佳文件,实现高效去重。

加载中...
工具加载中,请稍等...

如无法加载或使用,请下载本地工具:https://tools.yikeaigc.com/

使用说明

使用说明

该工具帮助您从大量文件名相似的文本文件(.txt, .html)中,根据内容的优劣,自动筛选并保留最佳版本。

  1. 选择文件:点击“选择文件”按钮,一次性选择所有需要进行比较的文本文件。文件处理将在您的浏览器中完成,确保了数据隐私和安全。
  2. 设置相似度阈值:拖动滑块设置一个0-100%之间的文件名相似度阈值。只有文件名相似度高于此值的才会被归为同一组进行比较。
  3. 选择保留标准:从下拉菜单中选择一个标准,用于判断哪个文件是“最佳”的。例如,您可以选择保留“纯文本字符数最多”的文件。
  4. 开始筛选:点击“开始筛选”按钮。程序将开始分析文件、计算相似度并根据您的标准进行筛选。
  5. 下载结果:处理完成后,界面会显示摘要信息。您可以点击“下载保留文件 (ZIP)”按钮,将所有被保留的最佳文件以压缩包形式下载到本地。

常见问题

问:这个工具会上传我的文件到服务器吗?
答:不会。所有的文件读取、内容分析和筛选过程完全在您的本地浏览器中通过JavaScript执行,您的文件不会离开您的电脑,隐私和安全有充分保障。
问:为什么分词后词数和Python原版有差异?
答:由于浏览器环境的限制,网页版使用的是一个简化的分词算法,它主要通过标点符号和空格来切分词语,而Python桌面版使用了专业的`jieba`分词库。因此,对于纯中文文本,分词结果可能会有差异,但对于筛选相对优劣的目标,其结果仍具有很好的参考价值。
问:如果我选择了大量文件,浏览器会卡顿吗?
答:如果您一次性处理数千个非常大的文件,可能会暂时占用较多内存和CPU资源,导致浏览器响应变慢。建议您根据电脑性能分批处理,或在处理期间耐心等待。工具界面会实时显示处理进度。
问:什么是“文件名相似度”?它如何计算?
答:文件名相似度是通过“莱文斯坦距离”(Levenshtein Distance)算法计算的,它衡量的是将一个字符串(文件名)转变为另一个所需的最少单字符编辑(插入、删除或替换)次数。我们将这个距离转换为百分比,方便您直观理解。
问:筛选掉的文件去哪里了?
答:被筛选掉的文件只是在最终的下载结果中被排除了。您原始选择的文件在您的电脑上不会被移动或删除。您只会下载到一个包含所有被保留文件的ZIP压缩包。