文本文件名相似度筛选工具

根据文件名相似度对TXT/HTML文件分组，并依据字数、句子数等内容指标自动保留每组中的最佳文件，实现高效去重。

本地执行模式说明

此工具为本地执行模式，您的所有数据均在您的浏览器中进行处理，不会上传到任何服务器。这意味着：

绝对安全：您的文件和信息不会离开您的电脑，隐私得到完全保障。
性能依赖：处理速度完全取决于您电脑的性能。

我们通过CDN网络加速工具加载，在部分网络环境下可能出现不稳定或无法使用的情况。如遇此问题，建议下载我们的离线软件包以获得最佳体验。

工具加载中，请稍等...

如无法加载或使用，请下载本地工具：https://tools.yikeaigc.com/

文本文件名相似度筛选

第一步：选择文件选择所有需要比较的TXT或HTML文件。文件处理在您的浏览器中进行，不会上传到服务器。

第二步：设置文件名相似度阈值 (%)

50%

文件名相似度高于此值的文件将被归为一组进行比较。

第三步：选择保留文件的标准在相似的文件组中，符合此标准的那个文件将被保留。

使用说明

该工具帮助您从大量文件名相似的文本文件（.txt, .html）中，根据内容的优劣，自动筛选并保留最佳版本。

选择文件：点击“选择文件”按钮，一次性选择所有需要进行比较的文本文件。文件处理将在您的浏览器中完成，确保了数据隐私和安全。
设置相似度阈值：拖动滑块设置一个0-100%之间的文件名相似度阈值。只有文件名相似度高于此值的才会被归为同一组进行比较。
选择保留标准：从下拉菜单中选择一个标准，用于判断哪个文件是“最佳”的。例如，您可以选择保留“纯文本字符数最多”的文件。
开始筛选：点击“开始筛选”按钮。程序将开始分析文件、计算相似度并根据您的标准进行筛选。
下载结果：处理完成后，界面会显示摘要信息。您可以点击“下载保留文件 (ZIP)”按钮，将所有被保留的最佳文件以压缩包形式下载到本地。

常见问题

问：这个工具会上传我的文件到服务器吗？: 答：不会。所有的文件读取、内容分析和筛选过程完全在您的本地浏览器中通过JavaScript执行，您的文件不会离开您的电脑，隐私和安全有充分保障。
问：为什么分词后词数和Python原版有差异？: 答：由于浏览器环境的限制，网页版使用的是一个简化的分词算法，它主要通过标点符号和空格来切分词语，而Python桌面版使用了专业的`jieba`分词库。因此，对于纯中文文本，分词结果可能会有差异，但对于筛选相对优劣的目标，其结果仍具有很好的参考价值。
问：如果我选择了大量文件，浏览器会卡顿吗？: 答：如果您一次性处理数千个非常大的文件，可能会暂时占用较多内存和CPU资源，导致浏览器响应变慢。建议您根据电脑性能分批处理，或在处理期间耐心等待。工具界面会实时显示处理进度。
问：什么是“文件名相似度”？它如何计算？: 答：文件名相似度是通过“莱文斯坦距离”（Levenshtein Distance）算法计算的，它衡量的是将一个字符串（文件名）转变为另一个所需的最少单字符编辑（插入、删除或替换）次数。我们将这个距离转换为百分比，方便您直观理解。
问：筛选掉的文件去哪里了？: 答：被筛选掉的文件只是在最终的下载结果中被排除了。您原始选择的文件在您的电脑上不会被移动或删除。您只会下载到一个包含所有被保留文件的ZIP压缩包。

文本文件名相似度筛选工具

本地执行模式说明

工具加载中，请稍等...

文本文件名相似度筛选

已选择文件列表 (预览前20个):

处理进度

筛选结果

被筛选掉的文件列表:

使用说明

使用说明

常见问题

文本文件名相似度筛选工具

本地执行模式说明

工具加载中，请稍等...

文本文件名相似度筛选

已选择文件列表 (预览前20个):

处理进度

筛选结果

被筛选掉的文件列表:

使用说明

使用说明

常见问题

同类工具推荐

在线两TXT文本对比工具

文档字数统计工具

长尾关键词筛选工具

TXT批量删除指定行工具

Excel内容组合工具

PDF批量插入页面

TXT文件去重与合并

TXT行删除工具

文章关键词密度处理器

PDF每页盖章工具