文本文件名相似度筛选工具

根据文件名相似度对TXT/HTML文件分组，并依据字数、句子数等内容指标自动保留每组中的理想文件，实现高效去重。

BUG反馈

【浏览器执行模式】 ：您的所有数据均在浏览器中处理，不会上传服务器，数据安全有保障。不放心的，可等待页面加载完成后 断网使用！（需提前登录账号）

【速度及稳定性】 ：处理速度由您的机器配置决定。由于浏览器差异，少数工具可能出现无法使用或异常：请使用：软件版工具

工具加载中，请稍等...

如无法加载或使用，请下载本地工具：https://tools.yikeaigc.com/

工具使用

返回旧版工具

处理提示：请先在“筛选设置”中确认相似度阈值、算法和保留规则，再开始筛选。文件只在当前页面读取与打包，不需要上传到服务器。

1选择文本文件

点击选择，或把 TXT / HTML 文件拖到这里

支持批量选择，界面只预览前20个，筛选时会处理全部文件

2示例数据

已选文件

总体大小

0 KB

文本类型

可预览数量

3文件预览

尚未选择文件。可以先加载示例数据，确认设置效果后再处理自己的文件。

1分组规则

文件名相似度阈值

76%

数值越高，文件名越接近才会进入同一组。

相似度算法

综合算法适合中文、英文和带序号的混合文件名。

分组方式

链路分组更宽松，代表文件分组更稳定。

2保留规则

组内保留依据

指标只在相似组内部比较，不会改变原文件。

同分处理

当保留依据得分一致时使用。

空内容文件

适合排除读取后正文为空的占位文件。

3读取与归一化

文本编码

自动识别会优先读取 BOM 和常见中文编码。

ZIP 文件名

留空时使用默认文件名。

结果预览行数

只影响页面展示，不影响打包结果。

比较时忽略扩展名忽略英文大小写统一空格、横线和标点弱化副本、copy、版本号标记正文完全一致时直接归组 ZIP 内附加 CSV 和 JSON 报告

1进度与结果

等待处理。请先选择文件并设置参数。 0%

处理完成后，这里会显示分组、保留文件、筛选文件和下载按钮。

2相似组预览

暂无分组结果。

3筛选文件预览

暂无筛选文件。

4处理日志

等待开始。

使用说明

软件使用说明

选择文件或加载示例：点击“选择文件”批量选择 .txt、.html、.htm 等文本文件，也可以先使用示例数据测试。页面只预览前20个文件，处理时会计算全部文件。
设置相似度分组：
- 相似度阈值：数值越高，文件名越接近才会进入同一组。
- 相似度算法：可选择综合算法、Levenshtein编辑距离、连续匹配比例、Jaccard、字符频率余弦。
- 分组方式：相似链路分组适合版本连续变化的文件；代表文件分组适合围绕基准名称整理文件。
选择保留依据：可按综合内容质量分、纯文本字符数、词语数量、句子数量、平均句长、数字占比、HTML标签占比或文件体积来决定组内保留文件。
配置读取和输出：可设置文本编码、ZIP文件名、预览行数，并选择是否忽略扩展名、大小写、副本标记、版本号标记，以及是否在ZIP内附加CSV和JSON报告。
开始筛选：点击“开始筛选”后，工具会读取文件、提取正文、计算文件名相似度、生成分组并按规则保留文件。
查看和下载：处理完成后可查看分组预览、筛选文件预览和处理日志，点击“下载保留文件 ZIP”即可获取结果。若结果中出现同名文件，会在文件名后追加数字区分。

常见问题

答：建议从默认阈值开始测试。阈值较高时，只有名称接近的文件会归组；阈值较低时，命名差异较大的文件也可能进入同一组。可以先用“预览分组”查看效果，再正式筛选。

答：Levenshtein主要衡量文件名编辑距离，适合名称改动较小的文件；综合算法会结合编辑距离、连续匹配、字符集合和字符频率，对中文、英文、序号和副本标记混合的文件名更灵活。

答：这是为了保持页面展示清爽和操作流畅。预览数量不会影响处理范围，批量选择的文件都会参与相似度计算和ZIP打包。

答：保留文件会尽量沿用原文件名。若ZIP中出现同名文件，系统会在原文件名后追加数字，例如 文章_2.txt，避免覆盖。

答：HTML文件会先提取可见正文，并移除脚本、样式等内容，再统计字符数、词语数、句子数等指标。报告中也会记录HTML标签占比，便于判断页面内容密度。

答：不会。文件读取、内容统计、相似度分组和ZIP打包都在本地页面完成，服务器不会接收您的文件内容。

答：不会。原文件不会被移动、改名或删除。筛选只是决定哪些文件进入下载结果包，未保留文件会在报告和页面预览中列出。

文本文件名相似度筛选工具

工具加载中，请稍等...

工具使用

使用说明

软件使用说明

常见问题

问：相似度阈值设置多少合适？

问：综合算法和Levenshtein有什么区别？

问：为什么页面只预览前20个文件？

问：文件名重复时下载结果如何处理？

问：HTML文件会按源码还是正文统计？

问：文件会上传到服务器吗？

问：筛选掉的文件会被删除吗？

同类工具推荐

文本水印嵌入工具

段落句子统计工具

TXT批量删除指定行工具

Word转长图工具

PDF转长图工具

Excel内容批量替换工具

TXT转Word文档转换工具

HTML标签清除工具

在线文本对比工具

在线文章自动排版工具