【浏览器执行模式】 : 您的所有数据均在浏览器中处理,不会上传服务器,数据安全有保障。不放心的,可等待页面加载完成后 断网使用!(需提前登录账号)
【速度及稳定性】 : 处理速度由您的机器配置决定。由于浏览器差异,少数工具可能出现无法使用或异常:请使用:软件版工具
工具使用
返回旧版工具
处理提示:请先在“筛选设置”中确认相似度阈值、算法和保留规则,再开始筛选。文件只在当前页面读取与打包,不需要上传到服务器。
1选择文本文件
点击选择,或把 TXT / HTML 文件拖到这里
支持批量选择,界面只预览前20个,筛选时会处理全部文件
2示例数据
已选文件
0
总体大小
0 KB
文本类型
0
可预览数量
0
3文件预览
尚未选择文件。可以先加载示例数据,确认设置效果后再处理自己的文件。
| 序号 | 文件名 | 类型 | 大小 | 修改时间 |
|---|
1分组规则
76%
数值越高,文件名越接近才会进入同一组。
综合算法适合中文、英文和带序号的混合文件名。
链路分组更宽松,代表文件分组更稳定。
2保留规则
指标只在相似组内部比较,不会改变原文件。
当保留依据得分一致时使用。
适合排除读取后正文为空的占位文件。
3读取与归一化
自动识别会优先读取 BOM 和常见中文编码。
留空时使用默认文件名。
只影响页面展示,不影响打包结果。
1进度与结果
等待处理。请先选择文件并设置参数。
0%
处理完成后,这里会显示分组、保留文件、筛选文件和下载按钮。
参与文件
0
相似组
0
保留文件
0
筛选文件
0
耗时
0s
2相似组预览
暂无分组结果。
| 组号 | 保留文件 | 组内数量 | 平均相似 | 保留依据 |
|---|
3筛选文件预览
暂无筛选文件。
| 文件名 | 组号 | 状态 |
|---|
4处理日志
等待开始。
使用说明
软件使用说明
- 选择文件或加载示例:点击“选择文件”批量选择
.txt、.html、.htm等文本文件,也可以先使用示例数据测试。页面只预览前20个文件,处理时会计算全部文件。 - 设置相似度分组:
- 相似度阈值:数值越高,文件名越接近才会进入同一组。
- 相似度算法:可选择综合算法、Levenshtein编辑距离、连续匹配比例、Jaccard、字符频率余弦。
- 分组方式:相似链路分组适合版本连续变化的文件;代表文件分组适合围绕基准名称整理文件。
- 选择保留依据:可按综合内容质量分、纯文本字符数、词语数量、句子数量、平均句长、数字占比、HTML标签占比或文件体积来决定组内保留文件。
- 配置读取和输出:可设置文本编码、ZIP文件名、预览行数,并选择是否忽略扩展名、大小写、副本标记、版本号标记,以及是否在ZIP内附加CSV和JSON报告。
- 开始筛选:点击“开始筛选”后,工具会读取文件、提取正文、计算文件名相似度、生成分组并按规则保留文件。
- 查看和下载:处理完成后可查看分组预览、筛选文件预览和处理日志,点击“下载保留文件 ZIP”即可获取结果。若结果中出现同名文件,会在文件名后追加数字区分。
常见问题
答:建议从默认阈值开始测试。阈值较高时,只有名称接近的文件会归组;阈值较低时,命名差异较大的文件也可能进入同一组。可以先用“预览分组”查看效果,再正式筛选。
答:Levenshtein主要衡量文件名编辑距离,适合名称改动较小的文件;综合算法会结合编辑距离、连续匹配、字符集合和字符频率,对中文、英文、序号和副本标记混合的文件名更灵活。
答:这是为了保持页面展示清爽和操作流畅。预览数量不会影响处理范围,批量选择的文件都会参与相似度计算和ZIP打包。
答:保留文件会尽量沿用原文件名。若ZIP中出现同名文件,系统会在原文件名后追加数字,例如
文章_2.txt,避免覆盖。
答:HTML文件会先提取可见正文,并移除脚本、样式等内容,再统计字符数、词语数、句子数等指标。报告中也会记录HTML标签占比,便于判断页面内容密度。
答:不会。文件读取、内容统计、相似度分组和ZIP打包都在本地页面完成,服务器不会接收您的文件内容。
答:不会。原文件不会被移动、改名或删除。筛选只是决定哪些文件进入下载结果包,未保留文件会在报告和页面预览中列出。