【浏览器执行模式】 : 您的所有数据均在浏览器中处理,不会上传服务器,数据安全有保障。不放心的,可等待页面加载完成后 断网使用!(需提前登录账号)
【速度及稳定性】 : 处理速度由您的机器配置决定。由于浏览器差异,少数工具可能出现无法使用或异常:请使用:软件版工具
工具使用
返回旧版工具请先设置关键词和匹配方式,再添加文本或文档并开始统计。多个文件会全部处理,界面只展示前20个文件和结果。
统计设置
每行填写一个关键词;正则表达式模式下,每行填写一个表达式。
本地处理
批量ZIP
正则匹配
关键词
支持一次统计多个关键词,空行会自动忽略。
匹配方式
片段提取
片段上限设为0时不提取上下文。
PDF页码
结束页填0表示统计到文档末页。
文本读取
批量导出
设置保存
保存后,下次打开会自动恢复关键词、匹配方式、PDF页码和导出格式。
完成设置后继续添加文本或文档。
添加内容
可直接粘贴文本,也可选择一个或多个文档文件。
等待输入
文本内容
选择文件
点击选择文件或拖拽到这里
支持 PDF、DOCX、PPTX、XLSX、TXT、MD、HTML、CSV、JSON、SRT。
待处理概览
关键词0
文件数0
文本字符0
处理模式文本
确认设置与输入内容后,进入统计下载步骤。
统计下载
点击开始统计后,可预览结果并下载报告。
等待开始统计。
尚未开始统计。
使用说明
软件使用说明
- 设置关键词:在“关键词列表”中逐行输入需要统计的关键词;正则表达式模式下,每行填写一个表达式。
- 选择匹配方式:
- 普通匹配:按输入内容进行字符匹配,适合中文词语和固定短语。
- 全词匹配:适合英文、数字类词汇,减少被更长单词包含时的误匹配。
- 正则表达式:适合统计编号、日期、格式化代码等规则内容。
- 配置统计参数:可按需要启用大小写敏感、允许重叠计数、合并空白字符、合并断行连字符、统计命中行数和PDF按页统计。
- 设置片段与页码:可设置命中片段数量、片段长度,以及PDF起始页和结束页;结束页填0表示统计到文档末页。
- 添加内容:可粘贴文本,也可选择PDF、DOCX、PPTX、XLSX、TXT、Markdown、HTML、CSV、JSON、SRT等文件。多个文件会全部处理,界面只展示前20个。
- 保存设置:点击“保存设置”可保留当前关键词、匹配方式、页码范围和导出格式,方便后续继续使用。
- 开始统计:进入“统计下载”步骤后点击“开始统计”,等待处理完成即可查看关键词出现次数、命中行数、PDF按页结果和命中片段。
- 下载结果:单个内容可下载TXT、CSV或JSON报告;批量文件会生成ZIP,包含每个文件的报告和可选汇总CSV。遇到结果文件重名时会自动追加数字区分。
常见问题
答:支持PDF、DOCX、PPTX、XLSX、TXT、Markdown、HTML、CSV、JSON、SRT等常见格式。批量处理时可以混合选择不同格式文件。
答:普通匹配按字符直接统计;全词匹配适合英文或数字词,避免把cat匹配到category中;正则表达式适合编号、日期、订单号等规则内容,例如
INV-\d+。
答:常见原因包括PDF文字提取顺序与排版顺序存在差异、关键词被换行或空格拆开、英文单词被断行连字符分割。可尝试启用合并空白字符和合并断行连字符,并通过命中片段核对上下文。
答:在“PDF页码”中填写起始页和结束页即可。结束页填0表示统计到文档末页;起始页不能大于结束页。
答:当多个结果文件生成了相同名称时,系统会在文件名后追加_2、_3等数字,避免结果互相覆盖。
答:建议先缩小PDF页码范围,减少命中片段数量,或将大量文件分批处理。正则表达式也应避免过于复杂的回溯写法。