文档关键词出现次数统计
统计PDF/DOCX/PPTX等文档中关键词出现次数,支持批量导出报告
【本地执行模式】 : 您的所有数据均在浏览器中处理,不会上传服务器,数据安全有保障。不放心的,可等待页面加载完成后 断网使用!(需提前登录账号)
【速度及稳定性】 : 处理速度由您的机器配置决定。少数工具可能出现无法使用或异常,请使用:批量工具软件版(首页可进入)。或联系技术 wxcwxc1989 处理!
【注意】:软件版和在线版的工具是 不同的。软件版工具更专业,更强大,支持win10/11;在线版更方便,工具数量更多,手机电脑通用。各有千秋!请根据情况选择!
【速度及稳定性】 : 处理速度由您的机器配置决定。少数工具可能出现无法使用或异常,请使用:批量工具软件版(首页可进入)。或联系技术 wxcwxc1989 处理!
【注意】:软件版和在线版的工具是 不同的。软件版工具更专业,更强大,支持win10/11;在线版更方便,工具数量更多,手机电脑通用。各有千秋!请根据情况选择!
工具使用
支持 PDF、DOCX、PPTX、TXT、MD、HTML 等格式。
普通匹配与全词匹配:每行一个关键词;正则表达式:每行一个正则。
0%
统计结果
| 关键词 | 出现次数 | 命中行数 |
|---|
支持批量选择多个文件。
已选择文件(前20个)
0%
批量统计结果(前20个)
| 文件名 | 总匹配数 | 状态 |
|---|
使用说明
软件使用说明
- 选择模式:在页面顶部选择“单文件模式”或“批量模式”。
- 单文件模式-选择输入来源:
- 文件:选择一个PDF/DOCX/PPTX/TXT/MD/HTML等文件
- 文本:直接粘贴文本内容(可点击“载入示例”快速体验)
- 输入关键词:在“关键词(每行一个)”中逐行填写关键词;可一次统计多个关键词。
- 设置匹配方式:
- 普通匹配:按字符序列直接匹配
- 全词匹配:适合英文/数字词汇,避免把“cat”匹配到“category”里
- 正则表达式:每行一个正则表达式,适合复杂规则(如编号、日期等)
- 可选参数:
- 大小写敏感:区分A与a
- 允许重叠计数:用于需要统计重叠命中的场景
- 合并空白字符:把多个空格/制表符合并,减少格式对统计的影响
- 合并断行连字符:把断行处的“-”连接的单词合并,减少断行造成的漏统计
- 统计命中行数:除“出现次数”外,同时统计“命中行数”
- 片段提取:设置片段数量与片段长度,输出命中上下文片段
- PDF专用设置:可设置“起始页/结束页”,并可勾选“按页统计”。按页统计界面仅展示前20页,但导出结果会包含完整页统计。
- 开始统计:点击“开始统计”或“开始批量统计”,等待进度完成。
- 下载结果:
- 单文件:点击“下载统计结果”下载TXT/CSV/JSON报告
- 批量:点击“下载全部结果(ZIP)”,ZIP内包含每个文件的统计报告;可选生成“汇总.csv”
- 批量显示规则:选择多个文件时,列表与结果仅展示前20个,其余以文字提示,但会全部处理。
- 重名处理:当输出文件名重复时,系统会自动在文件名后追加“_2、_3...”以区分。
常见问题
答:支持PDF、DOCX、PPTX、TXT、MD/Markdown、HTML/HTM、SRT、CSV、JSON等常见格式。批量模式可同时混合选择多种格式。
答:普通匹配按字符直接查找;全词匹配适合英文/数字词,避免误匹配到更长单词;正则表达式适合编号、日期、区间等复杂规则(例如:
INV-\\d+)。
答:常见原因包括:PDF文字提取顺序与视觉排版不完全一致、换行/多个空格导致关键词被拆开、断行连字符导致词被分割。可尝试勾选合并空白字符与合并断行连字符,并结合“片段提取”核对命中上下文。
答:在PDF专用设置中填写起始页与结束页即可。结束页填0表示统计到末页。起始页不能大于结束页。
答:当多个文件在导出时生成了相同的结果文件名(例如不同来源文件同名,或同名文件导出为同一扩展名)时,系统会自动追加_2、_3进行区分,避免覆盖。
答:建议:1)对PDF设置页码范围分段处理;2)批量文件较多时分批操作;3)关闭“片段提取”或减少片段数量;4)正则表达式尽量避免过于复杂的回溯写法。