【本地执行模式】 : 您的所有数据均在浏览器中处理,不会上传服务器,数据安全有保障。不放心的,可等待页面加载完成后 断网使用!(需提前登录账号)
【速度及稳定性】 : 处理速度由您的机器配置决定。由于浏览器差异,少数工具可能出现无法使用或异常:请使用:软件版工具
工具使用
仅支持 Windows 10/11
批量视频音频转文字工具 (软件版)
由于离线语音识别模型加载与音视频解码需要消耗大量的计算资源,为了提供更稳定、高效的处理体验,此功能仅提供 Windows 桌面客户端版本。
支持批量识别视频与音频,多种主流格式通吃
一键导出 TXT、SRT、VTT、JSON、LRC、CSV
离线本地识别,不上传文件,保护隐私
点击将跳转至软件下载页面
使用说明
软件使用说明
- 添加待识别文件:点击"选择文件"或"选择文件夹"按钮,添加需要转文字的视频或音频文件,也可直接将文件、文件夹拖入软件窗口。支持MP4、MKV、MOV、AVI、FLV、WebM、MP3、WAV、FLAC、M4A等常见音视频格式批量混合添加。
- 设置保存目录:选择处理后字幕和文本的保存位置,支持拖拽设置。如勾选"遍历子目录",可继续勾选"保持原路径结构",输出文件会与源文件夹的目录结构一一对应。
- 选择输出格式:
- TXT:纯文本,适合整理文稿和会议纪要
- SRT / VTT:带时间戳的字幕格式,可直接挂载到视频中使用
- JSON:结构化数据,方便二次开发与程序处理
- LRC:歌词格式,适合音乐和有声书
- CSV:表格格式,便于在Excel中编辑校对
- 配置识别参数:
- 模型路径:默认使用Paraformer中文识别模型、FSMN语音活动检测和CT标点模型
- 批处理时长:设置单次推理的最长音频时长
- VAD单段最长毫秒:控制语音段切分的颗粒度
- 热词列表:填入专有名词、人名、品牌词,提升识别准确率
- 跳过/覆盖策略:对已存在的输出文件选择跳过或覆盖
- 开始批量识别:点击"开始识别"按钮,软件会自动提取音轨、切分语音段、推理转写并加上标点。处理过程中可在日志区查看进度,需要中止时点击"停止"按钮。
- 查看与使用结果:识别完成后到设置的保存目录中查看对应格式的文件,SRT/VTT字幕可直接拖入剪辑软件或播放器使用。
常见问题
答:视频支持MP4、MKV、MOV、AVI、FLV、WMV、WebM、M4V、MPG、TS、3GP、RMVB等;音频支持MP3、WAV、FLAC、AAC、OGG、M4A、WMA、OPUS、AC3、AMR、APE等。可在同一批次中混合添加视频与音频文件,软件会自动识别并提取音轨。
答:软件采用本地离线识别,全程无需联网,模型文件放在程序根目录的models文件夹中。基于FunASR的Paraformer中文模型,对普通话识别准确率较高,配合热词列表可进一步提升专有名词、人名、术语的识别效果。
答:TXT适合整理文稿、写作素材;SRT和VTT是通用字幕格式,可挂载到视频和网页播放器;JSON包含完整的时间戳与片段信息,便于二次开发;LRC适合音乐与有声书;CSV方便在Excel中按时间段校对编辑。可勾选多种格式同时导出。
答:在热词输入框中填入容易识别错误的专有名词,例如人名、公司名、产品名、技术术语等,多个词用空格或换行分隔。识别引擎会优先匹配这些词,对垂直行业内容、自媒体口播、企业培训等场景效果较为明显。
答:勾选"遍历子目录"后该选项可用。开启后,输出文件会按照源文件夹内的目录层级结构生成对应子目录,方便对大批量素材进行归档管理。如遇重复文件名,会自动在文件名后追加数字加以区分。
答:软件内置VAD语音活动检测,会先按静音段自动切分长音频,再按"批处理时长"参数分段送入识别模型,理论上对几小时的长视频也可完整处理。识别速度与电脑CPU性能相关,建议处理大批量素材时关闭其他高占用程序。
答:默认模型为中文Paraformer,对普通话和中英混合内容支持较好;对粤语、川话、闽南话等方言识别效果相对一般。如果素材以方言为主,建议先调整发音习惯或选用更匹配的模型替换默认路径。
答:软件默认启用CT-Punc标点模型,会自动为识别结果添加逗号、句号、问号等标点。如果发现没有标点,请检查参数中的标点模型路径是否正确指向models文件夹下的ct-punc目录,确保模型文件完整。