批量视频音频转文字工具

批量将视频和音频文件离线识别为文字，一键导出TXT、SRT、VTT、JSON、LRC、CSV多种字幕与文本格式。

BUG反馈

工具加载中，请稍等...

如无法加载或使用，请下载本地工具：https://tools.yikeaigc.com/

工具使用

返回旧版工具

此工具有软件版，功能更强大，更稳定前往软件版

使用说明

软件使用说明

添加待识别文件：点击"选择文件"或"选择文件夹"按钮，添加需要转文字的视频或音频文件，也可直接将文件、文件夹拖入软件窗口。支持MP4、MKV、MOV、AVI、FLV、WebM、MP3、WAV、FLAC、M4A等常见音视频格式批量混合添加。
设置保存目录：选择处理后字幕和文本的保存位置，支持拖拽设置。如勾选"遍历子目录"，可继续勾选"保持原路径结构"，输出文件会与源文件夹的目录结构一一对应。
选择输出格式：
- TXT：纯文本，适合整理文稿和会议纪要
- SRT / VTT：带时间戳的字幕格式，可直接挂载到视频中使用
- JSON：结构化数据，方便二次开发与程序处理
- LRC：歌词格式,适合音乐和有声书
- CSV：表格格式，便于在Excel中编辑校对
配置识别参数：
- 模型路径：默认使用Paraformer中文识别模型、FSMN语音活动检测和CT标点模型
- 批处理时长：设置单次推理的最长音频时长
- VAD单段最长毫秒：控制语音段切分的颗粒度
- 热词列表：填入专有名词、人名、品牌词,提升识别准确率
- 跳过/覆盖策略：对已存在的输出文件选择跳过或覆盖
开始批量识别：点击"开始识别"按钮，软件会自动提取音轨、切分语音段、推理转写并加上标点。处理过程中可在日志区查看进度，需要中止时点击"停止"按钮。
查看与使用结果：识别完成后到设置的保存目录中查看对应格式的文件，SRT/VTT字幕可直接拖入剪辑软件或播放器使用。

常见问题

答：视频支持MP4、MKV、MOV、AVI、FLV、WMV、WebM、M4V、MPG、TS、3GP、RMVB等；音频支持MP3、WAV、FLAC、AAC、OGG、M4A、WMA、OPUS、AC3、AMR、APE等。可在同一批次中混合添加视频与音频文件，软件会自动识别并提取音轨。

答：软件采用本地离线识别，全程无需联网，模型文件放在程序根目录的models文件夹中。基于FunASR的Paraformer中文模型，对普通话识别准确率较高，配合热词列表可进一步提升专有名词、人名、术语的识别效果。

答：TXT适合整理文稿、写作素材；SRT和VTT是通用字幕格式，可挂载到视频和网页播放器；JSON包含完整的时间戳与片段信息，便于二次开发；LRC适合音乐与有声书；CSV方便在Excel中按时间段校对编辑。可勾选多种格式同时导出。

答：在热词输入框中填入容易识别错误的专有名词，例如人名、公司名、产品名、技术术语等，多个词用空格或换行分隔。识别引擎会优先匹配这些词，对垂直行业内容、自媒体口播、企业培训等场景效果较为明显。

答：勾选"遍历子目录"后该选项可用。开启后，输出文件会按照源文件夹内的目录层级结构生成对应子目录，方便对大批量素材进行归档管理。如遇重复文件名，会自动在文件名后追加数字加以区分。

答：软件内置VAD语音活动检测，会先按静音段自动切分长音频，再按"批处理时长"参数分段送入识别模型，理论上对几小时的长视频也可完整处理。识别速度与电脑CPU性能相关，建议处理大批量素材时关闭其他高占用程序。

答：默认模型为中文Paraformer，对普通话和中英混合内容支持较好；对粤语、川话、闽南话等方言识别效果相对一般。如果素材以方言为主，建议先调整发音习惯或选用更匹配的模型替换默认路径。

答：软件默认启用CT-Punc标点模型，会自动为识别结果添加逗号、句号、问号等标点。如果发现没有标点，请检查参数中的标点模型路径是否正确指向models文件夹下的ct-punc目录，确保模型文件完整。

批量视频音频转文字工具

工具加载中，请稍等...

工具使用