前言文本所说的这个仓库,可以有效提升语音转文字稿 的速度。而且使用了 google colab 提供的免费GPU资源,可以快速实现需求。 OpenAI 的 whisper 有个弊端,就是10分钟的视频,非得1:1 的时间完成。本文测试了B站罗翔老师 的一段8分钟视频 ,大概1分钟出稿 。大大节约了时间。
仓库介绍仓库地址:faster-whisper-youtube。 https://github.com/lewangdev/faster-whisper-youtube
虽然名字里有 youtube ,但所使用的的视频下载库,支持大多数平台 。本文我们测试的是 B 站视频 。 本文所使用的 jupyter notebook 运行文件 ,还有纸质版PDF ,在文末获取。 部署在仓库首页,点击 readme 文档内 NOTEBOOK 链接,直接打开google colab 的地址,并自动加载仓库对应的最新的 ipynb 文件内容。 你也可以手动访问google colab fast-whisper-youtube。 1,colab 首页2,检查GPU类型点击单元格运行按钮,如下图箭头所指位置。 免费额度已足以跑起来开源的 whisper 模型了。我们这个笔记使用的资源配置如下。 3,安装依赖库本项目使用了两个项目依赖: 点击单元格按钮,直接运行: 运行结果: 4,挂载google drive路径主要是为了把生成的文本文件存盘 。打开google drive,依次创建路径: Colab Notebooks/Faster Whisper Youtube
目录创建完毕,运行单元格代码: 授权允许colab访问google drive空间。 5,模型选择根据支持的模型列表,我们选择 large-v2 ,有1550M 参数,精准度比较高。 选择完毕,执行单元格代码。 会自动下载和加载模型数据 。 6,选择视频第三步所执行的依赖安装中,yt-dlp 就是用来下载视频数据。这一节,我们选择B站 的一段视频。我们在首页找一个短一些的热门视频,比如罗翔老师对于搭浮桥是否构成寻衅滋事的解读 。 把需要设置的参数填上去。 从代码上看,执行了视频下载 ,并提取其中的声音文件 。 这样,基础的声音文件就准备好了 ,可以执行下一步的任务了。 7,运行模型准备好数据之后,需要指定一些参数。比如声音的语言类型 ,这里选择“中文 ”。代码内自带的初始化提示词,是有助于语音断句 的,我们暂不做更改。 右侧可以查看计算资源的使用情况。 这是一段8分钟的视频 ,识别速度还是挺快的。 大概花了一分钟 ,就识别好了。输出的默认是繁体中文。可以有两种方法 处理: 到这里,就大功告成了。生成的字幕文件,以 srt 格式,存储在google drive指定的目录下。 最后在 colab 上跑通这个模型还是比较顺利的 ,没有遇到特别的问题。 如果你本地有显卡 ,或者充裕的CPU + 内存 ,那么把仓库内的 ipynb 文件,放在本地直接运行 也是完全可以的。 对于需要付费的一些国内平台 ,对用户而言,这个仓库让大家又多了一个选择
|