分享

中文写作利器,比 whisper 快 40 倍的免费语音识别,自己部署只要 3 步。。。

 swordinhand 2023-08-22 发布于美国

前言

文本所说的这个仓库,可以有效提升语音转文字稿的速度。而且使用了 google colab 提供的免费GPU资源,可以快速实现需求。

OpenAI 的 whisper有个弊端,就是10分钟的视频,非得1:1的时间完成。本文测试了B站罗翔老师的一段8分钟视频,大概1分钟出稿。大大节约了时间。

仓库介绍

仓库地址:faster-whisper-youtube

https://github.com/lewangdev/faster-whisper-youtube

虽然名字里有 youtube,但所使用的的视频下载库,支持大多数平台。本文我们测试的是 B 站视频

图片
3步跑通模型

本文所使用的 jupyter notebook 运行文件,还有纸质版PDF,在文末获取

部署

在仓库首页,点击 readme 文档内 NOTEBOOK 链接,直接打开google colab的地址,并自动加载仓库对应的最新的 ipynb 文件内容。

你也可以手动访问google colab fast-whisper-youtube

1,colab 首页

图片
colab project

2,检查GPU类型

点击单元格运行按钮,如下图箭头所指位置。

图片
check gpu type

免费额度已足以跑起来开源的 whisper 模型了。我们这个笔记使用的资源配置如下。

图片
runtime gpu
图片
cell running

3,安装依赖库

本项目使用了两个项目依赖:

  • · faster-whisper,用于实现语音识别

  • · yt-dlp,用于下载视频文件,提升语音文件

点击单元格按钮,直接运行:

图片
pip install library

运行结果:

图片
pip result

4,挂载google drive路径

主要是为了把生成的文本文件存盘。打开google drive,依次创建路径:

Colab Notebooks/Faster Whisper Youtube

图片
google drive path

目录创建完毕,运行单元格代码:

图片
mount google driver path

授权允许colab访问google drive空间。

图片
access

5,模型选择

根据支持的模型列表,我们选择 large-v2,有1550M参数,精准度比较高。

图片
model选择

选择完毕,执行单元格代码。

图片
执行选择的参数

会自动下载和加载模型数据

图片
model download

6,选择视频

第三步所执行的依赖安装中,yt-dlp 就是用来下载视频数据。这一节,我们选择B站的一段视频。我们在首页找一个短一些的热门视频,比如罗翔老师对于搭浮桥是否构成寻衅滋事的解读

图片
【罗翔】村民修桥收费被判处寻衅滋事,这件事应该如何看?

把需要设置的参数填上去。

图片
设置视频url

从代码上看,执行了视频下载,并提取其中的声音文件

图片
视频下载声音提取

这样,基础的声音文件就准备好了,可以执行下一步的任务了。

7,运行模型

准备好数据之后,需要指定一些参数。比如声音的语言类型,这里选择“中文”。代码内自带的初始化提示词,是有助于语音断句的,我们暂不做更改。

图片
选择中文

右侧可以查看计算资源的使用情况。

图片
CPU, GPU

这是一段8分钟的视频,识别速度还是挺快的。

图片
视频字幕

大概花了一分钟,就识别好了。输出的默认是繁体中文。可以有两种方法处理:

  • · 修改源代码,language 部分实现简体中文;

  • · 识别的文件,使用简繁转换;网上这类工具比较多。

到这里,就大功告成了。生成的字幕文件,以 srt 格式,存储在google drive指定的目录下。

最后

在 colab 上跑通这个模型还是比较顺利的,没有遇到特别的问题。

如果你本地有显卡,或者充裕的CPU + 内存,那么把仓库内的 ipynb 文件,放在本地直接运行也是完全可以的。

对于需要付费的一些国内平台,对用户而言,这个仓库让大家又多了一个选择


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多