搜索

分享

QQ空间 QQ好友新浪微博微信

中文写作利器，比 whisper 快 40 倍的免费语音识别，自己部署只要 3 步。。。

swordinhand 2023-08-22 发布于美国

展开全文

前言

文本所说的这个仓库，可以有效提升语音转文字稿的速度。而且使用了 google colab 提供的免费GPU资源，可以快速实现需求。

OpenAI 的 whisper有个弊端，就是10分钟的视频，非得1:1的时间完成。本文测试了B站罗翔老师的一段8分钟视频，大概1分钟出稿。大大节约了时间。

仓库介绍

仓库地址：faster-whisper-youtube。

https://github.com/lewangdev/faster-whisper-youtube

虽然名字里有 youtube，但所使用的的视频下载库，支持大多数平台。本文我们测试的是 B 站视频。

3步跑通模型

本文所使用的 jupyter notebook 运行文件，还有纸质版PDF，在文末获取。

部署

在仓库首页，点击 readme 文档内 NOTEBOOK 链接，直接打开google colab的地址，并自动加载仓库对应的最新的 ipynb 文件内容。

你也可以手动访问google colab fast-whisper-youtube。

1，colab 首页

colab project

2，检查GPU类型

点击单元格运行按钮，如下图箭头所指位置。

check gpu type

免费额度已足以跑起来开源的 whisper 模型了。我们这个笔记使用的资源配置如下。

runtime gpu

cell running

3，安装依赖库

本项目使用了两个项目依赖：

· faster-whisper，用于实现语音识别
· yt-dlp，用于下载视频文件，提升语音文件

点击单元格按钮，直接运行：

pip install library

运行结果：

pip result

4，挂载google drive路径

主要是为了把生成的文本文件存盘。打开google drive，依次创建路径：

Colab Notebooks/Faster Whisper Youtube

google drive path

目录创建完毕，运行单元格代码：

mount google driver path

授权允许colab访问google drive空间。

access

5，模型选择

根据支持的模型列表，我们选择 large-v2，有1550M参数，精准度比较高。

model选择

选择完毕，执行单元格代码。

执行选择的参数

会自动下载和加载模型数据。

model download

6，选择视频

第三步所执行的依赖安装中，yt-dlp 就是用来下载视频数据。这一节，我们选择B站的一段视频。我们在首页找一个短一些的热门视频，比如罗翔老师对于搭浮桥是否构成寻衅滋事的解读。

【罗翔】村民修桥收费被判处寻衅滋事，这件事应该如何看？

把需要设置的参数填上去。

设置视频url

从代码上看，执行了视频下载，并提取其中的声音文件。

视频下载声音提取

这样，基础的声音文件就准备好了，可以执行下一步的任务了。

7，运行模型

准备好数据之后，需要指定一些参数。比如声音的语言类型，这里选择“中文”。代码内自带的初始化提示词，是有助于语音断句的，我们暂不做更改。

选择中文

右侧可以查看计算资源的使用情况。

CPU, GPU

这是一段8分钟的视频，识别速度还是挺快的。

视频字幕

大概花了一分钟，就识别好了。输出的默认是繁体中文。可以有两种方法处理：

· 修改源代码，language 部分实现简体中文；
· 识别的文件，使用简繁转换；网上这类工具比较多。

到这里，就大功告成了。生成的字幕文件，以 srt 格式，存储在google drive指定的目录下。

最后

在 colab 上跑通这个模型还是比较顺利的，没有遇到特别的问题。

如果你本地有显卡，或者充裕的CPU + 内存，那么把仓库内的 ipynb 文件，放在本地直接运行也是完全可以的。

对于需要付费的一些国内平台，对用户而言，这个仓库让大家又多了一个选择

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： swordinhand > 《Program》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

swordinhand

关注对话

TA的最新馆藏

使用 zsh 后HOME/END 键以及小键盘失效
【机器学习】14种异常检测方法总结！
精品网站推荐！这8个都是宝藏，资源完全免费，非常好用！！| 零度解说 – 零度解说
[转] 10个资源搜索网站，海量资源随意保存，你想要的都能找到
[转] Mixly--强大的Arduino图形化编程工具
数据降维的 7 种方法，附 Python 代码

喜欢该文的人也喜欢更多

热门阅读换一换