搜索

分享

QQ空间 QQ好友新浪微博微信

【原】NLP之ASR：基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略

处女座的程序猿 2021-09-28

展开全文

NLP之ASR：基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略

利用python进行语音生成

T1、调用win系统自带程序将文字转为语音读出
T2、利用python的pyaudio库进行实时录制，生成wav文件
T3、利用BAT、科大讯飞等的语音识别API(上传到BAT、科大讯飞等语音服务器)API将自定义文字，转换生成wav、mp3等文件

利用python进行语音识别

T1、利用BAT、科大讯飞等语音识别API(上传到百度语音服务器)API将生成wav、mp3等文件，识别转为文本内容
T2、后期更新……

相关文章
百度语音调用流程
百度语音之错误码及常见原因
pyaudio：基于pyaudio利用Python编程从电脑端录制音频保存到指定文件夹+将录音上传服务器+录音进行识别并转为文本保存
ASR：基于pyaudio利用python进行语音生成、语音播放、语音识别总结及其案例详细攻略

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：处女座的程序猿 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

处女座的程序猿

关注对话

TA的最新馆藏

AI之T2I：Stable Diffusion 3的简介、安装和使用方法、案例应用之详细攻略
LLMs之Gemma：Gemma(Google开发的新一代领先的开源模型)的简介、安装、使用方法之详细攻略
Py之pydantic：pydantic的简介、安装、使用方法之详细攻略
Py之ydata-profilin：ydata-profiling的简介、安装、使用方法之详细攻略
成功解决pydantic.errors.PydanticImportError: `BaseSettings` has been moved to the `pydantic-settings` pa
VGM之Sora：OpenAI重磅发布一款“炸天”的视频生成模型—《Video generation models as world simulators视频生成模型作为世界模拟器》翻译与解读

喜欢该文的人也喜欢更多

热门阅读换一换