沪江博客 - luodean外语学习博客 - 网上资源＋自由软件＋语音识别技术，信息时代的全能英语学习方法演示

昵称67994 2008-09-19

展开全文

虽然自动语音识(ASR,Automatic Speech Recognition)技术尚无法实现在所有条件下准确无误地识别不同人的发音，但是近二十年来ASR已经发展到了一个比较成熟的阶段。把语音识别技术运用于外语学习（CALL，computer aided language learning)方面的研究,常见于国际学术会议的论文中。但是，这些技术，尚未普及于外语教与学之中。比如说，5年多前，我在沪江交流版（现在的口语版）混日子的时候，已经有利用影音资料进行互动、模仿秀之类的节目，5年多后，大家的学习方式并没有本质的改变。如果把语音识别／分析技术运用于模仿秀一类的学习中的话，有助于对比／纠正发音，真正练就一口纯正的语音。的确，当前的自动语音识别技术存在着许多稳定性的问题，但是运用的当的话，不失为辅助外语教育与学习的一种好工具。事实上，只需要一些自由软件，加上网上丰富的学习资源，每一个人都能构建出简单实用、属于自己的CALL（电脑语音分析技术辅助学习）系统。以下就是简单的一个演示：

所需准备的工具

录音话筒，最好适合语音识别、去噪音的。

下载安装 flv downloader ：（可选，下载网络外语视频用）
http://www./download_flv/

下载安装 active perl 5.8以上版本（执行脚本用）
http://www./soft/1211.html

下载语音识别工具HTK（需要注册）的windows binary文件
http://htk.eng./ftp/software

下载用于HTK的标准美国英语模型（随便选择其中一个，一般说来文件大小越大，识别率会高一些）
http://www.inference.phy./kv227/htk/acoustic_models.html

下载字幕工具subcreator，用于手工给视频加时间和文本（字幕），方便提取每个句子语音以及相对应的文本，供模仿语音练习用
http://www./index.php?docid=subcreator&section=software

下载安装可以把视频转换成音频的软件（随便什么都可以）winff
http://www./

下载音频工具sox
http://sox./

下载安装stardict（星际译王）主程序、辞典文件以及真人语音
http://stardict./download.php
http://blog.hjenglish.com/luodean/articles/814264.html

系统构成：
第一步：下载网上学习资源
最好选择有标准文本的资料，如：
cnn student news: http://edition./LIVING/studentnews/quick.guide/archive/
cbs evening news，VOA，等等
用FLV downloader下载flv视频（只需要启动程序，按下“start recording”键，就可以把正在播放的flash视频flv文件给下载下来）
把文本拷贝、保存下来供整理用。
如果你的mediaplayer不能播放flv文件，请下载最新的ffdshow Video Codec解码器，或者安装这个xp/vista用的解码器：http://shark007./

第二步：用字幕软件subcreator进行听写或参照文本制作出以句子为单位的英文字幕srt文件
Subcreator既是很好字幕软件，也是不错的练习听写的工具。只要mediaplayer能播放的软件、都可以用它来制作字幕文本。使用方法可参照网上说明，日后另行撰文介绍,基本上ctrl+space对应暂停／播放，ctrl+a添加开始时间，ctrl+t视频播放时间跳到于改行文本随对应的时间。必须注意的是字幕srt文件将被用于语音分割工具来提取句子，字幕以句子为单位添加，默认时间设置得长一些（把4秒改成10秒以上）。

第三步：把视频转换成音频
能把视频转换成音频的软件很多。

第四步：分割语音
读取srt的时间信息，把音频一个句子一个句子地分割出来，选择比较没有噪音和背景音乐的部分当作语音模仿的范本。详细日后补充。

第五步：设置HTK,整合于录音程序中
如果范本语音中含有发音字典中不存在的单词，需要手工输入发音符号，设置方法、HTK执行脚本以及录音程序日后上传

第六步：把分析结果整理成HTML文件，学习者一目了然。
用HTK的识别结果，把范本语音以及录音以单词为单位进行分割，语音文件、评价（分数、错在哪里等等）以网页连接形式呈现在学习者面前，学习这可以仔细的比较自己的发音和范本语音的差别。
按单词单位分割的范本语音可以加入到stardict真人语音库，一石二鸟。

4／1：正在用Visual C++开发新版本CALL系统，集合录音、测试、语音模仿秀功能，功能完善后将提供免费下载。

其实CALL系统更适合采用网络方式，由教师开发教材，进行后台管理，学生把自己的录音上传到主机，进行练习和评测。

参考论文：
http://svr-www.eng./~smw24/ltlt.ps
http://acl.ldc./W/W03/W03-0204.pdf

Tag标签: 英语发音