分享

开源TTS/语音合成和处理工具

 guitarhua 2012-05-19
开源TTS/语音合成和处理工具(1)
2009-09-09 18:13
1.eSpeak

eSpeak是一个紧凑的开放源码软件的语音合成器为英语和其他语言,为Linux和Windows 。

eSpeak生产高质量的英语演讲。 它使用了不同的合成方法从其他开源语音合成引擎,和声音完全不同。 这也许不是作为自然人或“平稳” ,但我觉得发音更清晰,更容易听很长时间。

它可以运行命令行程序发言的文本文件或从标准输入。 一个共享库的版本也已推出。

  • 包括不同的声音,其特点可以改变。
  • 能产生语音输出为WAV文件。
  • SSML (语音合成标记语言)的支持(未完成) ,并使用HTML 。
  • 该计划及其数据,其中包括数种语言,总计约700千字节。
  • 可以把文字,音素代码,所以它能够适应作为一个前端另一个语音合成引擎。
  • 潜在的其他语言。 一些包含在不同阶段所取得的进展。 帮助母语为这些或其他语言的欢迎。
  • 开发工具可用于生产和调整音素数据。
  • 写在C + +
  •  Windows版本 目前的Windows SAPI5和命令行版本的eSpeak 。 SAPI5版本的可以使用屏幕阅读器,如完,颌骨,超新星,以及窗的眼睛。
    它们可以作为一个Windows安装程序包

    该eSpeak语音合成器支持几种语言,但在大多数情况下,这些都是初稿,并需要更多的工作来改善。 援助的母语是值得欢迎的这些或其他新的语言。 请与我联系如果你想帮助。

    eSpeak没有文字,语音合成的语言,一些比别人做得更好。南 非荷兰语,粤语,克罗地亚语,捷克语,荷兰语,英语,世界语,芬兰语,法语,德语,希腊语,印地语,匈牙利语,冰岛语,意大利语, Lojban ,马其顿语,普通话,挪威语,波兰语,葡萄牙语,罗马尼亚语,俄语,塞尔维亚语,斯洛伐克语,西班牙语,斯瓦希里语,瑞典,越南,威尔士。

    2.FreeTTS
    FreeTTS 是完全采用 Java 开发的语音合成系统,它是卡内基梅隆大学基于 Flite 这个小型的语音合成引擎开发的。
    FreeTTS是一个语音合成系统写的JavaTM编程语言完全。它是根据Flite公司:一个小运行时语音合成引擎卡内 基梅隆大学的发展。弗莱特来源于节语音合成系统,从爱丁堡大学和卡内基梅隆大学的festvox项目。这种FreeTTS版本包括:*核心语音合成引擎* 支持的多寡:邻一8kHz的双音子,男,美国英语语音办公16KHz的双音子,男,美国英语语音办公16KHz的有限域,男*美国英语语音的 festvox的进口(美国英语的声音只)*对进口的festvox(仅限美式英文)*支持工具中央结算系统的MBROLA北极的具体支持,支持的声音声 音(单独下载):办公自动化16KHz的女性,美国英语语音O 2个16KHz的男性声音*美国英语为JSAPI 1.0 *广泛的API文档部分支持*几个演示应用
    3.eSpeak-Chinese

    eSpeak-Chinese是一个TTS软件。它是基于Jonathan Duddington 的eSpeak,由于中文词典太大,eSpeak缺省并不带中文词典,需另外下载。发布eSpeak-Chinese只是为了方便用户安装。

    国语支持的主要贡献者:

    • Kyle Wang (waxaca at 163.com) – 创建了最初的字典,规则和声音文件。
    • Silas S. Brown (http://people.pwf./ssb22/) - 改进词典(加入CEDICT等).

    粤语支持的主要贡献者:

    • 黄冠能 - 创建了粤语字典,简易的规则和声音文件。

    eSpeak-Chinese是eGuideDog项目的重要组成部分。另一个中文TTS(余音)在开发中。它在设计上更简易但文件较大。由于使用了真人发声,它比eSpeak的声音更自然。目前它只支持粤语。

    4.Flite
    Flite是一个小型、快速的TTS系统,是著名的语音合成系统festival的c版本。可用于嵌入式系统
    5.OpenVXI

    OpenVXI 提供的是完整的 VXML 解析服务,同时也提供了有限语言的 TTS 支持。

    Voice eXtensible Markup Language(简称 VXML)是被用来创建语音对话系统,可以调用语音合成以及语音识别服务,可以用来记录语音录入和连接电话系统。创建 VXML 语音的主要目的就是用 Web 开发的理念来开发交互式的语音应用。VXML 提供了基于 Menu 和基于 Form 的两套框架,整合了语音识别和语音合成两个关键服务,使得语音应用的开发变得更为方便和快捷。

    VXML 和普通的标记语言一样,需要有浏览器进行解析;还需要提供语音识别和语音合成服务的应用服务器;有时也需要有 http 服务器提供文档服务;当然,如果需要与电话系统相连,就必须加上 VOIP (网络电话)的支持。如下图所示的就是 VXML 的运行环境:

    图 1. VXML 运行环境
    图 1. VXML 运行环境

    一个企业级应用的系统框架

    IVR (interactive voice-response services) 也就是自动应答服务,是使用 VXML 的典型企业级应用。IVR 和使用者通过电话,按键 (DTMF) 互动,如语音订票,语音查询,语音投票等。普通的 IVR 都是支持 VXML 的解析和提供了 sip 协议的支持,通过和 ASR ( 语音识别 ) 应用服务器以及 TTS( 语音合成 ) 应用服务器的集成,可以实现几乎所有的 VXML 封装的操作。

    企业级的 VXML 应用需要如下的体系结构,以使用 IBM Voice Server (WVS) 为例:


    图 2. 一个 VXML 具体应用的例子
    图 2. 一个 VXML 具体应用的例子

    上图中的 IVR 事实上就是 VXML 解析器,通过解析 VXML,分发相应的工作给 WVS ,实现 VXML 封装的语音识别和语音合成的功能。


      本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
      转藏 分享 献花(0

      0条评论

      发表

      请遵守用户 评论公约

      类似文章 更多