【原】微软Edge，你这是人干的事吗？

网罗灯下黑 2021-01-19

展开全文

不是，这是微软的人工智能。

先从 Edge 浏览器说起，大家肯定不陌生了，它现在早已「弃暗投明」把内核更换为 Chromium ，之前刚有风声出内测版的时候就在这篇文章中《微软新版 Edge 泄露！留给 Chrome 的时间不多了？》给大家详细介绍过了。

不过，尽管 Edge 涨势凶猛，但是某些扩展和脚本在 Edge 上的兼容性还是不如 Chrome，再加上习惯原因，我的主力浏览器还是 Chrome。

不过，最近我在 Edge 上发现了一个功能，效果极其出众，而 Chrome 上面却没有，让我着实羡慕了。

这个功能并不是最近才出的，只不过大家都没太在意，更没有过多去研究，相信我，看了今天这篇文章，一定能让你产生想要「折腾」一下的兴趣。

因为，它虽然不是人干的，但是几乎可以以假乱真。

大声朗读

这个就是 Edge 独占的「大声朗读」功能，可以把浏览器内的文字生成 TTS 语音朗读，这功能并不新奇，很多软件以及在线网站都有，但是这类工具调用的都是通用的引擎，语音发声一听就是合成的，根本让人无法听下去。

但是 Edge 的「大声朗读」效果就不同了，要知道微软在人工智能语音合成领域可是有多年功力积淀的，背靠巨硬这颗大树，Edge 的「大声朗读」效果堪比真人发音，不细听你还真分不出来。

当然说一千道一万，还不如让大家直接听一下。

来先听下普通话女声，Lady first。

再听下普通话男声。

怎么样，这「两位」的普通话不「普通」吧，吐字清晰，字正腔圆，并不是死板地读下来，甚至还带了一点语调。

总之声音完全不像其他那些软件文字转的语音那么机械僵硬，尤其是某些视频博主配的配音，都是这类软件文字转的语音，莫得一点感情。

而且还有一点是什么？不知道大家有没有发现，那就是它们朗读时断句断得是比较准确的，说明它们可以准确判断出句中的断句位置。

大家都知道，当让你第一次朗读一篇文章时，估计大多数人都无法流利的朗读下来，中间肯定会出现一些错误，然而你也听到了，新 Edge 的「大声朗读」功能基本不会出现这种错误。

还有就是这个功能不需安装任何扩展就可以直接在新版 Edge 中使用，使用起来非常简单方便。

当你想在电脑上听网页上的小说时，或者看电脑累了想放松听下网页内容时，这个功能就派上用场了。

直接点开菜单栏中就就能看到大声朗读功能。

或者直接在页面点击鼠标右键也可以。

如果不需要朗读网页上的全部文字，那就选中文字后再右键点击朗读所选内容即可。

当开始朗读之后，页面上方会出现一些控制按钮，比如暂停或切换段落，右边的语音选项中还可以调节朗读速度，以及切换语音。

在选择语音时，普通话的话我建议选择红框中的前两个，刚才展示的普通话也就是这两个，你还可以选择粤语以及台湾省的方言，

细心的小伙伴还会发现，他们其实都有自己的名字，比如说普通话的叫做 Xiaoxiao 和 Yunyang，一听就分别是女生和男生的名字。他们都是微软 Azure 认知服务语音合成中公共语音的一员。

其他支持的语言，看了下，目前主流的外语都不在话下。

大家都可以试试看，不过目前公认效果最好的还是「xiaoxiao」，也就是文章开头的例子。

我觉得那些视频博主完全可以用新 Edge 的大声朗读功能来给他们的视频配音，所以那就需要用新 Edge 浏览器打开文本内容，新建一个文本文档，它可以在新 Edge 浏览器中直接打开。

然后把朗读生成的语音内录保存，效果绝对碾压抖音上的营销号视频效果。

手机端使用

可惜的是这个大声朗读功能只能在新 Edge 的电脑端使用，不过多亏一位名叫「丨丨丨丨丨」（没错，这就是他的 ID）的酷安用户把微软的语音服务整合到 App 里，然后就可以将手机内置的 TTS 引擎更换为微软，如此就可以在手机上调用「大声朗读」的功能，不过只能在安卓手机上使用。

安装 App 之后，首先点击系统 TTS 设置把首选引擎更改为大声朗读，下面也可以调节语速和音高，还可以点播放进行试听。

然后点击 SSML 语音合成标记语言，可以看到它默认的就是刚才那位女生 Xiaoxiao 的语音。

那什么是 SSML 语音合成标记语言呢？

根据微软官方的解释：

语音合成标记语言 (SSML) 是一种基于 XML 的标记语言，可让开发人员指定如何使用文本转语音服务将输入文本转换为合成语音。与纯文本相比，SSML 可让开发人员微调音节、发音、语速、音量以及文本转语音输出的其他属性。SSML 可自动处理正常的停顿（例如，在句号后面暂停片刻），或者在以问号结尾的句子中使用正确的音调。

简单说，有了这个技术，Xiaoxiao 可以用更多的风格，或者说是情感来朗读了。

我们简单听几个，看看到底和正常的风格有什么不一样？

沉着冷静 calm

紧张恐惧 fearful

生气 angry

悲伤 sad

轻蔑 disgruntled

撒娇 affectionate

那怎么用呢？比如说，下面的的代码就设置了 Xiaoxiao 生气风格的 AI 语音，把它复制粘贴到前面点开 SSML 语音合成标记语言之后的输入框内点击确定就可以更换风格了。

<speak version="1.0" xmlns="http://www./2001/10/synthesis" 
xmlns:mstts="https://www./2001/mstts" 
xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    <prosody rate="${(rate-100)?c}%" pitch="${(pitch-100)?c}%">
      <mstts:express-as style="angry" styledegree="2">${text} 
      </mstts:express-as>
    </prosody>
  </voice>
</speak>