分享

这才是真正的小而美工具!

 网罗灯下黑 2022-04-26

之前也和大家聊过很多次,年年迭代的旗舰机们对于我们普罗大众来说,性能是绝对溢出的。

诚然,硬件上的性能溢出可能会在未来触发很多奇妙的「化学反应」,可在当下,这些溢出对于像我这般普通使用者来说,其实很没有「价值」。

就拿前两年被当作噱头宣传的 AI 芯片举例,每秒千亿级别的运算数,听着很吓人对不对,但实际应用中它仅仅体现在拍照效果好些,人脸识别准些,诸如此类的「细枝末节」。

换句话说,手机厂商是在为未来铺路,而我们是在为未来买单。

在这么一条前不着村后不着店的路上,溢出的性能就显得极其不接地气,除非——

有人帮你把它应用到现实。

上面这句话是我在 App Store 上见到「语音文字助手」后最直观的感受,刚好今天借着这个 App,和大家聊聊这类工具。

语音文字助手

有一说一,现在市场上很多语音文字转换的 AI 工具扒到底都是「套壳」开发,本质上是在调用提供云服务的大厂接口。

对此我并没有恶意,就像以前给大家介绍过的 OCR 工具一样,自己去申请个 API,用现成的工具白嫖大厂,何乐而不为呢。

不过这种套壳工具,最后往往为了不再用爱发电,大多走上了我帮你花钱去大厂那买量,你付费给个辛苦钱的道路。

而今天这个语音文字助手不一样,它走得就是本地运算,调用 iPhone 的神经网络芯片实现语音文字的 AI 转换。

既然一切都在本地实现了,自然就没有调 API 接口的工具那般因为使用者过多所导致的「不稳定」,真正做到了小而美,且不要钱。

「小」是说这个 App 只有 6M 大小,界面简洁,甚至你可以不给这个 App 连网权限。

不过与之对应的,是记得把「语音识别」这个权限给开了,倒也不用去设置里主动开启,第一次使用语音转文字的时候,别点「不允许」即可。

「美」是说它的实用,在「语音转文字」和「文字转语音」界面,你可以选择现场录音和输字,也可以直接导入文件。

文本文件导入支持 txt 和 pdf 两种格式,音频文件导入支持 mp3\wav\m4a 三种格式,鉴于 iPhone 的文件管理确实拉跨,建议大家导入文件时走「微信-用其他应用打开」选择「语音文字助手」的路数。

导入后会自动跳到转换界面,找到右上角的三个点选择「生成语音」。

然后回到「文字转语音」的主界面,找到刚刚生成语音的记录,点进去再找右上角三个点,下载或直接分享给微信就能输出音频文件了。

语音转文字也是这么个路数,因为一时半会找不到合适的音频,所以我自己录音说了两句。

测试结果如下:

正常语速的普通话,语音转文字识别效果很好,处理速度很快,支持识别中英两种语言,普通话语速过快时,连读下的中文识别会有一些小地方出现错误,不过无伤大雅。

但用方言时,人工智能就不那么智能了,只能说我的「信球」被识别成了「星球」,略显尴尬。

而前面那个文字转语音,给大家放一下音频听听效果吧,就,很 AI。

这也怨不得这个 App 不给力,实在是苹果开放的音色没得选,但你要知道,这个 App 真的不要钱。

文字转语音的字符限制在 10000 以内,大小只要不超过 512M 都 OK;语音转文字的音频大小不超过 400M,5 个小时内的音频都能识别,而且这只是单次的限量,重复使用没得问题。

用微软听

不过相比文字转语音,我觉得语音转文字这个功能更实用,开会录音记录,学习音频转文字复用都 OK。

而文字转语音,怎么说呢,咱们又不做视频,它还能有什么用武之地呢?寻思良久,我觉得我好像忽略了「听」这个动作。

如果我们聚焦于「听」这个动作下的文字朗读,那最值得推荐的就是微软提供的语音服务,比如 Edge 的大声朗读。

给大家听听效果,这是普通话的女声晓晓:

这是普通话的男声云扬:

这是香港版的:

这是台湾腔的:

哪怕只是系统默认的音色,效果要拉开别的 AI 合成音几条街了,如果你想听,那无论是 PC 还是手机,Edge 浏览器都会是一个不错的选择。

如果我们想把转换过来的音频下载下来怎么办?

不用录屏再分离音频,试试这个开源的项目 Edge-TTS-record,调用的就是 Edge 浏览器的接口。

使用起来很简单,你输字后点个「录制」,它转换后就能边播边录,效果和 Edge 浏览器大声朗读的效果一致。

如果我们想在手机上别的阅读应用里调用微软的这项合成语音服务怎么办?

iPhone 别想了,安卓上的一些 App 可以更换朗读引擎,只需要我们给手机下载安装一个 400K 的开源项目,TTS(作者 @ag2s20150909)。

打开 TTS 后,点击首页的「设置 TTS」,然后把首选引擎从「系统语音引擎」更换至「TTS」即可。

相信大家也发现了,你可以在这个 TTS 上设置语音引擎合成音的类型(晓晓、云扬等等),以及他们的语速、音高、风格、音量。

然后在诸如「阅读」这个工具里,点击朗读,调用的就是 TTS 引擎了。


如果你还不了解「阅读」这个公认的神器,那来看看我一年前的这篇文章吧,要是你不知道这个追书神器,我实在是为你感到可惜

其实 TTS 这个工具的实现,本质上就是我上一小节说的掉微软云语音合成的接口,作者造了轮子帮大家白嫖巨硬。

但也面临着一些问题,比如随着知道的人越来越多,终有一天白嫖的额度会不够用,所以,且用且珍惜吧。

总结

其实今天这两个小节,一个说的是基于本地硬件的 AI 工具,一个说的基于云端的 AI 工具,虽然两者我们都是免费用,但自然前者更加稳定。

语音文字助手,手握 iPhone 的小伙伴可以去 App Store 里下载一下用用看,Edge-TTS-record 和 TTS 这两个开源项目,我备了份蓝奏云,有需要的小伙伴自取即可。

未来是什么样的咱说不准,但永不停止探索白嫖这事,永不停止折腾新工具,大概就是我的初心。

over。

获取方式

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多