前几天,有几位老师提出了这个问题,会议一结束,上级的讲话就立即形成文档。如何形成。 我写了这样一个回答。 开会如何高效? 在回答中,我强调的一个理念就是:如果想在会议记录的角度引入更高的效能,录音转文字是唯一的办法。 这是因为: 一方面,在开会尤其是一些脑暴会的时候,如果全身投入,就肯定没时间记录重点。如果你抱着电脑或者本子边开会边记录,那么会议的投入质量又绝对会大打折扣。 另一个方面,如果你采用录音的方式,虽然看起来解决了会议中专注度的问题,但本质上是将导致会议低效的那一部分因素后置,动辄几小时的录音回放是非常低效。 在那个回答里,在如何高效的将录音转化成文字的体验中,我分享了一个多月来,我使用搜狗AI录音笔的实际体验。 可以说它直接解决了这个问题中提到了“长时间的会议录音如何快速转化成文字?”这个痛点。 作为一款录音笔,在我看来它最牛逼(吹到破音)的特性在于,可以一边录音一边转化,将录制的音频直接转化成文字。 我简单聊一下使用中的体验。 首先说大小。 和很多智能硬件一样,搜狗的这款录音笔也有一个安装在手机上的客户端。 这里有一个点要注意,如果你在录音笔端,用按键的方式直接启动录音,那么这个音频会直接储存。但如果你是通过打开App来开始录音的话,则有以下几个选项,可以根据不同的需求(其实主要是收音考虑)来选择。 录制开始后,软件就会实时的进行ASR的音频转文字。 我测试了一段,大家可以看一下效果。 测试的环境是我家里的书房,我太太在客厅看电视,有微弱的噪音。我采用中速录音,说的是比较随意的东北普通话。 大家可以看到最后一段,“岩石和功能”其实是我说的“严丝合缝”。 也就是说,录音笔在做音频向文字的转化的过程中,做不到百分之百的成功率,我看了下这块的参数,大概准确率是95%。 这个准确率已经足够用了,因为即便出现了你看不懂的转化后的文字,还有音频文件可以作为第二保险。 并且,针对问题中提到的“会议录音可能有多人会话,语速各不相同,口音可能也不同”的问题,我也做过测试: 当录音笔识别到不同的人声的时候,会自动做分行,能够保证在录音转成文字的过程中,不会产生歧义。 同时我也做了方言和普通话之间的对话测试。我用普通话,我太太用湘西话。测试结果是不光可以做到人声分行,同时湘西话在录音转文字时的识别率,甚至也能达到95%左右。 但必须客观的说,湘西话的口音比较接近重庆那边,并不是特别难懂的方言,正常人也能听懂六七成。我暂时没有找到浙江或者福建那边的朋友来做测试,大家有兴趣的话,可以测试下。 如果你和我一样,经常性的有长时间的会议或者采访需求,那么像搜狗AI录音笔这样的可以实时实现音频转换文字功能的录音笔,其实真的是一个刚需。 在ASR音频转化上,这个录音笔在其他表现上也提供了几乎满分的安全感,几种录音模式,收音和文字转化效果都很好,基本都不会低于参数上标称的95%; 作为一个前通信行业硬件开发者,一个科技界的产品经理,我再一次由衷的感谢科技,让我们的生活变得越来越好。 最后: 这些年每当我面对这种和生产力相关问题的时候,我总是会选择相信科技。比如拿开会记录来说吧,你难道要不断练习自己的快进和快退的手速来更快的抓取信息吗?还是为了要用更高的倍速来播放音频,你苦练自己的耳力? 其实都不需要,你只需要等待科技不断地发展与升级。 |
|