摇一摇就能获得各种优惠折扣?难道不应该赶紧先剁手?! 喂喂……你回来,LZ是真心实意想来科普的! 告诉大家,这项技术的关键,根本不在于“摇一摇”,而是要归功于里面一项很神秘的核心技术:音频指纹识别。 Part 1: “听”得到才能摇得到 如果你过年的时候不怕长辈生气,看春晚把电视调成了静音,你就会发现一个无情的事实:手腕摇断了都不会有明星送祝福。因为其实无论是支付宝,还是天猫这次双11春晚可能会用到的手机淘宝、手机天猫等App,在开启“摇一摇”这种功能的时候,你要先保证你的手机能“听到”电视发出的声音,这样手机上的麦克风才能采集音频信号,并对音频信号进行一些特征的预处理后,提取到音频的指纹。 音频的“指纹”是什么,术业有专攻的科普工作者楼主本人稍后会给大家详细介绍的,在这里,大家必须知道的是,让我们摇断手走上致富路的App们就是靠着音频的“指纹”才能识别当前的电视节目,然后匹配相关的互动信息如祝福啊、红包啊、节目单啊、舞台同款啊、小鲜肉的裸照啊(划掉)到我们的手机的。没了它、就没有红包、祝福、折扣,什么都没有。 真的没有骗你们,摇一摇只是个噱头而已,其背后的奥义如下图(从左到右): [诚意手绘图] 那么音频的指纹是什么?其中核心的技术又是什么?这里就要引入我们真正要介绍的概念——音频指纹和音频指纹识别技术了。 Part2:音频也是有指纹哒 即使不是每天用大拇指解锁的iPhone用户,对指纹识别应该也不会太陌生。想想你上班迟到的那些日子里,没有指纹打卡机的话怎么扣你工资? 音频指纹之于音频就如同指纹之于人,它是每段音频关于音频数据内容的压缩签名(signatures)。顾名思义,音频指纹识别技术(audio fingerprinting)就是通过比较不同的音频指纹来比较音频文件的相似度。所以想要实现例如冲着屏幕里的冯巩老师摇一摇,手机就能收到“我想死你们了”的互动推送的话,最重要的就是一定要为每个音频提供一个独一无二质量优良的音频指纹。 而想要身负(被众多手机虐)众望成为一个优秀的音频指纹,需要先满足如下条件: 1) Discriminative power:不同内容的音频之间的fingerprint具有区分性 2) Distortion invariance(robust):对音频压缩格式、噪声、信道等干扰鲁棒 3) Compactness:表示fingerprint bit数尽量小,以减少数据库大小和检索时间 4) Computational simplicity:计算简单,实时性要求 5) Granularity (application dependent):很短的查询音频就可以准确进行检索 嗯……什么?看不懂? 没关系,让我来简单解释一下!既然音频指纹就是用来识别的,那当然首先要特征清晰很好认,并且还要“体积小”,最后要容易被识别出来,不然双11这种拼手速拼网速拼人品的时间,每一秒都几十亿上下好不好,时间都用来分析音频了,还抢什么抢?? 所以,直接用接收到的音频信号当音频指纹显然是不合适的。存储大不说,而且容易受噪声的干扰。目前比较通用的音频指纹是音频的频谱特征,例如频谱平坦度(spectral flatness)、频谱峰值点、调制频率等。 频谱特征的好处呢,就在于它可以“透过外在看本质”(掀起了你滴盖头来[唱]),收集到的音频信号会先被无情地卸掉伪装,也就是进行数字采样和降噪等预处理,然后再通过加窗的方式分帧,对于每帧音频信号会提取出音频的频谱特征。最后将一系列连续的特征序列拼接成单独一个向量,我们就得到传说中的音频指纹了。
Part3 聪明的人最会举栗子 上面的分析有点枯燥!我知道聪明的你一定看不懂!所以呢,我们来举个现成例子,最典型的就是听歌识曲啦: 你想找的歌被麦克风“吸进去”,提取音频指纹,再传到储存有各种歌曲音频指纹的数据库中进行识别,想要的音乐就找到啦! 跟着我左手右手一个慢动作! 看到这里,大家可能想到了一个发家致富的新思路:要是我把天猫晚会录个音,然后每天在家循环播放边听边摇,我是不是能把马云爸爸抢破产啊? 马云爸爸冷笑一声:我们这个技术是实时互动你造吗?残酷的实时也就意味着只有在特定的时刻才会进行匹配。你上传的音频指纹是包含接收音频信号的时间信息的,而数据库中相对应的音频声纹也是有设定好的时间标签。所以只有在特定的时刻才会触发相应的互动活动。想抢钱哪有那么容易?劝你还是在屏幕前乖乖守着直播看表摇手机,跑厕所也得趁广告时间跑,毕竟羊毛可不是每天都有哦~ 而且答完此题,楼主这只单身狗突然觉得果真要感谢科学技术!毕竟,照这么下去,以后的11.11,还有谁会出去约会呢? 摇一摇就能获得各种优惠折扣?难道不应该赶紧先剁手?! 喂喂……你回来,LZ是真心实意想来科普的! 告诉大家,这项技术的关键,根本不在于“摇一摇”,而是要归功于里面一项很神秘的核心技术:音频指纹识别。 Part 1: “听”得到才能摇得到 如果你过年的时候不怕长辈生气,看春晚把电视调成了静音,你就会发现一个无情的事实:手腕摇断了都不会有明星送祝福。因为其实无论是支付宝,还是天猫这次双11春晚可能会用到的手机淘宝、手机天猫等App,在开启“摇一摇”这种功能的时候,你要先保证你的手机能“听到”电视发出的声音,这样手机上的麦克风才能采集音频信号,并对音频信号进行一些特征的预处理后,提取到音频的指纹。 音频的“指纹”是什么,术业有专攻的科普工作者楼主本人稍后会给大家详细介绍的,在这里,大家必须知道的是,让我们摇断手走上致富路的App们就是靠着音频的“指纹”才能识别当前的电视节目,然后匹配相关的互动信息如祝福啊、红包啊、节目单啊、舞台同款啊、小鲜肉的裸照啊(划掉)到我们的手机的。没了它、就没有红包、祝福、折扣,什么都没有。 真的没有骗你们,摇一摇只是个噱头而已,其背后的奥义如下图(从左到右): [诚意手绘图] 那么音频的指纹是什么?其中核心的技术又是什么?这里就要引入我们真正要介绍的概念——音频指纹和音频指纹识别技术了。 Part2:音频也是有指纹哒 即使不是每天用大拇指解锁的iPhone用户,对指纹识别应该也不会太陌生。想想你上班迟到的那些日子里,没有指纹打卡机的话怎么扣你工资? 音频指纹之于音频就如同指纹之于人,它是每段音频关于音频数据内容的压缩签名(signatures)。顾名思义,音频指纹识别技术(audio fingerprinting)就是通过比较不同的音频指纹来比较音频文件的相似度。所以想要实现例如冲着屏幕里的冯巩老师摇一摇,手机就能收到“我想死你们了”的互动推送的话,最重要的就是一定要为每个音频提供一个独一无二质量优良的音频指纹。 而想要身负(被众多手机虐)众望成为一个优秀的音频指纹,需要先满足如下条件: 1) Discriminative power:不同内容的音频之间的fingerprint具有区分性 2) Distortion invariance(robust):对音频压缩格式、噪声、信道等干扰鲁棒 3) Compactness:表示fingerprint bit数尽量小,以减少数据库大小和检索时间 4) Computational simplicity:计算简单,实时性要求 5) Granularity (application dependent):很短的查询音频就可以准确进行检索 嗯……什么?看不懂? 没关系,让我来简单解释一下!既然音频指纹就是用来识别的,那当然首先要特征清晰很好认,并且还要“体积小”,最后要容易被识别出来,不然双11这种拼手速拼网速拼人品的时间,每一秒都几十亿上下好不好,时间都用来分析音频了,还抢什么抢?? 所以,直接用接收到的音频信号当音频指纹显然是不合适的。存储大不说,而且容易受噪声的干扰。目前比较通用的音频指纹是音频的频谱特征,例如频谱平坦度(spectral flatness)、频谱峰值点、调制频率等。 频谱特征的好处呢,就在于它可以“透过外在看本质”(掀起了你滴盖头来[唱]),收集到的音频信号会先被无情地卸掉伪装,也就是进行数字采样和降噪等预处理,然后再通过加窗的方式分帧,对于每帧音频信号会提取出音频的频谱特征。最后将一系列连续的特征序列拼接成单独一个向量,我们就得到传说中的音频指纹了。
Part3 聪明的人最会举栗子 上面的分析有点枯燥!我知道聪明的你一定看不懂!所以呢,我们来举个现成例子,最典型的就是听歌识曲啦: 你想找的歌被麦克风“吸进去”,提取音频指纹,再传到储存有各种歌曲音频指纹的数据库中进行识别,想要的音乐就找到啦! 跟着我左手右手一个慢动作! 看到这里,大家可能想到了一个发家致富的新思路:要是我把天猫晚会录个音,然后每天在家循环播放边听边摇,我是不是能把马云爸爸抢破产啊? 马云爸爸冷笑一声:我们这个技术是实时互动你造吗?残酷的实时也就意味着只有在特定的时刻才会进行匹配。你上传的音频指纹是包含接收音频信号的时间信息的,而数据库中相对应的音频声纹也是有设定好的时间标签。所以只有在特定的时刻才会触发相应的互动活动。想抢钱哪有那么容易?劝你还是在屏幕前乖乖守着直播看表摇手机,跑厕所也得趁广告时间跑,毕竟羊毛可不是每天都有哦~ 而且答完此题,楼主这只单身狗突然觉得果真要感谢科学技术!毕竟,照这么下去,以后的11.11,还有谁会出去约会呢? |
|