分享

人人都恨的验证码,想不到背后的故事这么有意思

 网罗灯下黑 2021-04-15

现在上网冲浪,当你完成注册登录或者做一些操作的时候,随之而来的会是各式各样的验证码。

虽然我们不怵任何验证,但总有被验证码气的抓耳挠腮的时候。

尤其是早先的字符验证码,不经意间就会被那些随机出现的字符秀一波智商。

有祝你早日离职的:

有直接说你是 loser,甚至考研报名时直接弹出俩字「别考」的:

还有小米这种更直接的:

没错,和最开始那种英文、数字组合而成的字符验证码不同,巧合下的中文验证码是直接骑脸输出。

不过这些年验证码的形式也一直在变化,像选图、答题这样需要你交互的验证码也会时不时的冒头出现。

有让你做阅读理解的:


有让你看抽象画的:


还有这种更过分的:

所以我每次想到验证码,总会想起当年那个吐槽 12306 的奶糖哥,那句「我又没有吃到嘴里头,我 tm 知道哪个是奶糖」的吐槽历历在目。

不过这个能浪费我们数秒的验证码,虽然看着总是槽点满满,但它绝不是多余的,甚至说过去的验证码一度成为了互联网的保护神。

没有夸张,在网友们和沙雕验证码斗争的背后,藏着一场更大的人机对抗赛。

过去

你能想象 20 多年前,那个不存在的验证码的互联网有多荒蛮吗?

虽然那时的网络和发达挂不上钩,但论坛、门户网站的出现让这个年轻的互联网处处散发着生机。

在当时可没有现在的微信、QQ,大家交流向来用的都是邮箱,不少网络服务商都提供有免费邮箱注册的服务。

所以就有一批盲生发现了华点,编写脚本注册了大量的邮箱,然后用来实现垃圾邮件轰炸和网络诈骗,与现在的某些黑产比起来也不遑多让。

所以那时的互联网,被脚本大军的信息骚扰弄的是乌烟瘴气,服务商们更是哑巴吃黄连,有口难说。

咋整,自己解决不了就请能解决问题的大神呗。

于是他们联系了卡内基梅隆大学的计算机科学系,正在上学的天才少年路易斯提了个方案:

既然解决不了五花八门的脚本,为啥不让用户自己来自证身份,加一个只有人类才能做到的事情不就解决了。

什么事只有人类才能做到?路易斯想到的是读图,然后字符验证码应运而生。

在千禧年上下,还是学生的路易斯提出了验证码这一概念,然后命名为「CAPTCHA」,其中的字母 T 代表着图灵测试。

但谁也没想到,这个小小的验证码竟然真的保护起了尚且稚嫩的互联网,后面又会给我们带来这么多欢乐。

发展

早期的验证码是一眼就能看出来的字母和数字,对于身为人类的我们是一点难度都没有。

但你有张良计,我有过墙梯,当机器识别图片被脚本大面积使用的时候,过去的字符验证码很难再拦截脚本作恶。

为了不让脚本正确识别,验证码被不断的更新升级,让验证码变长,给背景加上干扰,甚至是扭曲验证码。

一来二去之下,被增加难度的可不只有脚本,还有肉眼识别的我们。

为此,验证码不再局限于字符,识图、问答等多种基于图片的新型验证码相继问世。

可越来越复杂的验证码并没有解决问题,据统计网络地球村上一天浪费在验证码上的时间就有 50 万个小时。

还记得那个发明验证码的路易斯不,人家这回当了盲生,发现了新的华点。

既然这 50 万个小时不可避免,何不薅一薅全球网友的羊毛,把这 50 万个小时二次利用一下。

于是,他提出了新的验证机制,reCAPTCHA。

薅羊毛

路西斯对于自己的新想法是这么说的:既然人类与机器各有擅长,能不能利用验证码系统,让人类和机器共同解决问题呢?

能,当然能,反正大家都要用肉眼实打实的识别一遍文字,为何不把由电脑随机生成的字符换成已经模糊的旧书或手写稿。

于是,再往后的验证码你就能看到很多奇奇怪怪的字体。

当 reCAPTCHA 被各大网站使用起来后,谷歌盯上了这个项目,发挥钞能力把 reCAPTCHA 收购了下来。

按照早先路易斯的思路,reCAPTCHA 被用来识别旧书或手稿,每天能有近 4000 万个单词被人为识别出。

可谷歌没想着就这么放过如此庞大的免费人力资源,从 2012 年起,谷歌的自家应用谷歌街景中的一些识别不了的门牌和路牌开始出现在 reCAPTCHA 里。

这一回手掏的操作赋予了验证码新的价值,但丝毫没有解决 50 万个小时被浪费的现实。

更残酷的现实,据当时谷歌的统计,人类成功识别复杂验证码的成功率只有 33%。

我不是机器人

直到 2014 年,有了「我不是机器人」的谷歌验证。

没有过去那些奇怪难懂的图片,只需用户移动鼠标一勾,验证就通过了。

表面上看起来没有任何难度,但在背后谷歌做了更多的准备。

在你移动鼠标的过程中,谷歌收集了你数据,比如移动鼠标的速度、有无重复点击、当前 IP 地址等等。

不过这些后台才会做的验证反馈到了页面,就变成了点击,通过。

当然谷歌可没有忘记之前薅全网羊毛的经历,后面也添加了识别图片的步骤,背地里顺手训练了自家 AI 的识图能力。

是的,有些时候,可能谷歌自己也不清楚自家的验证码正解到底是什么。

有这种暗含陷阱的:

最常见的就是这种有关交通的验证码,路标、红绿灯、自行车、大巴车等等不一而足。

为啥老针对交通,自然是因为在谷歌的 AI 规划中,无人驾驶是最先受益的项目。

可以说这个小小的验证码,集全网之力,成就了谷歌。

当然了,早期也有这种过分的:

有时候点错了也有可能通过,不是你运气好,而是人家也不知道答案。

用来牟利的脚本,阻挡脚本的验证码,重新利用验证码创造新价值的人类,这个转动的圈从未停歇。

医学验证码

当然,利用验证码创造新价值的公司不只有谷歌,腾讯也在做这个事。

今年年初,我记得腾讯和深圳大学一起搞了个医学验证码,用来验证的是医学影像图片,背后的目的是提高 AI 标注和诊断的成功率。

不得不说,相比谷歌来说,小企鹅的这个项目更有爱一些。

而且这还是一项公益项目,虽然验证起来可能会更麻烦了些,但我相信碰到这个验证码的人,会停下多花这么几秒,让这个验证码更精准些。

总结

关于验证码,这个围绕着图灵测试的人机对抗赛的故事还在继续。

等哪天人类胜利了,可能早几年的那种和刷单一样让你识别验证码的兼职又来了。

又或许哪天机器胜利了,我们就要面对人类如何证明自己是人类的新难题了,真到了那一天,估计机器得学会降智才能跟上人类的脚步吧。

好了,这一篇到这就结束了,最后再多吐槽一句,暴雪的验证码是真恶心。


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多