分享

98﹪的人无法跨越的认知鸿沟(现象数据信息知识)

 拖拉机斯图亚特 2017-02-10
在菜鸟的眼里,大数据就是大数据,人工智能就是人工智能,尽管两者都跟计算机有关系,但却是两个完全不同的概念。
  而在另外那2%的高手眼里,大数据和人工智能基本上就是同一码事,它们俩,真可谓是出双入对、“狼狈为奸”。
  据“罗辑思维”的罗胖说,这样的高手,在人群只占2%。也就是说,有98%的人无法跨越“正确认识大数据和人工智能”的认知鸿沟,最终被智能时代所淘汰。
  要说大数据和人工智能之间扑朔迷离的奸情,还得从数据本身开始讲起。
  1 什么是数据?
  我们认识世界的过程是这样的:
  现象 → 数据 → 信息 → 知识
  通过观察自然世界,我们可以获得数据。但数据中通常包含很多噪声,去伪存真后才能提取出有意义的信息。对数据和信息进行处理后,人类就可以获得知识。而知识比信息更高一个层次,具有系统性的特征。
  用三个等式可以表明四者之间的递进关系:
  数据 = 对现象的观察
  信息 = 有意义的数据
  知识 = 可以用的信息
  其实,所有的科学家都在做同一件事情:将观测数据中包含的信息,通过理论模型将其提炼成知识,掌握科学规律。
  天文学家是最早的一批科学家,他们通过“仰望星空”,测量星球的位置和对应的时间,从而得到天文数据;
  然后利用这些数据画出星球的运行轨迹,这就是把数据变为信息的过程;
  通过信息,总结出类似于“开普勒三定律”那样的科学规律,就成了知识。
  当托勒密面对行星运动椭圆的观测数据时,他只能用大圆套小圆拼凑出一个椭圆的轨迹,因为当时还没有椭圆的概念,更没有牛顿万有引力。
  今天的我们,知道托勒密的模型有两个巨大的错误。一是完美圆假设;二是基于地心说。但神奇的是,托勒密模型的精确非常高,连现代的科学家们也叹为观止。
  我们所用的日历,至今还深深地刻着托勒密体系的烙印。来回想一下闰年是怎么算的:每四年一闰,每百年不闰,四百年再闰。这不就是大圆套小圆模型的痕迹嘛!跟用天平称重差不多,先用大砝码,再用小砝码。
  托勒密这样一个粗糙甚至错误的模型,之所以如此精确,完全得益于前人积累了千百年的观察数据——从古希腊第一个哲学家泰勒斯就开始了。
  哥白尼也提出了一个模型,就是大名鼎鼎的日心说,虽然大模型比托勒密的不知道高到哪里去了,但具体的参数不准,预测精度很差,根本入不了当时主流科学家的法眼,极大地限制了日心说的发展。
  假如哥白尼手上有大量观测数据,让他能像托勒密那样一步一步修正日心说模型的具体参数,日心说应该很快就能被人们接受,那么可怜的布鲁诺就不用被活活烧死了。
  “香喷喷的烤肠吃伐啦?”
  托勒密的模型虽然粗糙,但人家数据又多又好,是典型的矮搓富。
  哥白尼的模型是很牛逼,但手上没有观测数据,是典型的高帅穷。
  真正集美貌与智慧于一身的人,是开普勒。他怀揣着日心说,并从导师第谷手中接过大量数据之后,终于找到了能够准确描述行星围绕太阳运动轨迹的模型——椭圆。
  “麻萨卡,开普勒会用筷子?”
  2 奇点临近!?
  解决实际问题的时候,模型和数据二者缺一不可。但大体量、多维度的数据,可以弥补数学模型的缺陷。
  换句话说就是:土豪可以大腹便便,但人家可以用钱砸死你;人工智能的算法模型可能不是很高大上,但人家可以用数据砸死你。
  过去,相比模型和方法,数据的作用常常被忽视,原因有二:
  过去的数据量被载体所限制,积累大量数据需要时间太长。即使你有一麻袋的草稿纸,也不过能抄一套金庸全集而已;
  数据和信息之间的联系,只有通过多维度的相关性才能体现出来,这对人与人之间交流、分工和协作的方式有较高的要求。
  建立模型是人脑所擅长的,但处理数据是电脑在行的,信息时代的到来为数据的增长提供了沃土。尽管第一台计算仅仅诞生于70年前,但在摩尔定律的驱使下,数据增长的边际效益,已经到了要超越模型优化的临界点了。
  库兹韦尔将机器智能即将超越人类智能,称为《奇点临近》。
  还记得那个著名的寓言故事吗?
  阿基米德与国王下棋,国王输了,国王问阿基米德要什么奖赏?阿基米德对国王说:“我只要你在棋盘上第一格放一粒米,第二格放二粒,第三格放四粒,第四格放八粒…按这个方法放满整个棋盘的64格就行。”傲慢的国王以为要不了多少粮食,就随口答应了,结果放着放着,国王傻眼了。
  今年就发生了一件让世人都傻眼的大事件。
  3 大数据元年:2005
  Google家的AlphaGo以4:1战胜世界著名围棋选手李世石,意义要远超于1997年IBM家DeepBlue战胜世界著名国际象棋选手卡斯帕罗夫,因为围棋的难度是国际象棋的6~9个数量级。
  计算机之所以能战胜人类,是因为机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。具体到下棋的策略,AlphaGo靠的是以下两个关键技术:
  大数据:把当前棋盘上的状态转变成一个获胜概率的数学模型,这个模型是没有任何人工的规则,完全靠几十万盘高手之间对弈的棋谱数据。简单地说,就是背棋谱。
  智能算法:用启发式搜索算法,使得准确的聚焦搜索空间,缩小搜索范围,在短时间内算出最优化的一步棋,这其实也是Google作为搜索引擎的核心技术。
  不少人认为,以AlphaGo为标志的2016年,应该被称为大数据(或人工智能)元年。其实在老司机(业内人士)看来,2005年才是真正的大数据元年。
  4 谷歌下的棋
  话说30年前,计算机界在语音识别、机器翻译、图像识别等人工智能的方法上,旗帜鲜明地分成了两大阵营:一派支持在模型算法上做文章,让机器像人一样思考(方法派);而另一派倾向于用数据驱动的方法来解决智能问题(数据派)。
  这两派此起彼伏地较劲了很多年,颇有些美苏军备竞赛的味道。一边是计划经济,一边是市场经济。
  事实表明,从1994年到2004的十年中,语音识别的准确率减少了一半,而机器翻译的准确性提高了一倍,其中20%的贡献来自于方法的改进,80%则来自于数据量的提升。
  2005年发生了一件标志性的事件,揭开了大数据和人工智能时代的序幕。
  让我们穿越回2005年。
  当时还不为人知的Google公司,第一次参加美国国家标准与技术研究所(NIST)主持的机器翻译测评,并且以领先别人5-10年的绝对优势打败了全世界所有其他研究团队。
  Google公司之前没有做过机器翻译,参加这次测评项目项目负责人,是半年前花重金挖来的Och博士。Och博士之前在南加州和亚琛做的系统也参加了测评,可是在短短的半年时间里,为什么Google系统能有如此大的进展呢?
  在之后的一次学术研讨会上,Och博士透露:其实他所用的算法还是几年前的老算法,并没有实质性的改进。但Google公司提供了比以前多成千上万倍的数据来优化。当其他团队最多只能考虑前后三个词的关联时,Google的翻译模型可以做到六个词。
  公平的上帝既然给Google公司打开了一扇门,就一定关了别的某公司一扇门,这个倒霉的公司就是SYSTRAN(系统翻译)。
  SYSTRAN一直在花大量的财力物力人力编写机器翻译的语法规则。每一对语言(例如英汉、汉英),就得有几万条规则。这样一个像恐龙般庞大的复杂算法,最终的命运也只能跟恐龙一样:被无情地淘汰。
  5 人工智能 ≠ 仿生学
  时至今日,我们仍然会常常陷入方法派的思维误区,认为人工智能就是计算机像人一样思考。同时,这也是一种“以自我为中心”的认知误区,就好像认为外星生物也必须有鼻子有眼睛一样荒谬。
  自古以来人类就梦想可以像鸟儿一样,扇动翅膀就能翱翔蓝天。可是真正飞上天的飞机,翅膀确实完全静止的。对莱特兄弟之前的人们来说,飞机的翅膀不能扇动是一件完全不可思议的事。
  人类视野范围的提高,不是靠鹰眼般敏锐的望远镜,而是靠远程电子摄像头和液晶显示器。人类听力的延伸,也不是靠长出猪八戒那样的顺风耳,而是靠麦克风和耳机。同样,人类智能的拓展,不是让电脑像人脑一样思考,而是让电脑解决人脑解决不了的问题。
  人工智能不等于仿生学。仿生学的目的是借助大自然的力量,寻找更好的模型。而大数据驱动的人工智能是用海量数据的优势来弥补数学模型的粗糙,尤其是针对复杂的系统问题。因为越是复杂的问题,模型就越难建立。
  人工智能是目的,不是手段。如果将人脑比作是敲门砖,目的是开门,那么人工智能要做的,不是去制造更大更硬的敲门砖,而是寻找能开门的钥匙。这个钥匙可能是铜的,可能是金的,也可能仅仅是一句阿里巴巴的“芝麻开门”而已。
  对人工智能来说,管它黑砖白砖红砖青砖,能敲开门就是好砖。而大数据,就是这样一块敲门于无形之中的好砖。
  

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多