【原】飞机不是飞得更高的鸟，人工智能不是更聪明的人

奎林说 2022-07-27 发布于甘肃

展开全文

大数据改变了一切

昨天接待老东家军校图书馆同行参观和交流，送走他们之后，经过新书角，我浏览了一遍。这次新书几乎全是人工智能、大数据、物联网方面的，还都不错，还有很多太专的是看不懂的，比如那种一翻开就是算法和代码的。

AI继续如火如荼，很多学校成立了AI学院，不少学院开设了相关课程，市场上AI相关的真假产品多如牛毛。

但是你知道吗，2000年前后，如果你是个研究人工智能的博士或硕士，出来可能连工作都找不到的。变化在于AlphaGo战胜了人类之后，自此，人工智能才又火了起来，一些搞智能研究的又回笼到人工智能研究的大军里面。

有一次和陈力军老师聊天，他说人工智能几十年来没有什么大的进展，确实是这样。早期研究人工智能的各国人员拿了不少研究经费，可是没有什么成果出现，这点让人工智能的名声不太好。

人类从1946年就开始努力让计算机能听懂人的语言，但一直不成功。上世纪70年代，科学家采取数据驱动方法，找到了这个相对靠谱的途径，然后不断改进方法，使得语音识别成为可能。语音识别准确率大幅度的提升，主要靠90年代以后数据的大量积累。

再往古老说一点，开普勒从他老师手上接过大量的天文数据之后，不断分析总结，找到了准确描述行星围绕太阳运动轨迹的模型---椭圆模型。

如今，无处不在的“刷脸”应用，如此好用，那就是海量数据，使得图像识别取得了根本性的进展。在图像识别这块，低调的陈老师团队，把它用在了高频图书盘点机器人上面，辅助定位和盘点。高频RFID由于其自身的缺陷，不管用何种方式去扫描，定位和识别，准确率都不高，你非要说一本一本识别，那还是算了，都一本一本了，我直接人工来做不就行了么。

2000年以后，互联网快速发展，特别是移动互联网的爆发，数据量剧增，而且是互联的数据，这就有意义了，孤岛上的数据，再大也没有用。这以后，就出现了大数据的概念。科学家和工程师们发现，采用大数据的方法能让计算机的智能水平产生飞跃，这样在很多领域计算机将能获得比人类智能更高的智能。我们正经历一场由大数据带来的技术革命，典型特征就是计算机智能水平的提高，可以称为智能革命。

当计算机的智能水平在某些领域赶上或超过人类的时候，我们的社会就会发生天翻地覆的变化，这是大数据的可怕之处。

电脑这个词是英国元帅蒙巴顿伯爵在二战后某次观看第一台计算机ENIAC计算弹道轨迹之后说的：这真是电脑啊！

当然真正定义机器智能的就是天才图灵了，图灵测试应该是很多人都知道的。指测试者与被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向被测试者随意提问。进行多次测试后，如果机器让平均每个参与者做出超过30%的误判，那么这台机器就通过了测试，并被认为具有人类智能。

目前一些计算机科学家认为，如果计算机实现了下面几件事情中的一件，就可以认为它有图灵所说的那种智能：语音识别；机器翻译；文本自动摘要或写作；战胜人类的国际象棋冠军；自动回答问题。

这几个问题，我感觉是倒推着提出来的，这几件目前计算机都能完成的。

人工智能有两个含义，一个泛指机器智能，就是我们今天看到的和了解的那些，一个特指的是上世纪五六十年代研究机器智能的方法。老的人工智能方法在历史上占据的时间更长，这也是很多人一直对人工智能不看好的原因之一。

传统的人工智能先研究人是怎样来思考的，如何产生智能，然后让计算机去模拟人思考。其实现在很多人还是这么理解的，想象着“机器在像我们那样思考”，但是如今的科学家都不坚持“机器要像人一样思考才能获得智能”。

人类发明的历史上，很多早期的尝试都是模仿人或动物的行为。比如人类想要飞，就学鸟，造翅膀，等等的，我们国家古老的科技里就有类似的尝试，一些武侠小说里写得不亦乐乎。飞机的发明靠的是空气动力学而不是仿生学。

人工智能也是一样的，当初提出来之后，人们就是当做仿生人类的，这条路不通。上世纪70年代。IBM想做“聪明的计算机”，就请康奈尔大学的教授贾里尼克负责这个项目。贾里尼克没有采用传统的方法，他用的数字通信的各种技术来实现语音识别。贾里尼克和同事在研究语音识别时，无意中开创了一种采用统计的数学模型加上大量数据驱动方法来解决智能问题。这种方法最大的好处，就是随着数据量的积累，系统会变得越来越好。相比于传统的人工智能方法很难突破这点。

1999年我在南京陆指带上海空政院的实习生的时候，我就建议一个战友学员用IBM的语音识别软件来完成自己的工作，效果确实不错，在当时来说。IBM Watson现在已经成了很牛很牛的AI解决商，蓝色巨人干的确实是引领人类发展的事情，不过好多人不了解而已。当年IBM甩掉笔记本和PC业务，被联想收购回来，很多人在欢呼雀跃，好像我们战胜了鬼子一样。

要说大数据元年，应该算到2005年，那一年google的机器翻译震惊了世界，那时候我们还可以自由自在用google搜索和浏览。

大数据更多地被提及是2007年之后的事情了。

大数据首先要大，其次是多维度和全面性（完备性），还有一个及时性。

简单来说，一个人自身的生物数据会大得吓人，但它不是大数据；全面性或者完备性好理解，就是要全部的数据，不是一点两点；及时性，举个简单的例子，导航、地图上的交通拥堵数据，手机要打开GPS定位（如果不打开，就不符合大数据的完备性了）；多维度，很多书里也叫多样性，多样性很容易被理解为生物多样性。

关于多维度的理解。百度发布过《中国十大“吃货”省市排行榜》。

在十大“吃货”省市排行中，广东、山东、江苏名列前三甲，之后则依次是浙江、北京、河南、上海、河北、四川、辽宁。在关于“××能吃吗？”的问题中，宁夏网友最关心“螃蟹能吃吗？”内蒙古、新疆和西藏的人最关心“蘑菇能吃吗？”浙江、广东、福建、四川等地网友问得最多的是“××虫能吃吗？”而江苏以及上海、北京等地则最爱问“××的皮能不能吃？”不看不知道，原来网友们提的问题真是千奇百怪—在“最想问”的问题中，“孕妇不能吃哪些食物”和“吃什么水果减肥最快”均有30万左右的人在提问；一个很萌的问题：“昨天晚上还活着的螃蟹死了，还能吃吗？”一下吸引了6万多网友的热情回复，回答人数最多。“菠菜不能和豆腐一起吃吗？”“发芽的土豆能吃吗？”“木瓜怎么个吃法？”这些问题是不是你也很想知道，没错，这些都是百度上浏览量特高的问题。关于食物的南北之争，南北网友一向“打得不可开交”，豆腐脑到底吃甜的还是咸的，豆浆放不放糖，吃桃子削不削皮，西红柿炒鸡蛋放不放糖，粽子是甜的还是咸的，这些问题别看当时吵得热闹，最终基本都是打了个平手。虽然进了“吃货”排行前三，不过江苏的吃货仍然不是很服气，“山东也能排第二，就北方这食物质量也好意思和南方比？”

多维度，比如吃、食物，不光是什么能吃、吃什么、怎么吃、口味、习惯、特色等等太多了，都要有。

大数据除了统计、改进产品和销售，或者提供决策上很重要，这也是目前很多人谈的。它更重要的地方在于和摩尔定律、数学模型在一起导致了机器智能的产生，今后它还会发挥想象不到的作用。

飞机不是飞得更高的鸟，人工智能不是更聪明的人。

数据即未来。