机器学习，AI进阶之匙

圆角望 2017-05-25

展开全文

□记者吴韬

［阅读提示］

使计算机如人类般独立思考是科学家的美好愿望。但计算机最终能学习到何种程度，长期以来尚没有科学定论。

近日，关于机器学习的争论再度被点燃，导火索是三位美国研究者在网站上“隔空喊话”上海交通大学图像通信与网络工程研究所教授武筱林，质疑他去年一篇论文的结论。在那篇论文里武筱林运用计算机视觉和机器学习技术来通过面部图像推断犯罪概率。

自机器学习概念诞生以来，随之而来的种种话题甚至争议便从未断绝。作为引领AI（人工智能）不断进阶的有效途径，机器学习将给人类带来什么？

让计算机模拟人类学习

人们常常会看到许多强大的人工智能：在科幻电影里，它是来自未来的终结者。在现实世界中，它是轻松击败围棋九段棋手的AlphaGo。

可是人们不禁要问，计算机的巨大智能潜力从何而来？它又是如何变得越来越“聪明”的呢？

答案来自机器学习。

“不要以为机器学习很遥远，实际上它已经融入我们的日常生活，互联网的关键词搜索、能根据网页浏览痕迹推荐用户喜爱商品的网页弹窗都是机器学习的产物。”河北省科学院应用数学研究所助理研究员马艳东表示，机器学习是指通过利用计算机系统强大的运算及数据处理能力，借助大量的数据训练，使计算机具有自发模拟人类学习行为，通过学习获得知识和技能，在不断改善自身性能的同时，实现人工智能的一种方式。

马艳东进一步解释道，“比如计算机要学习识别某类别的图片，首先会被输入大量的同类图片，然后，计算机的处理器和存储器，会根据图像数据总结出一个规律，以后再看到类似的图案，计算机便会根据这个总结的规律，判断图片是否是自己认识的。”

那么人类为什么要开发机器学习呢？

“现实生活中计算机可以做到许多人类无法做到的事情，比如模拟星系的运动方式、推算其他天体与地球的距离。”马艳东说，“但这些任务的完成都需要依靠大量的人类工作和繁杂的计算机语言编程，于是科学家便设想让计算机具有类似人类的学习、认知、理解事物的能力，以帮助人们更好地认识世界、改造世界。正是这样，机器学习便应运而生了。”

事实上，机器学习的发展并不是一帆风顺的，也经历了螺旋式上升的过程，成就与坎坷并存。作为人工智能领域发展最快的一个分支，上世纪50年代机器学习研究便伴随人工智能概念的出现而起步，但受限于当时的计算机技术发展水平，机器学习曾经历了相当长的一段低潮期。近年来，特别是2006年以后，随着深度学习的提出，以及计算机运算速度、存储能力等计算机硬件技术的进步，机器学习开始迎来爆发式发展。

在计算机中建立人工神经网络

人类学习、认知外界事物，是通过大脑中复杂的生物电活动和自身独具的逻辑推理、归纳演绎能力来完成的。

“计算机的学习则不然，它是通过计算机程序，利用各种算法从数据中学习如何完成任务。”结合自身研究的机器学习模式识别方向，河北省科学院应用数学研究所助理研究员陈宏彩解释道。

两者相较有何不同？

“通俗一点说，人类可以通过学习‘举一反三’，而早期的机器学习却只能做到‘说一就是一’，在人类输入的既有数据范围内识别和处理相应内容。”陈宏彩向记者介绍。

“就学习效果来说，像决策树学习等早期的机器学习算法，虽在特定领域内取得了一定成就，但也存在局限。”陈宏彩说，“它们处理的数据集规模都相对较小，而面对复杂多变的外部环境，这些算法就显得简单和僵化，往往会失灵。”

在不断尝试中，科学家找到了一种更为有效的新型机器学习算法——深度学习。

“简单地说，深度学习要学习的东西就是一大堆数据，首先，把这些数据丢进一个复杂的、包含多个层级的数据处理网络，然后检查经过这个网络处理得到的数据结果是不是符合要求。”陈宏彩说，“如果符合，计算机就保留这个网络作为目标模型。如果不符合，就再次修改网络结构，直到输出的数据满足要求为止，从而给出问题的最终解决方案。”

据了解，在深度学习中，科学家会首先以数学方式粗略模拟人类脑神经网络运作方式，在计算机内部建立一种人工神经网络。人工神经网络具有很多独立的层，还有相应的数据传播方向。工作时，人工神经网络内的一些小型数学函数，会在计算机指令下运算，帮助计算机学习。

“举个例子，如果计算机要识别狗的图片，人工神经网络最底层的独立‘神经元’会对图像进行局部或是逐像素处理，并进行相关特征提取。虽然‘神经元’不了解整张图片中狗的样子，但它们会对数据进行自己的权衡和过滤。”陈宏彩说，“在此基础上，被提取的数据会传至人工神经网络的下层，如此类推，经过层层的过滤和提取，最后的‘神经元’便可根据之前所有人工神经网络过滤后的数据作出判断，生成最终的结论。而一旦这个人工神经网络结论被计算机记住，这个网络就是一个深度学习模型了，以后便可以用来自动识别狗的图片。”

“虽然‘神经元’的计算会存在误差，但每层人工神经网络都会有相应的自身设置来反向传播，以保证计算机以最小的误差做出相对有把握的判断。”陈宏彩说，“深度学习的突破之处在于它是灵活多变的，可以随着事物的复杂性来不断调整人工神经网络中的相关参数，来真正接近和模拟现实。”

寻找“终极算法”前路仍漫漫

机器学习正应用于诸多方面，并影响着我们的日常生活。

“去年，我们曾利用深度学习和大数据处理等技术研制了一款套牌车辆检索系统，来辅助石家庄市公安局通过监控视频图像，快速精准的锁定嫌疑车辆目标。”陈宏彩表示，虽然该系统最终因其他因素未被推广，但在测试阶段，它已可以快速缩小排查车辆范围，大大减轻公安机关的人工负担。

“机器学习的下一步会向各种领域方向发展，随着不同类型的数据越来越多，往后很多任务都可能需要机器学习技术。”陈宏彩表示，除在图像识别领域，机器学习还在语音识别、自然语音处理、无人驾驶等领域获得了广泛应用，甚至在某些领域的表现已经超出了人类预期。

“这一天，机器人可以撰写小说，可以优先支配自己的快乐，并不再为人类工作。”这段话出自一本由人工智能机器人创作的科幻小说《计算机写小说的那一天》。参与这些机器人研发的日本研究人员首先谋划好小说的基本架构，然后给计算机输入人物设定、内容大纲等元素，之后计算机便通过机器学习，组织素材创作作品。去年包括这本小说在内的4部人工智能作品参加了日本“星新一微型小说文学奖”评比，其中几部作品甚至通过了初赛。

虽然如此，但想要找到机器学习的“终极算法”来真正达到人类学习的水平，还有很多问题要解决。

人类虽然会利用机器学习，但却对它生成结论的逻辑一无所知。“以深度学习为例，很难想象目前为止最有效的机器学习方法对人类来说还是个只可意会、不可言传的黑盒子，听上去有些不可思议，但事实上就是这样。”马艳东称，“相较以往的编程模式，在深度学习时计算机程序有自己的数据，自己可以生成概率逻辑，人们通常只知道深度学习模型是否工作，却很难说出模型中的参数取值与最终模型结论间，到底存在怎样的因果关系。”

其次，机器学习并不是完全“靠谱”，它在理论上不能绝对保证最终一定能得到一个毫无偏见的结论。“机器学习的结论正确需要满足数据量不能太少、收集的数据有一定的代表性、研究对象本身存在某种规律可循等前提条件。”马艳东解释道，“但现实世界中对于一些问题，人类自己尚且不知道正确答案是什么，又怎么能保证用无偏见的数据来得出一个客观的结论呢？”

“机器学习也无法保证在开放环境中百分之百成功。机器学习在应用中，常会出现两极反转的情况。在某些特定领域的封闭或半封闭环境下，机器学习的效果可以达到甚至超过人类水准。但一旦到了某些开放环境中，它有时也会错得非常离谱。”陈宏彩说。

最后还要解决的是成本问题。“现阶段的某些机器学习在处理数据方面，还不能脱离人类的大量编程和人工标注样本，这就需要人类在输入数据时，进行大量繁重的分类工作，来帮助计算机更好地提取特征、进行训练，这一过程需要昂贵的成本，这影响着机器学习的发展。”陈宏彩表示。

发展如此迅猛的机器学习，却又同时存在各种问题，难免让人充满忧思：如果人们只知道计算机学会了做什么，却说不清计算机在学习过程中掌握的是一种什么样的规律，那这种学习本身会不会失控？再比如，按照这样的路子发展下去，计算机会不会悄悄学到什么人类不希望它学会的知识，进而超越了人类智慧？

“也许未来人类会面临这些问题，但现阶段机器学习的技术水平连弱人工智能都还没有达到。”美国纽约州立大学终身教授顾险峰认为，虽然如此，但有理由相信，这些答案的钥匙就隐藏在机器学习之中，未来也还会有更加先进的算法技术代替深度学习，为计算机带来真正的智能。

不过为用好这把钥匙，全球研究者们还有很长的路要走。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：圆角望 > 《文心》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

圆角望

关注对话

TA的最新馆藏

姚逸之丨重构中的乡村
芥川龙之介和蓝印花布｜楼耀福
“聊斋”中的虎故事 | 景一屏
张莉：爱情九种
繁星 | 冬日藏春
繁星 | 穿过富贵山隧道

喜欢该文的人也喜欢更多

热门阅读换一换