能学习的机器正盯着你的职位

乐主成宇 2017-01-26

展开全文

2017-01-26

2016年AlphaGO轰动地冲击人类的自信。鲍勃迪伦得了诺贝尔文学奖，IBM请他与机器对话，机器花几秒钟通读了他一生的作品，总结一句话：你的歌曲反映了两种情绪，流逝的光阴和枯萎的爱情。同一个机器花20分钟，读了2000万页文献，给一个医者束手的病患作出建议，救了她的命。经过这段时间科普，爱学习的人对Master完胜人类围棋顶尖高手的战绩不再惊讶了。

现在的人工智能，不是几十年前哲学家争论的，影视让大家熟悉的，那种按规则推理的机器。人类创造的精灵通过学习，如同吃了智慧果，自己能知善恶，想制定机器人N定律来规范它的行为，已是逝去的帝王旧梦。

这一波的人工智能已是不同种族那样的动物，与我们有同源的智力，它的核心是机器学习。我们不告诉它怎么做，而是提出问题，让它从过去经验中自己得出答案。这个行为模式，注定它的“思考”与我们一样的独立，不听令行禁止，只受我们提问导向和供它学习经验的影响，它很快便能自行收集数据，将来能否自己设问，具备独立的“人格”，我们将与之如何相处，这些问题留给哲学家去苦恼。普罗大众先要考虑与自己切身相关的问题：在今后十来二十年内，对我们的工作，现在的职位，将来的职场有什么影响？

就像“狼来了”听多了一样，大多数人觉得觉得机器智能离成熟还很遥远。经历过几次激动失望后的AI研究者，已经学会谨慎，大多不相信“奇点”之事，只是务实耕耘，低调走出实验室。

实际上，早在石破天惊的围棋赛之前，机器学习的人工智能已经无声地渗入我们的生活。当你拿出傻瓜机照相，那聚焦的方块是机器在识别人脸；在信息输入中，机器通过识别手写字、语音或联想的词组帮助你；银行信用卡股市保安情治局，用机器监督流过的巨量数据，对不合常规的模式响起警讯；网上定向弹出各种愈来愈符合你口味的广告，网店不再询问只是根据你购物历史推销产品，旅行、照片或不经意的网上交谈，都成为喂进机器的数据，提供犹如私人定制般的服务。

无数的机器围着我们，窥视我们习惯，捕捉偏好模式，发掘私密，更好的服务让我们沉醉其中。你了解后或许承认，它确实影响着我们生活，这是科技进步，很好很喜欢，但这只关商家，工厂和从事AI专业人员的事，与我工作何干？

机器学习不仅仅是大学的课程和研究的项目了。2016年硅谷几乎所有大公司开发部门，都把重兵压在人工智能上，国内业者也不甘其后。如果你生活在旧金山湾区硅谷，会意识到“Machine Learning”，已是职场上的热门词，不是研究所大公司才需要这方面的人才。个性化推荐系统，已是商家必备，这是与机器学习有关的开发项目。过去依靠数据库管理员、统计分析师发掘数据规律只是手工业，要升级到让机器自己去学习去应用，这要懂行的程序员。电器应用程序，只靠固定规则不能学习，现在都不好意思称是具有智能，这要有训练的工程师来开发。

机器学习已经到处开课，公司付钱让员工学习。在职工程师上这课不为做研究只为工作要用，会上听得懂。网上搜一下，你会愕然发现不仅工程师在学，也有专门为医生开班设课，用医疗诊断体检数据举例设题。机器图像识别已堪与人匹敌，帮医生看个片，识别病患是现在进行时，综合各种检查报告的数据，判断病症将比专家更胜任。金融管理股市财经保险分析正用机器代替人力。哲学家考虑的全面独立机器人还在远方，专司一智的机器正走近你的身旁，盯着只需要经验判断按规则办事单一技能的脑力职位，不久只需留下一半人辅助補遗，与不知疲倦工作狂的机器偕行。

这一波技术进步来的凶猛，改变不是远在下一代人的工作，机器学习正开始冲击医生、律师、管理、教师、科研、工程设计等等几乎所有的工作，不出十年，职场将面目全非。斯坦福教授卡普兰调查说，美国720个职业中47%的人将被人工智能替代，中国会是70%的人。在座的是否想大致了解机器学习能做什么，为什么在这时候爆发，怎么规划自己的定位，在这潮流中如何趋吉避凶？

这一波人工智能技术依靠机器学习，在原理上几乎没有新意，你会发现它们基本还是线性回归、逻辑回归、统计分类、支持向量机（SVM）、神经网络等很早就有东西的新版。它的惊人发展不是在理论上的突破，而是巨量的数据、有效的算法和强大的计算机功能，这些条件的成熟，涌现出巨量的市场应用需求，让它的时代到来。

现在实践中被应用的，即使是最新的深度学习，除了一些技术层面的技巧和组合，其原理算法仍然与二三十年前并没多大的不同，基本的算法早已充分研究，通用程序库在各种语言都已开发可供下载。最重要不同点的是，现在较容易拥有巨量的数据和具有能处理这巨量数据的计算机。

人工神经网络研究已有五十多年，计算机视觉研究已有几十年了。我的同学马頌德1986年获得法国计算机视觉与图像处理国家博士，回国后任科学院自动化所模式识别实验室主任，早就用神经网络来探索视觉图像识别，那时国家实验室计算机的功能还远不如现在的手机，训练样本至多上千，神经网络节点不过上百，虽然在研究有许多创见，拘于条件使用成效不彰。

近年，斯坦福大学人工智能和视觉实验室主任李菲菲教授主持的ImageNet项目，建有一个有1500万张照片的数据库，涵盖22000种物品，62000不同表现的猫，用这些巨量的样本对2400万个节点，150亿个联接的神经网络进行训练，终于能让机器看懂了一张图。这个突破的关键，是巨量的样本数据和能够处理这些数据的计算机能力的具备。这像三岁小孩认识猫，在巨大的信息和硬件力量碾压下，不用太多技巧，简单、粗暴、有效。2017年她休假去了Google做研究，那里有更多的数据更强的机器。

机器学习的成功由两个方面组成，一是具有瞩目应用成果和巨大潜能的深度学习，复杂多层的神经网络显示出惊人的潜力，但较难被理解和掌控，有许多未知，它需要巨大的计算机和数据资源。主要是研究所和大公司用以彰显成就探索未来，占领高端市场。另一是传统方法在巨量数据和强大计算机运算能力下的应用。在这里，已有较清晰的数学解释和成熟的算法，人与机器协力较多，需要对应用领域的知识和数据表达的选取，以减少对样本和机器资源的需求，作为不断发展中过渡，市场用它大举进入机器学习的时代，开始尝试在各职位上替代人的工作。

最初被网商应用的推荐系统，例如基于内容推荐系统，要先研究对商品特征属性的分类，统计出各商品对这些特征属性的评级；然后用机器在线依顾客对这些属性个人偏好的加权，推荐加权评级较高的商品。这需要较多的人力辅助。而机器学习的矩阵分解推荐系统，通过巨量的顾客购后评分，用机器学习自动产生出商品的属性分类、赋值评级，以及顾客们的偏好；然后依顾客偏好，在线计算出前几个具有偏好加权属性综合最高值的商品，向顾客作出推荐。

在训练前，商品在这些特征属性上的评级和顾客对这些特征属性的偏好加权，包括特征属性的含义都是未知的。机器学习通过足够多的样本解出这个线性模型中未知的参数，只要特征属性足够多就能取得足够好的预测。什么才是足够多？简单算一下，对200部电影，采用10个特征属性来描述它们，在顾客购后评分的数据中，至少需要2000人每人都看过10部以上电影，数据库评分的数据要比这2万大得多才行。收集这么多的样本数据，在以前不大可能，在网络时代已经不难，分解这个至少是200x2000的稀疏矩阵，以前不行在今日也不成问题了。

各种个性化推荐系统已被广泛应用，例如依个人喜好推荐服装搭配，依学生答题成绩选择难度适中有针对性的练习题，而这些都不是大项目，是学生们都能玩得动的课题，已有现成通用的算法甚至软件包供你应用。

在2011年最热的算法是矩阵奇异值分解，在推荐系统是矩阵分解。推动机器学习的主力与其说是科学家，不如说是工程师。网络中巨量数据，机器速度和容量的提高，让这些原来小打小闹的技术，焕发出惊人的能量。商业的需求让研究员走出象牙塔，不再纠结于经验与真理的理性困扰，放下追求极致的科学思维，只求经验上的有效更好，便取得了极大的成果。擅长与此华人的论文在这领域中便占了43%. 人们愈来愈看清这波技术进步的核心，今天看来，热门词“大数据”显得空泛，数据挖掘（Data Mining）像手工业，而着眼于自动和半自动，从数据中抽取知识的数据科学已经成型，它将是计算机系热门的课。学应用数学的，不妨把目光放在数值计算，巨大维数线性代数的算法，尤其是稀疏矩阵的算法。

理解和应用机器学习，大多数理工科毕业生都具有足够的基础，应用最多的数学知识不过是线性代数、最小二乘法和统计理论。懂得一点编码，就可以动手在自己岗位上做点应用。用现成的软件包，在Mathlib等PC工具上写几行编码就可以计算验证想法。强大的机器已在云中，你只要有数据有项目，Amazon、Microsoft、Google、IBM等公司都有收费专供机器学习的网上服务（Web services），让你使用它们的计算机和现成的程序，训练机器学习的模型做应用，它们的生意是提供机器收机时费（例如Amazon数据分析和训练建模每小时收$0.42，在线应用每次$0.0001）。机器学习时代，机器硬件不是问题，算法软件都已经具备，大公司竞争着提供服务，从只懂得一点概念到想自己设计写算法都能玩机器学习，应用对象领域的知识是关键，数据是王！

作为管理员、质检师、经手大量试验数据的研究人员，也许要日复一日地监测流过物体事件信号或影像。只要你知道什么是正常的，就可以用足够多样本属性的数据给机器学习，你不需要自己归纳研究这些属性值的正常组合，机器学习在属性的空间中自动算出那些正常点和允许的偏差，凡与正常值偏离太多的，都发出警讯供人细究。这个有时在PC上都能实现的简单系统，能让你省心提高效率。

理工生大多都知道线性回归，以前限于计算能力和少量数据，只用来得到简单的经验公式。线性回归是机器学习对数值预测问题的基本手段，不难用增加输入的维数来解决非线性问题，现在有了强大的数据收集手段和计算机功能，有没有想过把你的工作或研究的问题，用新的手段来处理？

对于分类模式的判断，逻辑回归是基本的算法，它就是一个神经元的功能。也许你过去玩过模式识别，神经网络，在那计算机功能低下数据不多的时代，不会有什么成果。现在不同了。

工业革命有段时期，代替人力的新机器喷现，发明家灿如晨星，若曾感叹生不逢其时，现在正是再一次机会，各种条件都已具备，不过时势造英雄，只有捷足者先登。如果你工作多年，有着丰富的专业领域知识，你最接近数据，可能已经拥有或者开始收集它们，你最懂得怎么解读这些数据，也许可以想一想，是你动手让机器学习在你手中开始，管理它，还是等别人让机器学习，瞄准你的位置？

转载本文请联系原作者获取授权，同时请注明本文来自应行仁科学网博客。

链接地址：http://blog.sciencenet.cn/blog-826653-1028970.html