拯救AI

展开全文

文 / 杨强，迁移学习奠基人、国际人工智能联合会IJCAI理事会主席、IEEE/ACM/AAAI院士；本文根据杨强院士在2019基石资本年会上的演讲整理（未经本人审核）
来源：华夏基石e洞察（ID：chnstonewx）

AI现在是一个非常火热的话题，全社会都在讨论。而我们最关注的是，AI的下一站会向何处去？因为最近的一些事件，让我们不得不继续深思。现在全社会对于AI的看法，已经从全面看好转向正面和负面看法兼而有之。我们提出A.I.向善，首先当然要看到，AI确实能做很多有益的事。比方说，AI可以让一个产业实现普惠发展，从只面向VIP的小规模服务，变成大众都可以得到的普惠服务。比如一系列的AI+，AI+金融、AI+教育、AI+智慧城市、AI+灾难营救、AI+扶贫农业，等等，这里不一一列举。

但是另一方面，我们大部分人可能不知道的是，AI还有很多内在的缺陷。首先，AI技术极度依赖大数据，数据不可避免的局限性会导致AI出现有偏性。如果说AI是一架汽车，数据就像石油一样，为引擎提供燃料。数据的好坏，决定了AI到底能做什么。如果AI系统得到了一个比较偏颇的数据，AI系统的有偏性就成为一个非常严重的问题。比如说，如果提供数据的人都是男性用户，那么系统表现出来的就只是一种针对男性的服务模型，而不会刻意为女性服务。其次，AI和人类的合作现在仍有很大障碍。前一阵大家都在谈论的波音飞机失事事件，就是驾驶员和自动驾驶系统恶性博弈的后果，最后人类输给了自动系统。AI还有很多尚未解决的问题，比方说AI系统的可解释性，AI系统的可靠性、可信性和公平性，这些都是我们现在研究的前沿。

大数据的不可得性

——大数据时代真的来临了吗？

首先，我们知道AI是离不开大数据的，而我要强调的是大数据的不可得性。现在一般都说我们今天进入了大数据时代，但是我要告诉大家，这是不对的，我们并没有进入一个大数据时代。虽然谷歌和Facebook等大公司在数据不断增大的情况下，系统变得越来越优秀，错误率变得越来越低，指标变得越来越好。但是，除了这些巨头之外，谁还能有这么大的数据？谷歌的自然语言处理系统，获得了全世界几乎所有网络和自然语言的数据用来做训练，但是毕竟只有谷歌才有这样的数据资源。再看看我们周边，不管是法律、金融，还是医疗，所面临的都是小数据，也就是说它不能够得到我们想象中的大数据+AI的红利。雪上加霜的事实是，现在社会对于大数据的监管越来越严。比方说Facebook最近曝出的一系列数据泄露的事件，遭到了大众巨大的质疑。欧洲也出台了相应的个人数据保护法规，欧盟就颁布了GDPR（《通用数据保护条例》）。在中国也有《网络安全法》等数据网络个人隐私保护法案和条例，还有更严格的相关法律正在酝酿当中。以上这些情况都说明，目前并非如我们普遍所感受的，觉得我们已经进入了大数据时代；恰恰相反，我们现在面临的是大量数据孤岛的出现，包括BAT公司一些内部数据在部门之间都是隔离的。

新工具之一：迁移学习

——从大数据到小数据

作为AI技术的研究人员，我们现在正在做一些世界前沿的研究，尝试解决大数据的缺陷对AI带来的挑战。第一个叫做迁移学习，就是在一个大数据的环境下，已经训练出一个非常不错的通用模型，再把这个模型迁移到任意一个相关的任务场景中，看是否可行。如果在新的场景中可行，就不需要重新去获取大数据了。这个是解决大数据缺陷的一个很有力的做法。

迁移学习，是我们人类非常熟悉的学习方式。如果我们学会了骑自行车，很容易就能学会骑摩托车。这种能力的迁移，使得我们学了一件事，就会举一反三，去学很多其他的事情。而计算机在深度学习的场景下，是怎么实现这个过程的呢？假设我们已经把蓝色的模型建得非常完美了，有一个新的红色任务还没有足够的数据和标注，模型也建得不好。如果我们能够把两者联系起来，就可以很自如地从蓝色迁移到红色，就实现了迁移学习的效果。

首先，迁移学习的最大效用就是使一个模型的适用范围广泛扩大。我们在计算机领域称之为“鲁棒性”，就是说外部环境再怎么变化，系统的表现都会呈现出相对的稳定性。

其次，迁移学习可以用来支持边缘计算。“边缘计算”现在是一个热词，大概意思是说，很多的模型和处理本身都可以在终端进行，不用把数据原封不断地送到云端。这样做的好处是带宽的需求减少，隐私的泄露也大为减少，因为此时需要往云端传的只是一些关键的参数而已。迁移学习为什么能达到这个效果？因为云端一旦得到了一个很强的模型，释放给周围的边缘地带，边缘可以利用自己本身的计算能力来强大自身，来适配各自的任务。这就是边缘计算的好处。所以迁移的最终目的就是实现从大数据到小数据，从一旧场景新场景的转接。

迁移学习如何实现？

在不同领域中发现不变量

那么，在深度学习的场景下，迁移学习是怎么实现的？举个例子，国内开车，司机坐在车的左边，在香港开车，司机坐在车的右边。如果我们到香港去租一辆车，还是能够很快适应这种开车习惯的。背后的原因就是司机和路中线的相对位置是不变的。这就给我们一个启发，要做好迁移学习，就要在两个不同的领域中发现二者的不变量。

深度学习的场景下，数据从输入到输出会分成不同的层次，如同深度学习的神经元。我们观察在不同的层次，从离输入最近的最低层，到离任务最近的最高层，每层的迁移能力大有不同。越靠近输入层的迁移能力就越强，学习效果就越好。对于图像来说，如果我们能够把靠近输入的这些层次迁移过去的话，剩下的工作并没有那么多，就不需要那么多数据来重新做训练。用这个方法，我们就可以创造出一系列新的算法来，比如所谓的传递式的迁移学习，不是从一个领域直接迁移到任务领域，而是从第一个迁移到第二个、再从第二个迁移到第三个，这样依次传递。这样的传递效果很明显。

最近斯坦福大学的一个例子给了我们很大的启发。他们利用卫星图像观察非洲大陆，以此来判定哪一个区域需要更多的联合国资助。在过去，这样的工作是需要人为调查的，成本昂贵，速度很慢。但是现在可以用迁移学习，尤其是传递式迁移学习来实现。最开始的照片甚至是网上随意抓下来的照片，通过照片的比对，都可以迁移到扶贫的任务上，取得了非常大的成功。第四范式公司的一项实践，也是一个从大数据到小数据的迁移学习的例子。当时的任务是要做一个豪车产品的营销模型，这需要在大众当中识别最有可能性的目标受众。但问题就是没有足够的数据来训练这个模型，因为豪车成交数量是非常少的。他们就利用迁移学习的方式，用大量小贷的场景，以上亿的数据来做训练，形成模型后再迁移到豪车买卖的场景。其效果就使得最后营销的成果大为提升。

另外，我们可能都用过今日头条，或者手机APP的推荐功能，这种推荐策略是因人而异的，是个性化的，这种策略也可以做迁移。比如在一个场景下，已经用机器学习训练出一个好的推荐模型，用户看了这条内容，划下来的应该是哪几个新闻或者视频。这个系统完全可以从一个领域迁移到另一个领域，比如你看了相关主题的影视类视频，然后算法可以迁移到一些故事片的视频、新闻片的视频。这种算法叫做强化学习算法，也可以用来做迁移。

舆情分析也是一个特别有利的应用场景，比如电商下面会有很多用户留言，一般我们会让计算机来把这几十万的用户留言分成正面和反面。这就需要大量的标注，把一些关键词标出来。当我们到了一个新的场景，比如卖书、卖游戏，用了迁移学习以后，就可以大为节省重新标注的工作量，很好地提升效果。这里，我们提出来一个概念叫做对抗学习。这也是最近在机器学习、深度学习领域发展非常迅猛的一个方向。总结起来就是，如果我们面临一个小数据的场景，不知道需要花多大的力量去重新标注数据，这时候一个好办法就是找到一个已经有的场景、已经有的模型，把它迁移过来。这个概念是我们在香港科技大学20年以前就开始做的，在全世界范围都有引领的作用。我们的文章被引用率已经超过5000，是非常可观的一个数字。目前，BAT、谷歌、Facebook都在用迁移学习，试图扩大应用场景。吴恩达甚至说，迁移学习是监督学习的下一个战场。

新工具之二：联邦学习

——从小数据到“大数据”

第二个领域是联邦学习。数据本身是割裂的，是以孤岛的形式存在的，如果能在安全的前提下把这些数据在虚拟世界聚合起来，同时不泄露各自的隐私，并且能建立像以前一样好的模型，就可以形成从小数据到大数据的聚合能力。

当出现很多数据孤岛，没有办法整合，就会有人作假。像Facebook把数据给了另一家公司，结果被用来传播假消息，因此Facebook也受到连累。这个消息曝光的当天，Facebook的股价随之暴跌。为了防止类似事件发生，欧洲引入GDPR法案，从立法上给予个人隐私可靠的保护。加州最近也出台了类似的法规，中国对数据安全的立法也已经到了人大常委会的层面了。在层层约束下，如果一个公司收集了用户的数据，去做其他事情，一定要取得用户的同意，否则就不被允许。如果用户后悔了，不希望自己的数据被使用，这个公司就不能在模型里采用相关数据。这种情况，其实对机器学习、对AI的进一步发展提出了很大的挑战，导致整个算法系列都要重新建立。数据孤岛，以及越来越收紧的相关法规，已经成为AI发展的巨大阻力。如果现在还有初创公司在做深度学习，做无人车，做推荐系统，这样的公司是没有前途的。

整合：从小数据的孤岛到大数据的联盟

面对巨大的阻力，联邦学习就应运而生。这需要从数据的整合说起。不同的机构拥有的数据是不同的，用户本身的行为数据是X，结果数据是Y。例如一个用户带着手机走来走去，产生的GPS通信数据就是典型的X数据。一般来说，这种行为数据X是不带有任何目的性的。而Y数据是有目的的，特别是商业目的。所以结果数据是非常值钱的。比如在金融领域，用户到底有无贷款，还款与否，这就是我们所说的Y数据。只有当X数据和Y数据合到一起，才能用来训练AI的系统。但我们面临的情况是，有很多的X数据分布在不同的机构，拥有Y数据的一般都是一些持牌机构，像保险、银行。首先很难获取，其次也很难整合，并且要保证安全性。有人提出，可以用一些加密算法把数据加密，然后用一些数学工具进行聚合。但是，这些数学工具往往都是数学家们发明的，根本就没有考虑实用性，实际的计算复杂度非常高，所以工具的计算能力应用起来非常差。

最近，计算机领域提出了新的工具。谷歌推出了“federated learning”的概念，即联邦学习。在此之前，安卓系统训练模型的方式是，每一个安卓系统都要往云端传送本地数据，像本地输入法键盘的输入，或者是照片，都会被进行标注并上传到云端，帮助训练云端的模型，最后再把训练好的模型下传到各个安卓手机上。但是自从欧洲的GDPR出台以来，这个过程就成了违法行为，因为把用户本地数据传到云端是没有经过用户同意的。现在他们的办法是，先在每一个本地手机把模型建好，然后对模型进行加密封装，把封装好的模型运到云端，保证在云端也没有办法拆封，在这个状态下进行重新建模，最后把重新建好的模型再下发到每个手机上。这就是谷歌所说的联邦学习。但这种做法只是针对to C的做法，我们目前在研究to B的联邦学习方式。两个机构之间可能有一些用户是共有的，但各自收集到的数据却不同，比方银行业和电信业，这边的数据是X1—X3，那边收集到的是X和X5。如何能够促成数据的聚合，同时又不泄露用户的隐私？针对这种情况，我们提出了纵向联邦的概念，专门解决to B的联邦学习，目前正在尝试推出新的算法。

从数据堆积模型，到模型传递数据

总的来说，联邦学习是指，每一个本地就像一个个联邦社会里的国家一样，可以保留自己的数据，但是要参与到联邦里进行共同计算，来建立一个更好的模型。我们可以用联邦学习的方式，建设整个数据模型的过程，同时使得各个数据集之间看不到对方的数据，充分实现数据的保密性。在过程当中有很多数学的表达，其中一个很重要的表达是，在两边进行模型传递的时候，数据不可以被反向工程模拟出来。以前的深度学习需要把数据堆到一起来建模，而联邦学习就是数据不动，而模型在动，让模型在数据集之间传递。在模型传播的过程中，可以规避在接到新模型时，把其他数据重造出来的风险。这是一种全新的思维，也是在目前严监管的状态下能够挽救深度学习、挽救AI的一个技术方案。所以我们做了这么一系列的尝试，研究了一系列的算法。同时还产生了一个很重要的副产品——比如我有多家银行的数据，还可以在保密的前提下发掘出多方借贷的情况。在过去，需要把多方数据加以重叠，才能发现多方借贷情况。用联邦学习的方式，就不需要这么麻烦，可以自动发现并且不暴露各自数据的隐私。同时，我们可以把前面讲的迁移学习引入两个模型中，使得模型之间不仅可以做联邦学习，同时可以把数据加以迁移，到最后同时壮大两边的数据。在这个方向上，目前我们是世界领先的。现在我们还提出了一系列的专利，标准也正在建立，在学术上也建立了一系列新的算法。

最后要说的是，大家参与共同建模的联盟，一定是因为有好处，那么这个好处是如何分配的？我们以博弈论为基础，建立了一个经济学模型，已经做到了把最后的收益公平地分配给参与方，并使得新的参与方不断加入。现在有几个跨行业的成功案例已经建立了合作，一些金融、互联网的企业和学术研究机构，通过这种加密安全合作，使得各自的效果指标都达到了提升。现在我在微众银行做指导人工智能的工作，就是关于互联网和金融风控的合作，我们已经取得了一系列成果。另外就是在智慧城市管理领域的实验。我们知道城市的摄像头背后都归属于不同的机构，但他们的数据不能传递。在这种场景下，我们能够把这些视觉数据合而为一，同时又不暴露用户隐私，能够让各自的模型都得到加强。最近我们在深圳做了一个相关实验，非常成功，准确率效果提升了15%。

同时，我们发动领导了HPOE的国际标准，最近在深圳开了第一次全体会议，6月份在洛杉矶召开第二次全体会议，也得到了很多企业的支持。我们刚发布了联邦学习第一个开源系统，FEDAI，大家如果有兴趣可以去参考。我们主办了一些国际领先的会议，比如国际人工智能联合会要举办的一些国际会议，请来了GDPR（欧洲个人隐私保护法）法案的发起人、google联邦学习的小组领导，全世界都在关注我们的动向。

综上所述，目前AI面临的巨大挑战就是数据挑战，数据孤岛、数据割裂、安全隐私风险，等等。如果大家关心AI投资，应该关注被投企业有没有对这一方面的考虑和长远规划。我们对此提出的两个技术方案，迁移学习和联邦学习，就是解决以上这些挑战的有力工具，再加上我们运用经济学激励机制，使得新型的合作模式能够广泛展开。

（整理/编辑张晓倩）

对标华为、阿里、万科、OPPO…

如何向事业合伙人平台组织进化