|
过新年贺新年,AI大咖来拜年! 近日,在deeplearning的最新特刊中,Yann Lecun、吴恩达、李开复等人发表新年寄语,并谈了自己对2020年AI发展的期望。 他们表示,随着机器学习在众多传统产业中的落地,未来十年AI发展值得期待,但是如何在不造成伤害的情况下使用它,仍是领域内从业者需要重点关注的问题。 图灵君对这些大咖的观点进行了编译,以下是具体内容: 吴恩达:保持学习、保持好奇 亲爱的朋友们, 新年快乐! 每个冬季假期,我都会制定一个新的学习目标。在探亲期间,我读了很多书。 大约十年前,我的假期阅读主题是教育学-我仍然记得在机场拖着沉重的书箱-这对Coursera的成立很有帮助。去年,在女儿Nova出生之前,我读了一堆关于儿童保育的书。 这个假期,我一直在阅读表观遗传学和新兴学科相关的书籍。 抗衰老的秘密 我还拜访了我101岁的祖父。我告诉他我正在阅读,他说保持好奇心是长寿的关键。 如果他是对的,那么我想你们中的许多人会在101岁以后仍然身体强健! 祝您在2020年与好奇心、学习以及爱心相伴。 Anima Anandkumar:模拟/仿真的力量 Anima Anandkumar是Nvidia的机器学习研究总监和Caltech的计算机科学教授。 在标记数据的监督式深度学习方面,我们取得了巨大的成功。现在是时候探索其他学习方式了:对未标记数据进行训练,终身学习,尤其是让模型在将学习到的知识迁移到现实世界之前先探索一个模拟的环境。我希望在2020年能够在这些领域进行更多的研究。 高保真度仿真可以让我们更有效地训练和测试算法,从而产生更健壮、更自适应的网络。模型在虚拟世界中获得的经验要比在现实世界中获得的经验多得多。我们可以模拟一些罕见的事件,这些事件会带来严峻的挑战,但很少有现实事实能够代表这些事件。 例如,当我们开车时,很少发生事故。即使你驱车几十万英里,你也不会看到所有的变化。如果我们仅仅根据真实世界的数据来训练自动驾驶汽车,它们将不会学习如何管理导致事故的各种情况。 但是在模拟环境中,我们可以产生一个又一个的变化,给模型一个数据分布,来更好地反映现实世界的可能性,因此它可以学习如何保持安全的驾驶状态。 最近,模拟帮助强化学习取得了令人印象深刻的结果,强化学习是非常耗费数据的。 但是,当研究人员可能只有少量真实世界的数据时,它在监督学习中也很有用。例如,地震是罕见的并且难以测量。 但是,加州理工学院地震实验室的研究人员使用一个简单的物理模型来创建代表这些事件的综合数据。在合成数据上进行训练后,他们的深度学习模型达到了预测真实地震属性的最先进水平。 在Nvidia,我们开发了强大的仿真平台,如自动驾驶汽车的驱动星座和机器人的Isaac。这些开放的、可扩展的环境使模型能够在逼真的虚拟世界中工作,并具有高度精确的物理特性。 我希望更多的人工智能科学家能够认识到在模拟环境中训练的价值,以及监督学习之外的其他技术。这将使2020年成为人工智能取得巨大进步的一年。 Oren Etzioni:平等工具 Oren Etzioni是Allen AI学院的首席执行官,华盛顿大学的计算机科学教授以及Madrona Venture Group的合伙人。 在2020年,我希望人工智能社区能够以切实、直接地惠及弱势群体的方式解决公平问题。 我们花了很多时间讨论我们算法中的公平和透明度,这是非常重要的工作。但是,开发具有实际影响的软件工具是关键所在。旨在改善人们生活的人工智能系统可能有助于解决一些社会主要挑战。 想象一下坐在轮椅上使用智能手机导航应用程序是什么感觉——如果在路上遇到楼梯呢?即使是最好的导航应用程序,如果用户不能定制路线以避免不可逾越的障碍,也会带来很大的挑战和风险。 技术的存在是为了支持行动不便的人,包括AccessMap,这是华盛顿大学塔斯卡尔可及技术中心的一个项目。但我们可以做得更多。值得庆幸的是,我们生活在一个触手可及的时代。 无障碍通道、教育、无家可归、人口贩卖——人工智能可以对这些和其他领域的人们的生活质量产生重大的积极影响。到目前为止,我们只触及了皮毛。让我们在新的一年里深入挖掘。 切尔西·芬恩:泛化的机器人 切尔西·芬恩(Chelsea Finn)是斯坦福大学计算机科学与电气工程系的助理教授。 人工智能社区中的许多人都专注于取得华而不实的成果,比如创建一个可以在围棋或危险游戏中获胜的智能体。这种工作的复杂性令人印象深刻。 但我们很容易忘记另一个重要的智力轴:泛化能力,即处理各种任务或在各种情况下进行操作的能力。在2020年,我希望看到在建立泛化模型方面取得进展。 我的工作包括使用强化学习来训练机器人,让它们思考自己的行为将如何影响环境。例如,我想训练一个机器人用各种各样的物体来完成各种各样的任务,比如把东西装进盒子里或者把垃圾扫进簸箕里。使用RL很难做到这一点。 在监督学习中,在ImageNet的1400万张图片上训练一个图像识别器往往会产生一定程度的泛化。在强化学习中,模型通过与虚拟环境交互并在此过程中收集数据进行学习。为了构建我们在ImageNet上训练的模型中常见的一般技能水平,我们需要为每个新模型收集一个ImageNet大小的数据集。这是不实际的。 如果我们想要通过强化学习训练的系统进行泛化,我们需要设计可以从离线数据集学习的智能体。我们需要这些预先存在的数据集随着时间的推移而增长,以反映世界的变化,就像ImageNet从最初的100万张图像发展起来一样。 这正在开始发生。例如,机器人可以通过学习自己的交互数据集以及由人类指导机器人手臂的演示来找出如何使用新对象作为工具。我们正在研究如何利用其他机构的数据。例如,我们收集了来自四个机构的七个不同机器人平台的机器人与对象交互的数据集。 看到临界质量在强化学习中泛化的发展是令人兴奋的。如果我们能掌握这些挑战,我们的机器人将更接近于在现实世界中的智能行为,而不是在实验室里做看起来智能的事情。 Yann LeCun:从观察中学习 Yann LeCun是Facebook副总裁兼首席AI科学家,也是纽约大学计算机科学教授。 为什么许多人在20个小时的练习中就能学会相当安全地驾驶汽车,而目前的模仿学习算法需要数十万小时,强化学习算法需要数百万小时?很明显我们遗漏了一些重要的东西。 看起来人类学习效率高是因为我们在大脑中建立了一个世界模型。人类婴儿几乎不能与世界交流,但在生命的最初几个月里,他们通过观察吸收了大量的背景知识。很明显,大脑的很大一部分用于理解世界的结构和预测我们无法直接观察到的事物,因为它们在未来或以其他方式隐藏着。 这表明人工智能的发展方向是我所说的自我监督学习。它类似于监督学习,但我们没有训练系统将数据样本映射到分类,而是掩盖一些样本,让机器预测缺失的部分。例如,我们可以屏蔽视频的一些帧,并训练机器根据剩下的帧来填充空白。 这种方法最近在自然语言理解方面非常成功。像BERT、RoBERTa、XLNet和XLM这样的模型都是以一种自我监督的方式训练的,以预测文本中缺失的单词。这些系统在所有主要的自然语言基准测试中都有记录。 我希望在2020年,自我监督方法能够学习视频和图像的功能。像视频这样的高维连续数据会发生类似的革命吗? 一个关键的挑战是应对不确定性。像BERT这样的模型不能分辨句子中缺失的单词是“猫”还是“狗”,但它们可以生成一个概率分布向量。对于图像或视频帧,我们没有一个好的概率分布模型。但是最近的研究离我们很近,我们可能很快就会找到它。 突然之间,我们就可以用很少的训练样本在视频中得到很好的性能预测,这在以前是不可能的。这将使明年成为人工智能非常激动人心的一年。 李开复:AI无处不在 李开复是Saivation Ventures董事长兼首席执行官。 人工智能已经从发现时代转移到了实现时代。在我们主要在中国的投资组合中,我们看到了在银行,金融,运输,物流,超级市场,饭店,仓库,工厂,学校和药物发现中使用人工智能和自动化技术的蓬勃发展的应用程序。 但是,从整体经济的角度来看,只有一小部分企业开始使用AI。有巨大的增长空间。 我相信,在人类技术进步的历史上,人工智能将与电力同等重要。在未来的一两年中,人工智能将渗透到我们的个人和企业生活中,从而提供更高的效率和更智能的体验。现在是企业,机构和政府充分拥抱人工智能并推动社会前进的时候了。 我最感兴趣的是人工智能对医疗和教育的影响。这两个部门已经为人工智能的颠覆做好了准备,可以永久部署人工智能。 我们投资了一家利用人工智能和大数据优化供应链的公司,减少了中国农村超过1.5亿人的药物短缺。我们还资助那些结合深度学习和生成化学的药物发现公司,将药物发现时间缩短三到四倍。 在教育领域,我们看到公司开发人工智能解决方案,以改善英语发音、等级考试和家庭作业,并使数学学习个性化和游戏化。这将使教师从日常工作中解放出来,并使他们有时间与未来的几代学生建立更鼓舞人心、更有刺激性的联系。 我希望在2020年和未来几年看到更多聪明的企业家和企业开始使用人工智能。 大卫·帕特森(David Patterson):更快的训练和推理 David Patterson是加州大学伯克利分校的计算机科学教授。 投入数十亿美元开发新型人工智能硬件的努力将在2020年初见成效。 谷歌的张量处理单元在2017年引发了一场金融雪崩。去年,阿里巴巴、Cerebras、Graphcore、Habana和Intel等公司都推出了专门的人工智能处理器,还有许多其他公司也在研发中。 这些新芯片将慢慢地进入研究实验室和数据中心。我希望AI社区能够接受其中最好的部分,推动这个领域朝着更好的模型和更有价值的应用发展。 机器学习工程师如何知道一种新发明的替代方案是否比传统的cpu - gpu组合性能更好? 计算机体系结构是按曲线而不是按绝对比例分级的。为了考虑不同的计算机大小,我们根据价格、功率或芯片数量来规范性能。竞争对手选择一套有代表性的方案作为基准。在许多这样的项目中,平均分数比任何一个单独的项目更有可能反映出真实的表现。 MLPerf是最近由来自50多家公司和9所大学的代表创建的机器学习基准。它包括用于测试推理和训练的程序、数据集和基本规则,并指定诸如精度目标和有效超参数值等重要细节。 新版本每三个月出现一次(交替推理和训练),以跟上机器学习的快速发展。 并不是每个产品都能获得公平的比较,所以一些营销部门可能会回避MLPerf,说一些版本的“我们的客户不关心MLPerf中的程序”。但不要被愚弄。首先,MLPerf欢迎新程序,因此如果给定的工作负载不在MLPerf中,可以添加它。第二,竞争者检查MLPerf结果的公平性,以确保进行苹果与苹果的比较。 Richard Socher:沸腾信息海洋 Richard Socher是Salesforce的首席科学家。 在互联网时代,无知是一种选择。实际上,只要在搜索框中输入几个字,就可以获得人类所有的知识。 但是处理大量的事实、观点和观点仍然是一个挑战。在你阅读一份冗长的文档之前,很难知道你会找到什么信息,而且很难知道某个特定的陈述是否正确。 自动摘要可以很好地解决这些问题。这是自然语言处理中最重要但却最难解决的任务之一。到2020年,总结将迈出重要的一步,改进将改变我们消费信息的方式。 Salesforce的研究团队最近仔细研究了这个领域,并发表了一篇评估当前方法优缺点的论文。我们发现用于训练摘要器的数据集存在严重缺陷。用来衡量他们表现的标准存在严重缺陷。因此,得到的模型存在严重缺陷。 我们正致力于解决这些问题。例如,研究人员使用胭脂评分(ROUGE score)来评估摘要性能,胭脂评分衡量源文档、自动摘要和人工编写的摘要之间的单词重叠情况。 事实证明,基于神经网络的摘要器可能会出错,但仍然可以获得较高的胭脂分数。例如,一个模型可以混淆罪犯和受害者的名字。ROUGE度量的是这些名称同时出现在生成的和人工生成的摘要中,而没有考虑到错误。 我们引入了一个模型,该模型可以方便地检查源文档和摘要之间的事实一致性。我们还提出了一个度量来评估摘要的事实一致性。除了胭脂之外,根据这个指标对摘要进行排序将有助于研究人员开发更好的模型,并将加速其他领域的进展,例如在整个长摘要中保持逻辑一致性。 这种发展给了我信心,2020年将是总结的好时机,也是NLP的好时机。我期待在未来一年里看到的进步,不仅将帮助人们应对源源不断的新信息,也将帮助人们拥抱人工智能的巨大潜力,让世界变得更美好。 Dawn Song::承担数据责任 Dawn Song是Oasis Labs的首席执行官兼联合创始人,也是加州大学伯克利分校的计算机科学和电气工程教授。 数据集对人工智能和机器学习至关重要,它们正成为经济的关键驱动力。敏感数据的收集正在迅速增加,几乎涵盖了人们生活的方方面面。以目前的形式,这种数据收集将个人和企业置于风险之中。我希望2020年是我们为负责任的数据经济奠定基础的一年。 今天,用户几乎无法控制他们生成的数据如何被使用。所有类型的数据被共享和出售,包括细粒度的位置、医疗处方、基因序列和DMV注册。这种行为往往会危及个人隐私,有时甚至会危及国家安全。随着人们越来越意识到这些问题,他们对所使用的服务失去了信任。 与此同时,企业和研究人员在利用数据方面面临诸多挑战。首先,大规模数据泄露继续困扰着企业。其次,随着欧洲的《通用数据保护条例》、加州的《消费者隐私法》以及类似的法律的出台,企业遵守隐私法规变得越来越困难,成本也越来越高。第三,有价值的数据被筒仓化,阻碍了技术进步。例如,机器学习机构之间更容易地使用医疗数据可能会改善每个人的医疗保健。 将这个破碎的系统转变为负责任的数据经济需要创建新的技术、法规和业务模型。它们的目标应该是通过安全计算、审计能力和维护数据隐私的机器学习,为数据所有者(个人和企业)提供可靠的保护和控制。安全计算可以通过安全硬件(如Intel SGX和Keystone Enclave)和加密技术来提供。这些计算可以通过将加密的存储和计算绑定到一个分布式账本上进行审核。 机器学习方面仍面临更大的挑战。到2020年,我们可以扩展目前在差异私有数据分析和机器学习方面的努力,构建可伸缩的系统,用于实际部署大型异构数据集。对于某些用例,进一步研究和部署联合学习也很重要。最后,在从有限且有噪声的数据中进行健壮学习方面的进步,可能有助于在不损害隐私的情况下实现ML用例的长尾。 我们正在Oasis实验室构建这一愿景的一部分,但还有更多的工作要做。我希望今年,技术专家、企业、监管机构和人工智能社区将与我们一起为一个真正负责任的数据经济奠定基础。 周志华:新的方法,明确的指导方针 周志华,南京大学计算机科学与人工智能教授。 我对2020年有三个希望:
|
|
|
来自: taotao_2016 > 《AI》