分享

【数译】人工智能正在改变我们进行科学研究的方式

 学习雪雪 2017-11-20

著名期刊《科学杂志》在此文中给出了机器学习和AI在科学上的5个应用案例,涉及的领域包括物理学、心理学、生物学、天文学和化学。我们可以从中了解到,AI技术在前沿科学实验中真的是大放异彩。


翻译 | 七七

编辑 | 数小妹


人工智能的早期证明:寻找新的粒子


在20世纪80年代后期,粒子物理学家开始使用人工智能(AI)。他们的领域转向于AI和机器学习算法,而几乎每个实验都关注从复杂粒子检测器中发现微观的空间模式——这是AI所擅长的。伊利诺伊州巴达维亚的费米国家加速器实验室的(Fermilab)Boaz Klima说:“我们花了几年的时间来说服人们,这不仅仅是魔术、黑匣子。”现在,AI技术在物理学家的标准工具中占有一席之地。


神经网络搜索LHC碰撞碎片中新颗粒的指纹


粒子物理学家通过粉碎亚原子粒子产生巨大的能量这点,力图了解宇宙的内在作用,以发掘异质新物质。例如,在2012年,世界上最大的质子对撞机(瑞士的大型强子对撞机(LHC))发现了长期预测的Higgs boson,这是短暂的粒子,是物理学家解释所有其他基本粒子的关键。


然而,这种异乎寻常的颗粒不附带标签。在LHC中,Higgs boson在每10亿个质子碰撞中大约出现一个,在十亿分之一的皮秒内,它会衰变成其他颗粒,如一对光子或称为μ子的四重粒子。为了“重建”Higgs boson,物理学家必须发现所有更常见的粒子,看看它们是否与来自同一个系列的一致的方式相匹配 ——这是在典型的碰撞中使得外来粒子群变得更加困难的工作。


Fermilab的物理学家Pushpalatha Bhat说,像神经网络这样的算法优于从背景中筛选信号。在颗粒检测器中——通常是各种传感器的巨大的组合——光子通常在称为电磁量热计的子系统中产生颗粒喷雾。所以电子和粒子被称为强子,但它们的淋浴与光子的微妙不同。机器学习算法可以通过嗅探描述淋浴的多个变量之间的相关性来分辨差异。这样的算法也可以帮助区分源自希格斯衰变的随机光子对。“这是谚语中的针对干草堆的问题,”巴特说。“这就是为什么从数据中提取我们可以获得的最多信息非常重要。”


机器学习没有占领领域。物理学家仍然依靠他们对潜在物理学的理解,找出如何搜索数据以获取新的粒子和现象。加利福尼亚州伯克利市劳伦斯伯克利国家实验室的计算机科学家保罗·卡拉菲罗(Paolo Calafiura)说,AI可能变得更加重要。2024年,研究人员计划升级LHC以将碰撞率提高10倍。在这一点上,Calafiura说,机器学习对于跟上数据的洪流将至关重要。


算法如何分析群众的心情


每年有数十亿用户和数以亿计的推特和帖子,这些社交媒体为社会科学带来了巨大的数据。心理学家马丁·塞利格曼(Martin Seligman)认识到,可以利用人造智能(AI)从大众传播中获取意义。在宾夕法尼亚大学的积极心理中心,他和20多位心理学家、医生和计算机科学家在世界福祉项目中使用机器学习和自然语言处理来筛选数据,以衡量公众的情绪和身体健康。


以前这些是通过调查完成的。但是,社交媒体数据“不引人注目,价格非常便宜,而且数量巨大”,Seligman说,“虽然它也是混乱的,但是AI提供了强大的方式来整理。


在最近的一项研究中,塞利格曼(Seligman)及其同事研究了29,000名患者对抑郁症进行自我评估的脸书的更新。使用来自28,000个用户的数据,机器学习算法发现在更新和抑郁水平中的单词之间相关联。然后可以根据其更新成功测量其他用户的抑郁症。


另一项研究中,小组预测县级心脏病死亡率为1.48亿,与愤怒和负面关系相关的话语就是风险因素。来自社交媒体的预测比实际死亡率更符合10个主要危险因素(如吸烟和糖尿病)的预测。研究人员还利用社会媒体预测人格,收入和政治意识形态,研究医院护理,神秘经历和刻板印象。该团队甚至根据幸福感,抑郁症,信任和五个人格特质,从Twitter推断,为每个美国县建立了一幅地图 。


得克萨斯大学奥斯丁分校的社会心理学家詹姆斯·宾巴克(James Pennebaker)说:“语言分析与心理学的联系有一场革命。他不侧重于内容而是风格,并且发现,例如,在大学录取文章中使用功能词可以预测成绩。文章和介词表明分析思维和预测较高的成绩; 代词和副词表示叙事思维和预测较低成绩。他还发现支持1728年发生双重错误的大部分可能是由威廉·莎士比亚(William Shakespeare)撰写的:机器学习算法与莎士比亚的其他作品相一致,基于认知复杂性和罕见词等因素。Pennebaker说:“现在,我们可以分析您曾经发布过的所有内容,撰写过的内容,以及您和Alexa的谈话日益增多。


组合自闭症根源的基因组


对于遗传学家来说,自闭症是一个棘手的挑战。继承模式表明自闭症具有很强的遗传成分。但是已知在自闭症中发挥一定作用的数十种基因中的变体只能解释所有病例的约20%。寻找可能贡献的其他变体需要找到关于25,000个其他人类基因及其周围DNA的数据的线索——这是人类调查人员的压倒性任务。所以普林斯顿大学的计算生物学家奥尔加·特洛伊斯卡亚和纽约市的西蒙斯基金会招募了人工智能(AI)的工具。


纽约基因组中心创始人兼纽约洛克菲勒大学医学科学家罗伯特·达内尔解释说:“我们只能像生物学家那样做出自闭症等疾病的基础。” “一个科学家可以问10个问题的机器的力量是一个游戏规则。”


Troyanskaya结合了数百个基因在特定人类细胞中活跃的数据集,蛋白质如何相互作用以及转录因子结合位点和其他关键基因组特征位于何处。然后,她的团队利用机器学习建立基因相互作用图,并将几个成熟的孤独症风险基因与数千个其他未知基因的基因进行比较,寻找相似之处。据报道,去年在自然神经科学上,另有2500个可能参与自闭症的基因。


但遗传学家最近才意识到,基因并不孤立。他们的行为是由数百万附近的非编码基因形成的,这些基因与DNA结合蛋白质和其他因子相互作用。识别哪些非编码变体可能会影响附近的自闭症基因是比首先找到基因更难的问题,特洛伊斯克亚的普林斯顿实验室的研究生Jian Zhou正在部署AI来解决它。 


为了将这个程序 训练成一个深刻的学习系统,周将其暴露于DNA元素百科全书和路线图表观基因组学收集的数据,这两个项目编目了成千上万个非编码DNA位点如何影响邻近基因。该系统实际上学习了寻找哪些特征,因为它评估了未编码DNA的潜在活动。


当周和特洛伊斯卡亚在2015年10月在自然方法中描述他们的计划 DeepSEA时,加州大学尔湾分校的计算机科学家谢小辉称之为“应用深基础学习的里程碑”。现在,普林斯顿大学通过DeepSEA运行自闭症患者的基因组,希望对非编码基础的影响进行排序。


谢氏还将AI应用于基因组,尽管比孤独症更为重点。他也希望将任何突变分类为有害的可能性。但他提醒说,在基因组学中,深度学习系统只能与训练数据集一样好。他说:“现在我认为人们怀疑,这样的系统可以可靠地解析基因组。“但我认为,越来越多的人会深入学习。” - 伊丽莎白·帕尼斯


有天意的机器


今年四月份,天体物理学家凯文·沙文斯基(Michael Schawinski)在Twitter上发布了四个星系的模糊图片,并提出了一项要求:天文学家可以帮助他分类吗?同事们说,这些图像看起来像椭圆和螺旋的物体。


一些天文学家怀疑,直截了当地问道,这是真正的星系?还是他们的模拟——相关物体在电脑上的建模?事实上他们都没有,他说。在苏黎世,计算机科学家Ce Zhang和其他合作者将星系融入神经网络中。


随着他的Twitter帖子,Schawinski只是想看看网络的创作是如何令人信服的。但他更大的目标是创造出像电影中的技术那样神奇地削弱模糊监控图像的网络:一个网络可以使模糊的星系图像看起来像是比实际更好的望远镜。这可以让天文学家从观察中挤出更精细的细节。“数千万甚至数十亿美元用于天空调查,”Schawinski说。“借助这项技术,我们可以立即提取更多的信息。”


Twitter上发布的Schawinski是一种机器学习模型,它使两个神经网络相互对抗。一个是产生图像的发生器,另一个是试图发现任何瑕疵的鉴别器,这将迫使发生器变得更好。


Schawinski的团队拍摄了数千个星系的真实图像,然后人为地降解了它们。然后,研究人员教会发电机再次使图像复现,以便它们能够滑过鉴别器。最终,网络可能会胜过其他技术来平滑星系的嘈杂图片。


伊利诺伊州巴达维亚的费米国家加速器实验室的天文物理学家布莱恩·北德(Brian Nord)说,Schawinski的方法是天文学中机器学习的一个特别前卫的例子,但它远非仅有的一个。在美国天文学会1月的会议上,诺德提出了一种机器学习策略来追捕强引力透镜:当遥远的星系的图像在通往地球的过程中经过扭曲的时空时,形成了天空中罕见的光线。这些镜头可用于测量宇宙中的距离,并发现不可见的质量浓度。


强引力透镜在视觉上是独特的,但很难用简单的数学规则来描述。Nord等人意识到,经过数千个镜头训练的神经网络可以获得类似的直觉。在接下来的几个月里,“实际上已经有几十篇论文在寻找使用某种机器学习的强力镜头。“Nord说。 


而且这只是天文学越来越多的实现的一部分,人造智能战略提供了一种强大的方式来在PB级数据中查找和分类有趣的对象。沙文斯基说,“我认为在这个时代将会发生‘哦,我的上帝,我们有太多的数据。‘这种事情”- Joshua Sokol


神经网络学习化学合成的艺术


有机化学家是落后的专家。像主厨一样,从成品菜的视野开始,然后研究如何制作,许多化学家从他们想要制作的分子的最终结构开始,然后考虑如何组装它。德国明斯特大学研究生Marwin Segler说:“你需要合适的成分和一个方法来组合它们。” 他和其他人现在正在将人工智能(AI)带入他们的分子厨房。


他们希望AI可以帮助他们应对分子制造的关键挑战:从数百个潜在的构建块中选择,并连接数千个化学规则。几十年来,一些化学家已经精心编程了具有已知反应的计算机,希望能够创建一个可以快速计算出最容易分子配方的系统。然而,塞格勒说,化学“可以非常微妙。则很难以二进制的方式写下所有规则。“ 


所以Segler,以及明斯特的电脑科学家Mike Preuss和Segler的顾问Mark Waller转向AI。他们设计了一个深入的神经网络程序,而不是通过硬化和快速的化学反应规则进行编程,而是从数百万个例子中自行学习如何去进行反应。“你提供的数据越多越好,”Segler说。随着时间的推移,网络学会了预测合成中所需步骤的最佳反应。最终,它提出了自己从零开始制造分子的食谱。

 

三人测试了40个不同分子靶标的程序,与传统的分子设计程序进行了比较。而在常规计划中,在2小时的计算窗口中提出了合成目标分子22.5%的解决方案,AI在95%的时间里得出结论,他们今年的一次会议上报道。即将搬迁至伦敦在制药公司工作的塞格勒希望通过这种方法来改善药物的生产。


加利福尼亚州帕洛阿尔托的斯坦福大学的有机化学家保罗·温德(Paul Wender)表示,现在来看看塞格勒的方法将会如何。但是,正在将AI应用于综合的Wender也认为“可能会产生深远的影响”,而不仅仅是建立已知的分子,而在于寻找新的分子。塞格勒补充说,人工智能不会很快取代有机化学家,因为他们可以远远超过预测。像用于化学的GPS导航系统一样,人工智能可能对寻找路线很有好处,但是它本身不能设计和执行完整的综合。

 

当然,AI开发人员也对其他任务进行了培训。


原文地址:

http://www./news/2017/07/ai-changing-how-we-do-science-get-glimpse


 · end · 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多