Cheers! / 健康养生 / 引力波研究,正在数据科学中御风前行

分享

   

引力波研究,正在数据科学中御风前行

2016-02-18  Cheers!
软件正在吞噬这个世界。从律师到医生,AI(人工智能)正在许多专业领域攻坚拔寨。现在,又轮到科学家来面对人工智能的挑战和机遇了。

引力波研究,正在数据科学中御风前行

自从1919年爱丁顿那场戏剧性的日食观测以来,广义相对论已经获得了科学家的广泛接受——它已经在本科物理学课堂上被教授了几十年。引力波最先是由爱因斯坦本人怀疑然后预言的,之前也已经在多种不同的天文系统中被间接观测到过(其中之一还获得了1993年的诺贝尔奖)。而LIGO上周公布的是人类第一次直接观测到引力波。这当然具有非常重要的意义。非凡的主张需要非凡的证据。LIGO的引力波探测绝对是非凡的证据,它跨越了十亿光年的时空,帮助我们证实了广义相对论的正确性。

然而,LIGO探测到引力波基本上符合大多数科学家的预期。事实上,人们一直在激烈地争论,在LIGO上花费十亿美元科研经费是否明智。如果LIGO没能探测到引力波,那才将成为一个更大的科学事件。那么,我们真的是花了十亿美元来证实了100年前的非凡主张(广义相对论)吗?

当然不是!LIGO让我们能通过一个全新的窗口(引力波)来观察宇宙。在这一历史时刻之前,几乎所有关于我们宇宙的科学数据都是通过电磁波(无线电波、微波、可见光、紫外线、X射线、伽马射线等)收集的。然而我们已经知道,宇宙中一些重要的东西可能并不发光,如黑洞、暗物质、暗能量等。为了更深入地了解宇宙,通过电磁波之外的方式研究宇宙是十分关键的。LIGO为一类新天文学(引力波天文学)开启了大门——正如无线电天线将我们带入了射电天文学时代一样。毕竟LIGO称自己是「天文台」,也渴望承担天文观测台的角色。

引力波提供了一种研究宇宙的新方式,但现在我们在数据科学中面临着巨大的难题。

要理解为什么引力波存在数据上的难题,我们需要了解LIGO的工作方式。LIGO可能是人类打造过的最先进、最精密的设备。其设计目的是探测引力波经过时对时空的轻微拉伸和压缩所引起的微小长度变化。LIGO非常精确,甚至可以检测到比原子核小1000倍的运动——这是有史以来科学尝试过的最小度量。

引力波研究,正在数据科学中御风前行

但测量的精度水平也存在自身的问题。该设备对噪声非常敏感。几英里外高速公路上的一辆汽车经过、科学家的走动、飞机飞过、随机地震事件等都会产生比潜在的引力波信号更强的振动。LIGO工程难题中的一个重要部分就是开发能过滤这些噪声的硬件和软件。这就是第一篇LIGO论文包含了一千多个共同作者的原因,他们中许多是工程师。

工程上,LIGO使用了机器学习算法来识别和预测数据中的噪声事件。例如,可以训练人工智能识别飞机越过头顶时或激光光路上反射镜的失准所引起的噪声尖峰,而不会将其误认为是真正的引力波信号。

即使能够滤除最容易识别的噪声事件,但仍可预期LIGO每年收集的500TB数据中的绝大多数依然是噪声。要将信号和噪声区分开,存在两种基本的方法。

第一,我们可以检测非常强的信号。这基本上就是上周见诸报道的。两个黑洞的融合过程所释放的能量超过了整个宇宙所有恒星发光能量的总和!如果这么巨大的能量是以可见光的形式释放,这两个13亿光年外的黑洞将在我们的天空闪耀如满月(这表明,如果我们像以前那样,只通过电磁波来观测宇宙,将会错过太多信息)。许多人认为这是一个罕见的事件,可能在很长时间内都不会重复。这一次只是我们运气好。

引力波研究,正在数据科学中御风前行

第二个方法更为实际,我们可以探测隐藏在噪声中的长期信号模式。我们可以检测「背景」引力波,这些引力波是宇宙大爆炸或星系团中的星系和黑洞不断碰撞与融合的长期运行过程所遗留下来的。随着时间的推移,这类信号的累积数据会越来越加深我们对其物理系统的理解。有了合适的物理模型,人工智能就能学会用这些数据与模型进行比对,很快预测出与新信号有关的天文事件。

引力波天文学的未来取决于我们能从嘈杂的数据中提取出多少内涵。

很长时间以来,天文学处理的数据的信噪比都很低。其中最广为人知的例子是SETI@Home,该项目致力于搜索隐藏在背景噪声内的潜在地外信号,这些信号由类似下图的望远镜收集到,这是位于阿雷西沃的大型射电望远镜。

引力波研究,正在数据科学中御风前行

SETI(搜寻地外文明计划)搜索算法并不复杂,但数据量过于庞大,需要大量的计算能力。因此有人想出了一个绝妙的主意,将计算任务分配给成千上万虽然开机但基本闲置的家庭/办公计算机

SETI@Home团队开发了一个「屏幕保护程序」,在计算机未被主动使用时(也就是当屏幕保护程序工作时)运行SETI搜索。尽管SETI@Home项目本身并没有找到任何外星人信号,但这个想法很有价值,可将世界上数百万台闲置计算机用来执行有用的任务,从物理学到药物研发再到管理新型货币系统。特别的,比如BOINC项目就是用来生成开源软件,任何项目都可以用它来向众包的计算机分配工作负载。

这催生了Einstein@Home项目。该项目的目的是分析LIGO数据以检测出潜在的信号。到目前为止,它已经分析了来自多个LIGO测试运行的数据,也发表了多篇经过同行评审的论文。Einstein@Home让我们看到LIGO的未来就是数据科学。但还远不止此。

Galaxy Zoo项目是人与计算机合作的绝佳案例。这一项目的背景是,星系的形状(圆形或螺旋状,中心有棒或无棒等)可以告诉我们很多与之相关的物理性质和历史信息。但计算机对星系形状进行分类时存在困难。再考虑到我们可观测的宇宙中存在超过一千亿个星系,对这些星系进行分类就成了一个重要但又非常困难的任务。Galaxy Zoo项目提供了一个让公众(市民科学家)可以对随机星系图片进行分类的网站。用户之间互相检查结果以保证质量。更重要的是,机器学习算法可以从人类的分类工作中进行学习,从而让计算机在这一特定任务上越来越智能。

可以想象,可将类似的方法应用到LIGO数据上——人类用户可以识别出LIGO数据中潜在的模式,然后「教导」计算机识别类似的模式。正如上面提到的,可以训练机器学习算法鉴别出噪声中的尖峰是由飞机飞越头顶时产生的。或许,融合中的黑洞所产生的「啁啾」中也存在一个可识别的模式。

这是科幻吗?事实上并不是,几个月前,西北大学就因此获得了NSF(美国国家科学基金会)的资金。

我们正生活在一个激动人心的时代。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。如发现有害或侵权内容,请点击这里 或 拨打24小时举报电话:4000070609 与我们联系。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>