分享

基于数据驱动的机器学习在固体地球科学中的应用综述

 LibraryPKU 2019-09-06
通过固体地球科的不同领域了解球的行为是一项日益重要的任务。于了复杂相互作的和度的过且几乎地球有的部分都法直使得极为困难可用高和机模拟望,但如何利用些技术力对地球内部获得更解本身就机器学面可以发挥键作Bergen K.等回顾了域的现状就如何扩大加快进展提了建相关研9年3月表于Scinc。

固体地球科学(sEg)既是数据驱动的又是模型驱动的领域。地球科学家面临的最大挑战之一是如何尽可能多地提取有用的信息,以及如何从数据和模拟以及两者之间的相互作用中获得新的见解。机器学习(ML) 将在这项工作中发挥关键作用。ML 提供了一套工具来提取知识并从数据中得出推论,其算法旨在从经验中学习并识别数据中的复杂模式和关系。

ML算法的两个主要类别是有监督学习和无监督学习。在有监督学习中,ML算法“学习”识别模式使用已知示例进行一般预测,无监督学习方法学习数据集中的模式或结构,而不依赖于标签特征。无监督学习通常用于数据集中的探索性数据分析或可视化,其中没有或很少有标签可用,涉及降维和聚类两种途径。用于监督和无监督学习的许多不同算法各自具有相对的优点和缺点。算法选择取决于许多因素。虽然在高度精确的图像识别系统中可能不需要可解释性,但是当目标是获得对系统的物理洞察时,是至关重要的。

1. 固体地球科学中的机器学习

几十年来,科学家们一直在将技术应用于固体地球科学中的问题。在研究中,研究人员已经利用了ML处理各种各样的任务,数据驱动的发现,即从数据中提取新信息的能力,是ML用于科学应用的最令人兴奋的能力 之一。ML 为科学家们提供了一套工具,用于发现科学数据集中不易发现 的新模式、结构和关系。建模和反演也可以提供自动预测的能力,而ML 用于自动化,建模或反演可能会产生新的见解和基本发现。

2. 监督学习的方法和趋势

监督学习是一组功能强大的工具,已经成功地应用于自动化、建模、 反演和发现等主题的应用中。研究者用ML算法组织了最近在固体地球科学中的监督学习应用,大致按照模型复杂度排序。

2.1 逻辑回归

目前固体地球科学在逻辑回归的相关研究有:

(1)区分地震信号和爆炸信号。

(2)地震注入井和抗震井区分。

(3)诱发地震风险较高的相关地质因素识别。

2.2 图形模型

地球科学中的许多数据集具有时间分量,例如地震仪记录的地面运动时间序列数据。尽管大多数 ML算法可以适用于时态数据,但某些方法(如 图形模型)可以直接模拟时间依赖性,例如隐马尔可夫模型(HMM)和动态贝叶斯网络(DBN)。隐马尔可夫模型(HMM)已应用于高山滑坡、 火山信号、区域地震和诱发地震的探测和分类。动态贝叶斯网络(DBN) 是另一种推广 HMM 的图形模型,也被用于地震检测。

2.3 支持向量机

支持向量机(SVM)是一种二元分类算法,用于识别来自两个类的训练数据之间的最佳边界。运用支持向量机的案例有:

(1)求解温度场,研究地幔对流过程

(2)预测地幔流动停滞的程度

(3)地震事件中地震强度的快速估计

(4)区分地震和爆炸以及连续地震数据中的地震检测

2.4 集成学习

决策树是一种学习分段常量函数的分类和回归的监督方法,相当于一系列可以由二叉树结构可视化的if-then规则。随机森林(RF)是一种集成 学习算法,可以通过在随机决策树的集合(“森林”)中以投票来学习复杂的关系。在这方面的案例有:

(1)地质测绘

(2)改进使用遥感地球物理数据反演的三维地质模型

(3)识别应力降和峰值地面加速度之间的预测关系

(4)学习非线性、非参数地面运动预测方程(GMPES)

(5)描述地下裂缝模式的拓扑结构

2.5 神经网络

人工神经网络(ANNS)是一种松散地模拟大脑中生物神经元相互连接网络的算法。人工神经网络模型表示为一组由权重连接的节点(神经元)。每个节点从上一层获取加权线性组合的值,并应用非线性函数生成传递到下一层的单个值。“浅”网络包含一个输入层(数据)、一个隐藏层和一个输 出层(预测响应)。ANNS 可以用于回归和分类。相关案例包括:

(1)纵波传播时间数据中估计一维纵波速度结构和模型不确定性

(2)根据强运动数据估计震源参数

(3)用来估计短周期反应谱

(4)模拟地面运动预测方程

(5)评估震源机制和震源位置的数据质量

(6)执行噪声层析成像

(7)区分地震运动和用户活动引起的运动

2.6 深度学习网络

深度神经网络(DNN)或深度学习是经典人工神经网络的扩展,它包含多个隐藏层。深度学习并不代表单一算法,而是具有多种网络架构的广 泛方法,包括有监督和无监督方法。深层架构包括多个处理层和非线性转换,每层的输出作为输入传递给下一层。受监督的DNN 同时学习特征表 示和从特征到目标的映射,从而实现良好的模型性能,而无需精心选择的特征作为输入。然而,训练深度网络还需要拟合大量参数,这需要大的训 练数据集和技术来防止过度拟合模型。除了DNN,常用的还有卷积神经网 络(CNN),递归神经网络(RNN)。

图1  领域专家和机器学习使用的函数空间

3. 无监督学习的方法和趋势

3.1 聚类和自组织映射

目前有许多不同的聚类算法,包括  k-均值、层次聚类和自组织映射(SOMs)。SOM是一种无监督神经网络,可用于降维或聚类。相关案例有:

(1)运用 SOM 识别关键的地球物理特征

(2)对地震属性进行降维后采用 SOM 进行聚类,从地震属性中识别地质特征

(3)地震波形数据的特征选择

(4)识别岩性

(5)在半监督方法中,运用 SOM 检测岩崩和火山构造事件

(6)地震事件分类

3.2 特征学习

无监督特征学习可用于学习数据集的低维或稀疏特征。相关研究案例有:

(1)用自动编码网络学习地震波形的紧凑特征

(2)学习可用于相填图的聚类算法的特征

(3)将非负矩阵分解和 HMMS 结合起来学习地震波形的特征

3.3 字典学习

稀疏字典学习是一种表示学习方法,它以基本元素或原子以及这些基本元素本身的线性组合的形式构造一个稀疏表示。

3.4 深度生成模型

生成模型是一类 ML方法,用于学习数据集上的联合概率分布。生成 模型可以应用于无监督和监督学习任务。最近的工作探索了深层生成模型的应用,特别是生成性对抗网络(GAN)。深度生成模型,如深度渲染模 型、变分自动编码器(VAE)和GAN 是分层概率模型,具有抽象能力, 能加快学习进度。深度生成模型的无监督学习能力对地球物理学中的许多 反演问题特别有吸引力。

4. 其他技术

其他常见的还有强化学习、快速近邻搜索技术、网络分析技术、图形聚类技术、PageRank(一种流行的链路分析算法)等。

图2  机器学习方法及其应用

 5. 建议和机会

(1)创建基准数据集。在理想情况下给定的问题域内,研究团体可 以使用几种不同的基准数据集,以避免过于狭隘地关注算法开发。

(2)开放科学。采用开放科学原则将更好地定位固体地球科学社区,以利用人工智能的快速发展。

(3)机器学习解决方案,新模型和架构。最近,可解释的DNN 架构基于对地球科学中反问题的分析构建,有可能减轻不适定性,加速重建(训练后)并适应稀疏(约束)的数据采集。

(4)地球科学课程设置。可以招聘受过数据科学培训的学生从事地球科学研究,通过确定共同利益和互补能力,可以利用跨学科研究会议来促进合作。


成果来源

Bgn K. J.osn P. , Maren etal. Mahnlarir daa-rvsovislath gosince. cince093363:eaau33.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多