基于数据科学的矿产资源定量预测的理论与方法探索 左仁广 中国地质大学(武汉)地质过程与矿产资源国家重点实验室 作者简介:左仁广,博士,教授,博士生导师,主要从事数学地质与矿产勘查方面的研究。 导读: 内容提纲 0 引言 1 数据科学与矿产预测 数据科学(data science)是研究数据的科学,是科学研究继实验归纳、模型推演、计算模拟后的第四研究范式。数据科学最初由Naur在Concise surveyof computer method中提出,指从数据中提取信息和知识以更好地理解数据本身的科学。数据科学是一种跨学科的数据挖掘方法,它结合了统计学、计算机科学等众多领域以及科学方法和过程,以便在不需要人类交互的情况下,以自动化的方式分析和挖掘数据。数据科学刚提出时,并没有引起人们的关注,直到Mattmann从计算机科学与技术视角讨论数据科学的内涵,把数据科学纳入计算机科学与技术专业的研究范畴,以及Cleveland主张数据科学是统计学的一个重要研究方向后,数据科学才受到科学家的广泛关注。数据科学的数据链包括数据、信息、知识、空间决策等,其主要流程为利用数据挖掘方法从数据中获得相关过程或事件的信息,通过对信息进行分析,获取相关知识,并在此基础上进行空间决策。数据科学的主要方法包括数据统计、数据挖掘、数据洞察与预测。其中,数据统计主要是指传统的统计方法,其目的是对数据进行排序、过滤、计算和统计,以揭示有意义的信息。数据挖掘是指采用关联分析、聚类分析、因子分析和传统的人工智能算法,从数据中发现未知的、潜在的、有用的模式或信息。数据洞察与预测是利用诸如深度学习等先进算法对数据进行挖掘与集成融合,提高分类或预测能力以支持空间决策。 矿产预测是指在成矿动力学背景和成矿规律研究的基础上,对研究区的地质、地球物理、地球化学、遥感、钻探等数据进行分析,识别和提取成矿-示矿信息,使用数学模型对成矿-示矿信息进行集成融合,在此基础上分析研究区内可能产出的矿种和矿床类型,并圈定找矿远景区,估算未发现矿床数和潜在资源量。矿产预测的主要目的和任务可概括为“有什么类型的矿床产出”“在哪里找”,以及“能找到多少”等3个关键科学与技术问题。矿产预测已从定性走向了定量,从数据稀疏型走向了数据密集型,亟须数据科学支撑。 矿产预测最初以定性预测为主,主要使用相似类比法分析预测区内是否有与已发现矿床相似的成矿地质环境,判断预测区是否有相同的矿床产出。20世纪80年代,随着地理信息系统(简称为GIS)的发展,矿产预测逐步走向了定量预测评价阶段,这一阶段的特点是GIS技术被应用于矿产预测的全过程,包括矿产预测数据收集、预处理、证据图层制作,以及找矿远景区的圈定等,比如中国实施的全国矿产资源潜力评价项目全过程使用GIS。在这一阶段,很多新方法和模型被引入到矿产资源定量预测中,这些方法根据如何确定证据图层的权重可分为知识驱动和数据驱动两大类。知识驱动是在成矿动力学背景和成矿规律的研究基础上,建立地质找矿模型,根据专家知识和经验,对证据图层赋予权重并圈定找矿远景区。数据驱动主要利用数学模型定量度量证据图层和矿床的空间关系,并对证据图层赋值,在此基础上圈定找矿远景区。当前比较流行的是基于成矿系统的矿产资源定量预测方法,该方法的首要任务是描述成矿系统,刻画控制矿床形成与保存的关键要素和过程,包括源、运、储、变、保等。在此基础上,综合利用多种方法识别和提取这些关键过程或变量,并对这些过程或变量进行集成融合,圈定找矿远景区。 进入21世纪,一方面,随着地质信息化程度的提高,我们已经积累了大量的地质、地球物理、地球化学、遥感和钻探数据,地质科学进入了地质大数据时代;另一方面,机器学习尤其是深度学习的迅猛发展,在处理地质时空大数据中表现出极强的分类和预测性能。覆盖区和深部找矿中的深层次找矿-示矿信息挖掘与集成亟须机器学习和深度学习支撑,矿产预测也从传统的知识驱动与数据驱动发展到当今的基于数据科学的新阶段。基于数据科学的矿产预测是在数据驱动模型基础上发展和演变而来的,但两者不完全相同,前者更依赖于数据本身,可以直接输入原始的地质找矿大数据,不需要识别和提取证据图层,因为深度学习模型可直接从原始数据中进行特征提取和信息集成融合。如Xiong等尝试使用原始的地质、地球物理、地球化学等42个预测变量作为深度学习的输入,圈定了找矿远景区。而后者往往需要依据地质找矿模型,分析和挖掘地质找矿数据,提取成矿-示矿的证据图层,再利用数学模型对证据图层进行集成融合。 地学数据科学是地球科学与数据科学的交叉学科,主要是指处理地学数据的科学,其目的是更好地理解地球和行星的过去、现在和未来,并预测自然资源、评价环境和灾害。地学数据科学有别于其他学科的数据科学,主要表现在其处理的数据为典型的空间大数据,具有空间异质性,因此,地学数据科学方法如数据统计、数据挖掘和数据洞察与预测,都需要考虑研究对象的空间特征,尤其是空间异质性。对于矿产资源定量预测而言,数据科学可通过数据统计、数据挖掘、数据洞察与预测等对地质找矿大数据进行清洗、分析,识别出与矿床形成和保存有关的地层、构造、岩浆岩、古地理等有关的信息。然后对这些信息进行分析,挖掘与矿床成因及其时空分布相关的源、运、储、变、保等知识,并对这些知识进行集成融合,从而圈定找矿远景区,为进一步找矿提供空间决策。 2 基于数据科学的矿产资源定量预测理论与方法 基于数据科学的矿产资源定量预测的理论与方法是指利用数据统计、数据挖掘、数据洞察与预测等数据科学方法对地质找矿大数据进行分析与挖掘,揭示地质、地球物理、地球化学等空间模式与矿床的相关性,或通过对这些数据进行分析与挖掘,探测异常区域,以此圈定找矿远景区。 2.1 理论基础 基于数据科学的矿产预测的理论基础为相关性理论和异常理论(图1)。基于数据科学的矿产预测的核心是利用数据科学思维和方法揭示地质找矿大数据与已发现矿床间的相关性。矿床是多因耦合作用的产物,它们是地层、构造、岩浆岩等多个因素在特定的物理化学条件和特定的构造界面在时间和空间上相互耦合作用的结果。这些因素控制了矿床的形成以及产出区域,且与矿床的空间位置具有较强的相关性。因此,矿床与其周围的地层、构造、岩浆岩、古地理等有着密切的相关性,且这种相关性可反映在地质、地球物理、地球化学、遥感等数据蕴含的空间模式中。我们可通过数据科学方法,基于地质、地球物理、地球化学、遥感等地质找矿大数据,分析和挖掘地质找矿大数据的空间模式与已发现矿床空间位置之间的相关性,进而发现潜在的矿产资源。相关性理论为采用监督的机器学习方法挖掘地质找矿大数据与矿床的相关性来预测未发现矿床提供了理论基础。同时,矿床与控矿因素之间的相关性也是综合信息矿产资源定量预测的理论与方法的基础。基于数据科学的矿产资源定量预测的另外一个理论基础为异常理论。矿床是稀有地质事件,它相对于广泛存在的岩石而言,是非常稀少的,从异常的角度可认为矿床是具有最大经济价值的地质异常期。矿床是地质作用异常的产物,矿床与异常之间存在时空相关性,通过识别异常可发现矿床,它是地质异常矿产预测的理论基础。当研究区内没有或有较少的已知矿床,无法利用数据科学揭示地质找矿大数据与矿床空间位置的相关性时,可通过发掘蕴含在地质、地球物理、地球化学、遥感等数据中的异常信息,并对这些异常信息进行集成融合来寻找矿床。通常可用非监督的机器学习模型对地质找矿大数据进行特征提取和信息的集成融合,识别异常进而发现矿床。异常理论为采用非监督的机器学习方法识别地质找矿大数据蕴含的地质异常来预测矿床提供了理论依据。 图1 基于监督和非监督机器学习矿产资源定量预测 2.2 技术流程 图2 基于数学科学的矿产资源定量预测技术流程 2.3 矿产预测方法 图3 空间分析与异常识别提取证据图层 图4 主要的数据集成融合模型 3 不确定性 图5 矿产资源定量与预测不确定性主要来源 概念模型引入的不确定性是指在成矿模型或成矿系统中引入的不确定性。地质过程的复杂性和成矿作用的多样性等导致地质专家对成矿过程认识不完备或不全面,使得建立的矿床模型具有不确定性。模型是对客观事物的抽象表达,任何模型都有不确定性,不能完全正确理解和刻画成矿过程和关键地质要素,导致很多矿床模型存在争论,甚至某些矿床开采完后还存在较大争论。 预测数据引入的不确定性主要指所收集的数据本身具有不确定性。比如收集数据的种类、质量、精度等都会导致矿产预测结果的不确定性。数据的种类决定了可从数据中提取哪些与矿床时空分布有关的信息,进而决定数据对矿床预测结果的支撑程度,如缺失某种关键数据或从收集的数据中无法提取关键地质变量将难以支撑矿床预测结果。同时,数据的质量、精度决定了所提取特征的精细程度。 预测变量提取引入的不确定性是指从数据中提取与矿床空间分布相关的变量时,所选用的特征提取方法及其参数引入的不确定性,它们会进一步影响特征提取的结果。如传统统计方法只能识别高大全异常,而无法识别弱缓异常,导致异常信息不全,不能反映所有的异常信息,使得矿产预测结果具有不确定性,同时对所提特征进行赋值时,不同的赋值策略与方法也会引入不确定性。如Wang等采用蒙特卡洛模拟方法对预测变量进行赋值,发现不同的赋值导致预测变量权重和预测结果不同。 数据融合引入的不确定性是指利用数学模型进行多源找矿信息集成融合中引入的不确定性。数学模型通过线性或非线性的模型把多个预测变量进行融合,这个过程假设了地质变量间的相互关系,很难准确刻画预测变量间复杂的时空耦合关系,使得数据集成融合结果具有不确定性。很多模型中具有较多的参数,如深度学习的迭代次数、学习速率、隐含层层数等,这些参数是否最优,也会引入不确定性。此外,有些模型的使用需要满足假设条件,如证据权法需要预测变量间相互独立,然而实际中很难满足这一条件,导致矿产预测结果的不确定性。另外,在使用监督的机器学习进行矿产预测时,负样本的选择也会引入不确定性。 基于数据科学的矿产资源定量预测的基本流程可概括为构建地质找矿大数据,对数据进行分析与挖掘并提取成矿-示矿信息,利用数学模型对这些信息进行集成融合并计算找矿有利度或成矿概率等3个主要过程。在这个过程中,不确定性主要来源于地质找矿大数据、特征提取、信息集成融合等3个方面。 4 主要认识 此文献给恩师赵鹏大院士,庆祝先生90华诞,感谢先生多年来对我的教诲、支持与帮助。陈永清教授审阅了全文,提出了宝贵的意见;王功文教授帮助送审论文,一并表示感谢。 来源:地学前缘(中国地质大学(北京);北京大学) .第28卷第3期 2021年5月. |
|
来自: changyz001 > 《地质》