分享

数据挖掘

 求是1025 2023-03-31 发布于山东

数据挖掘是计算机科学的一个交叉方向,与人工智能、机器学习、统计学、可视化技术、模式识别和数据库等技术相关,主要通过原始数据分析、数据库与数据管理、数据预处理、模型和推理考虑、复杂度考虑、统计、在线分析处理、机器学习、专家系统和可视化技术等过程完成上述任务。数据挖掘主要有数据准备、规律寻找和规律表示三个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。数据挖掘的分析方法包括分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化,以及复杂数据类型挖掘。这七种分析方法可以分为两类:直接数据挖掘和间接数据挖掘。直接数据挖掘利用可用的数据建立一个模型,这个模型对于其他数据,对一个特定的变量进行描述。间接数据挖掘是没有选出某一具体的变量用模型进行描述,而是在所有的变量中建立起某种关系。分类、估计、预测属于直接数据挖掘;后四种属于间接数据挖掘。数据挖掘的完整步骤包括:理解数据和数据来源、获取相关知识与技术、整合和检查数据、去除错误或不一致的数据、建立模型和假设、实际数据挖掘工作、测试和验证挖掘结构,以及解释和应用。数据挖掘在各领域的应用非常广泛。一般较常见的应用案例在零售业、直销行销界、制造业、财务金融保险、通信业以及医疗服务等。

在材料结构的理论研究中,数据挖掘方法基于已知晶体结构的相关性,预测未知材料的结构,最早由G.塞德[注]等人提出。传统的基于结构数据库的预测方法(data-center方法)主要利用周期表中具有相似的原子半径或者电负性的元素替换新的晶体结构材料。数据挖掘方法将传统的基于结构数据库的预测方法与第一性原理计算结合起来,通过计算具有不同化学成分已知晶体结构之间的相关性(即累积函数,cumulant function),确定未知的、具有特定元素配比的晶体材料的可能具有的结构的概率函数,并通过第一性原理计算进行校验,从而预测未知材料的稳定结构。数据挖掘方法是一种引入了机器学习思想的结构预测方法,在预测合金材料方面取得了一些进展,不仅可以预测最稳定的构型,而且一些近邻的构型的信息也可以获得。此外,基于数据挖掘方法还可以发展新的原子对势,用于分子晶体结构的搜索。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多