分享

推荐阅读|工业大数据分析方法论:基于CRISP-DM方法论

 阿明哥哥资料区 2019-07-19
编者按:如何满足不同行业、不同发展阶段的企业的独特需求呢?需要涉及到根据不同企业的实际情况来制定转型策略了。两化融合、智能制造成熟度模型、跨行业数据挖掘标准流程等都是可以用来帮助企业制定策略、做出数字化转型的规划和路线图的方法和工具。本公众号会陆续推出系列文章介绍此类工具。

数据从信息技术行业产生的那一刻起就一直存在,信息技术是基于信息的,而信息是来自于数据的。数据挖掘,数据仓库,商务智能已经被众多企业实施了很多年,并且在很多年以前就承诺要帮助业务获得更多的价值。但是我们也听到了很多企业在实施商业智能和数据仓库过程中的挑战。我们经常听到企业实施数据仓库和商业智能项目的失败率超过50%甚至70%。就像JeffSmith(IBM的首席信息官所说)“数据仓库和商业智能系统占据了CIO预算中的巨大的部分,并没有产生对应的业务价值”是什么导致数据仓库和商业智能解决方案不适用于现在的情况了呢?我们可以从行业经典的数据挖掘的方法论(CISP-DM)开始探讨。

CRISP-DM方法论

CRISP-DM是一种广泛采用的数据挖掘分析方法论,由SPSS、Teradata等公司起草于1999年发布第一版。该方法将一个数据分析项目分为业务理解(Business Understanding)、数据理解(DataUnderstanding)、数据准备(Data Preparation)、建模(Modeling)、验证(Evaluation)、部署(Deployment)等6个阶段(如下图所示)的迭代过程。

对多数数据分析工作来说,人们并不希望上述反复交替的过程,因为反复交替意味着工作的重复和低效。而这种现象出现在公认的标准中,是因为分析过程存在极大的不确定性,这样的反复往往是不可避免的。

长期以来,很多人用 CRISP-DM 指导工业大数据分析的过程。在很多场景下,这个模型的原理是可行的、行之有效的,但是当我们把它用于工业过程数据分析时,却发现问题的复杂度会急剧上升,各个步骤中反复的次数大大增加,验证评估不合格导致从头再来的情况非常普遍。这些现象,导致工业大数据分析工作的效率显著下降。

CRISP-DM 模型的工业领域落地难点

CRISP-DM 模型在工业领域的应用遇到一些问题,造成了该模型落地困难,主要的难点表现在以下三个方面:

1)工业数据关联关系复杂

无论是生产产品的工厂还是作为工业产品的设备,本质上都是多个要素互相作用所组成的系统,而它们的运行环境,也可以看成更大的系统。所以,我们可以用系统的观点,统一地看待工业大数据所针对的工业对象。

研究一个工业系统,要把注意力集中在多个要素互相影响、互相作用,否则只会得到片面甚至错误的结论。正如列宁所言:“如果不是从整体上、不是从联系中掌握事实;如果事实是零碎和随意挑出来的,那它们就只能是一种儿戏,或者连儿戏也不如。”

2) 工业数据质量差

从某种意义上说,工业大数据是工业系统在数字空间的映像。要想通过数据认识工业对象或过程,数据本身应该体现对象的系统性。然而受到现实条件的约束,数据往往是工业对象不完整的体现。而且很多数据来源于某些特定的工作点上,参数波动中包含大量检测误差、数据的信噪比低。这就给数据分析过程带来了极大的不确定性、并容易对分析过程产生误导。

3) 工业场景的分析要求高

工业界对不确定性的容忍度很低,这就要求数据分析结果尽可能地准确可靠。分析要求高而数据条件差、对象复杂性高是分析过程中必须面对的矛盾。在数据分析的过程中,这一矛盾表现为容易出现各种假象和干扰、分析结果总是难以满足用户的使用需求等。要解决这些矛盾,必须将工业过程的领域专业知识、业务机理与数据分析过程有机地融合起来,贯穿于数据分析的每一个阶段,这也使得工业大数据对业务理解的深度有较高的要求。

在工业大数据分析过程中使用 CRISP-DM

CRISP-DM 方法基本适合工业大数据分析,但必须补充进新的内涵才能让方法有效、让工业大数据分析成为有效的经济活动。如前所述,工业大数据分析过程的效率低下,很可能是大量无效的循环往复导致的。所以,工业大数据分析方法的关键,是如何减少不必要的反复、提高数据分析的效率。

在工业大数据分析过程中用好 CRISP-DM,关键是减少上下步骤之间的反复、避免单向箭头变成双向,还尤其是要尽量减少模型验证失败后重新进入业务理解这样大的反复。

减少无效反复的重要办法是采用工程上常见的“以终为始”的思维方式。在进行深入研究之前,要进行一个相对全面的调研,从如何 应用、如何部署开始,反推需要进行的研究。

“反复”是探索过程的特点以及知识和信息不足导致的。数据分析是一个探索知识的过程,不可能彻底消除这种现象。所以,我们需要追求的,是减少不必要的探索。其中,“不必要的探索”一般是由于数据分析人员没有充分掌握已有的领域知识和相关信息导致的。所以,要减少不必要的探索,关键是数据分析知识和领域知识、相关信息的有机结合。

实际分析工作中又不能假设或者要求数据分析人员事先对这些知识和信息有着充分的理解。所以,要解决这个问题,关键是设法让分析师在分析的过程中,更加主动、有针对性地补充相关知识,即所谓“人在环上”。

最后,要努力提高数据分析的自动化程度,充分利用计算机的计算和存储能力、减少人为的介入。由于人的介入能够使得分析效率大大降低,减少人的介入,也就能大大提高工作的效率。

CRISP-DM 模型在工业大数据的中的应用推进,主要分以下几个阶段:


1业务理解阶段:该阶段的目标是明确业务需求和数据分析的目标,将模糊的用户需求转化成明确的分析问题,必须清晰到计划采取什么手段、解决什么问题,要将每一个分析问题,细化成明确的数学问题,同时基于业务理解制定分析项目的评估方案。

2) 数据理解阶段:该阶段是目标建立数据和业务的关联关系,从数据的角度去深度的解读业务。包括发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设;识别数据的质量问题;对数据进行可视化探索等。

3) 数据准备阶段:该阶段的目标是为数据的建模分析提供干净、有效的输入数据源。首先基于业务目标筛选有效数据,筛选的数据能够表征业务问题的关键影响因素;其次对数据的质量进行检查和处理,处理数据的缺失情况、异常情况等;最后对数据进行归约、集成变换等,输出建模可用的数据源。

4) 数据建模阶段:该阶段是基于业务和数据的理解,选择合适的算法和建模工具,对数据中的规律进行固化、提取,最后输出数据分析模型。首先基于业务经验、数据建模经验、对业务问题进行逻辑化描述,探索解决问题的算法,反复迭代选择一个最优算法方案;其次基于输入数据来加工关键的因子的特征变量,作为建模输入变量,建立有效可靠的数据模型。

5) 模型的验证和评估阶段:首先从业务的角度评估模型的精度问题,是否能够满足现有业务的要求;其次分析模型的中影响因子的完备性,为模型的下一步迭代指明优化路径;最后考察模型的假设条件,是否满足实际落地的条件,为模型的部署进行可行性验证。

6) 模型的部署阶段:在该阶段中,首先要基于分析目标,制定模型的使用方案和部署方案,并提前为模型的部署做好环境的准备工作;其次为模型部署过程中出现的质量问题、运行问题、精度问题等,提前做好预备方案;

最后基于模型试运行后的结果,制定模型的持续优化方案。

寄语

随着国家政策激励以及工业大数据应用模式的逐步成熟,工业大数据进入快速发展时期,未来中国工业大数据市场将持续快速增长。

工业大数据技术产品创新正逐渐从技术驱动转向应用驱动,广阔的市场空间和大量的应用需求为工业大数据发展提供了强大的驱动力。

工业大数据将成为推动制造业创新发展的重要基础,为中国的工业升级和转型注入强大动力。企业在新技术条件下,实现贯穿于产品设计、生产、管理、仓储、物流、服务等全部流程和环节的大数据采集、存储、管理和分析,从大数据中挖掘出其中的隐含价值,达到提升生产效率、提高产品质量、增强管理能力、降低生产成本等目的,提升了企业生产力、竞争力和创新力。

伴随着工业大数据分析技术的逐渐成熟、产业领域的逐渐成型、应用场景的不断延伸、观念意识的不断深化,工业大数据必将迎来高速发展的历史阶段。我们抓住发展机遇,努力推动中国工业大数据的发展,针对企业的个性需求,结合中国工业发展的自身特点,走出中国特色的工业大数据创新路线。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多