分享

生产数据的“工业特征” | 基础8

 昵称33542116 2020-03-11


定场诗

无限荷香染暑衣,阮郎何处弄船归。 

自惭不及鸳鸯侣,犹得双双近钓矶。


(本篇偏长,欲了解核心内容,可直接拉到最后的“一言以蔽之”部分。)

所有的智能制造都要以“数据”为基础,流程工程学对智能制造的最大贡献之一,就是认识和理解数据的“工业特征”。

什么是数据的“工业特征”?

在企业实施智能化项目的层面,从数据分析挖掘角度,可以把数据特征分为以下三类:统计特征机理特征工业特征

统计特征:通过数学统计分析方法,得到数据统计信息以及数据间的关联关系,例如:平均值、方差、众数、中位数、A与B正相关等等。

统计特征的提取往往只需要数学方法,不关心数据本身的物理含义,这类特征是数据分析挖掘的基础。

机理特征:通过机理分析或原理分析方法,获得的数据间的因果关系,例如:转炉吹氧量与终点温度的关系、轧钢过程板坯温度与轧制力的关系。

机理特征是机理模型的“数据化”,不同企业机理特征的定量关系可能是不一样的,但定性关系一定时是一致的。

工业特征:基于工业场景的决策逻辑,通过数学建模,获得的数据间的逻辑关系。

这么解释有点抽象,举个小例子,说明一下工业特征与统计特征和机理特征有什么不同。


在精炼工序操作过程中,经常出现一种情况,由于转炉出钢温度偏高,精炼需要假如调温废钢进行降温处理。

通过历史数据统计,得到调温废钢加入量的平均值、方差、使用比例等,这是典型的统计特征;同时,我们可以通过相关性系数的计算方法,获得废钢加入量与精炼出站温度的相关性,这也是统计特征。

我们还可以换一种特征分析的方式,建立废钢熔化过程的能量平衡模型,获得废钢加入量与出站温度的因果关系,这就是机理特征。

但是,基于某企业的实际生产数据,统计结果是调温废钢加入量与出站钢水温度在数值计算上表现为不相关,但机理模型分析的结果却是具有显著的因果关系,真实情况是怎样呢?

当我们还原了到操作场景中的具体决策过程,发现一个有趣的现象,精炼的四个班组,甲班是在钢水进站后就加入了废钢,而丁班是在最后一次测温后、钢水出站前加入废钢,乙班和丙班的加入时间比较随机。这样甲班的数据最符合机理模型分析的因果关系,即废钢加的越多,出站钢水温度越低,但丁班恰恰相反,出站钢水温度越高,废钢加的越多,结果综合所有数据进行统计分析,废钢加入量与出站钢水温度在数据上表现为几乎不相关。

这种只有还原工业场景的决策过程,才能发现的数据规律,就是“工业特征”。


可能有些读者第一感觉是,这不是一个分类或者聚类的问题吗?

首先需要说明的是,为了易于读者理解,这里举了一个非常简单的例子,“简单”之处就是通过班组的标识,为不同数据做好了标签,但工业场景中,大部分类似的问题是没有明确的标签的,例如转炉二次吹炼与终点温度和氧含量的关系,班组分类分析的结果也不明显,基于数据的聚类也难以找出有效的数据规律。

这类问题的本质是数据之间、操作之间的非线性耦合关系的问题,如果没有这个层面的认识,一方面,非常容易忽视这些问题的存在,另一方面,更没有办法找到恰当、合理的解决途径。

为了使广大的工程技术人员能够清晰的认识到,工业数据的分析不仅限于统计特征和机理特征的提取,还有工业特征的提取,“流程工程学”,基于对流程工业复杂系统的理解,通过对流程工业生产过程的规律分析,总结了三类典型的“工业特征”:


(1)“涨落”现象


该特征表现为几乎所有的数据都存在波动,例如:虽然加热炉出坯温度有制度要求,但实际出坯温度会在一个范围波动,同样的,时间因素、成分数据、质量水平、单位成本等等,在生产过程中一直是波动的。

这个现象称为涨落现象,而不叫波动性或稳定性呢?

这就涉及到这类工业特征的本质特点:数据的核心特征不是平均值或者方差,而是“最差值”,就像河道里的水位一样,决定河床深度的不是平均水位,而是最小水位。

什么是“最差值”?为什么“最差值”是数据的核心特征?

如果某参数的数值越低越好,那高值就是最差值,例如:连铸中间包钢水温度,我们希望低温浇铸,温度高了容易拉漏,这时候钢水温度较高的值决定了连铸机拉速,较高值出现的次数也决定了调整拉速的次数,乃至铸坯出现质量问题的风险,而钢水温度的平均值和方差却难以全面、有效的反应这些信息。

认识到“涨落”现象,使我们在分析数据时,不止要关注统计特征,而且要还原其工业上的物理意义,关注其波动范围内,不同取值而引起的不同决策过程,从而获得更加全面、真实的数据分析结果。


(2)非线性耦合关系


目前已有的相关性分析方法,都有一个假设前提,就是两个因素的线性相关,对于两个因素的非线性相关分析,成熟有效的方法有限,而对于多个因素耦合且非线性相关,目前还有相应的数学方法,但工业应用中,绝大部分问题恰恰是这类多因素耦合的非线性相关问题。

这就导致绝大多数情况下,数据相关性分析需要依靠专业的机理分析。从上面对精炼过程调温废钢加入量与出站温度关系的分析,就能看出,机理分析具有很大的局限性。

根本原因在于,实际的工业过程,比机理模型所能涵盖的内容,要复杂的多,这里不只是时间维度上的复杂,还包括参数多样性和不确定的复杂。

正是因为这样的复杂性,针对这类数据特征的分析,就不仅仅是套用机理模型,更要还原到工业场景中进行解剖。


(3)开放-不可逆性


这类工业特征的分析比较复杂,这里仅分享下如何认识这类问题。

还是举个小例子,有两种情景:

情景一:某炉次转炉TSC测温为1650℃,符合规程要求,直接出钢,经过RH真空处理后,正好是精炼终点要求的1590℃;

情景二:另一炉次转炉TSC测温为1630℃,温度偏低,补吹后出钢,经过RH真空处理后,精炼终点温度也是1590℃;

经检测,两个炉次常规成分检测结果也一样,问:两个炉次的钢水质量一样吗?

在目前的生产过程,由于检测结果是一样的,自然认为钢水质量也是一样的。

但问题往往出在检测手段之外,例如上例:情景二中,钢水中的夹杂物要比情景一的多,钢水受污染更严重,这个问题到连铸可能还反应不出来,但到了热轧或冷轧,就会暴露出来,进而体现为质量的不稳定。

这就是典型的“开放-不可逆性”的工业特征,产品最终质量不是完全由某些节点检测所能体现的,而是由整个加工过程所决定。

而加工过程一旦形成“某种结果”,即使通过其他手段改变了某些指标,也并不能完全抵消“某种结果”所产生的影响,这就是流程工业的“开放-不可逆性”。

这类工业特征在质量追溯的项目中非常关键,如果仅仅是“指标对指标”的分析,很多问题难以追溯到相应的原因,更难以找到问题的根本原因。


三类典型工业特征问题的总结,是流程工程学理论为智能制造中“数据分析”做出的贡献。

正是基于以上分析和分解,使我们在面对有关“数据分析”的工程项目时,针对那些看似不可知、不可控的问题,可以做到有的放矢、有路可循。



如何在工程实践中,提取和解析数据的“工业特征”呢?

本文给出的方法是:决策调研+逻辑模型

这里不得不说,工程实践与具体工业场景紧密结合的重要性。

只有深入调研,了解现场的决策过程,才能建立合理的逻辑模型,来解构工业特征。

同时,又不能拘泥于现场调研,通过调研,即使可以完全理清现在的决策过程,不可能预测未来可能的决策过程,但是,工业过程的工艺更新和管理完善是持续进行的,只有能够从根本上找出工业过程的内在逻辑,才是工业特征的根本目的。

因此,要想做到工业特征的提取,调研决策过程是基础,构建逻辑模型是关键,缺少模型的支撑,所提取的工业特征都具有时间局限性。


如果把工业特征与统计特征和机理特征放在一起对比,工业特征是后两者的补充,在工程实践中,属于“万里长征的最后一公里”。

假如粗略估计,在数据分析挖掘的工作中,统计特征的提取占60%,机理特征的提取占35%,工业特征的提取工作将不足5%。但是,绝大多数做的不错的项目,但应用效果却越来越不好、项目模型无法迁移,基本都是忽略了这5%的工作,结果“最后一公里”走的异常艰难。

希望通过本文对流程工程学理论的一点分享,为各位大佬补上这“最后一公里”的路标,毕竟,有志于“为山九仞”者,都不想“功亏一篑”。

一言以蔽之

针对数据分析工作,需要做统计特征、机理特征和工业特征三方面的提取。
工业特征是基于工业场景的决策逻辑,通过数学建模,获得的数据间的逻辑关系。
从流程工程学理论出发,典型的工业特征有三类:“涨落”现象、非线性耦合关系、开放-不可逆性。
提取和解析工业特征的方法是“决策调研+逻辑模型”。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多