分享

【技术前沿】钢铁工艺改进的大数据和分析

 柒国联军 2021-11-08

1 工业中的数学模型

1.1白箱子模型

工业环境中使用的数学模型并不是新的,已被广泛应用于不同的目的,比如建立冷轧机之类的复杂和多变量机器的模型。经典的模型是基于工艺的物理模型,这些模型可以参数化,在某些情况下,使用优化技术来找到最佳操作要点。这些模型通常需要的历史数据很少,维护起来很困难,而且它们不容易适应工艺的变化。

1.2基于规则的模型

另一种常用的模型是基于生产规则的,它具有推理引擎,允许在每个规则和函数中捕获专家知识。这可以检测具体的工艺情况,从而触发与其它系统的交互操作,或向操作人员发出警报。一般来说,它们是分析师和处理员配置捕获场景的规则和动作时,更容易处理的系统,但它们不具有学习能力或自动修改规则的能力,对工艺专家产生强烈的依赖性。

1.3机器学习(所谓黑箱)模型

机器学习并不是一门新的学科,但是它与当前系统的计算能力和大数据技术支持下处理大量数据的能力相结合,使得它在近年来已成为一种非常强大的工具。它被广泛应用于复杂的应用中,解决了以前无法想象的问题。这种协同作用为一种新型的数学统计模型打开了大门,即所谓的“数据驱动模型”。这种新型模型是使用历史数据“训练”的机器学习算法构建的。因此,没有必要详细了解基础物理的数学关系(尽管它在实践中非常有价值),在许多情况下,由于涉及无数变量和它们所带来的复杂性,实际上是不可能建模的。机器学习算法可以捕获数据关系的结构,并在某种意义上进行学习。

2 工业背景下的时间序列处理

时间序列是最常见的数据类型,因为它们是来自传感器和仪表系统的信号。

为了正确地处理时间序列,必须将它们与正在生产的产品相关联,并应确保和注册识别号和可追溯性。例如,在扁平材生产行业中,生产的产品是薄钢卷。当钢卷通过一道工艺时,比如穿过热轧机,时间序列的开始和结束在钢卷穿过热轧机这个过程的时候瞬间确定。

最后,诸如温度、速度、轧制力等等此类的变量是每个钢卷对应时间序列的碎片;从数学角度来讲,对应“n”个样本的向量,假定一个统一的时间采样。

为了获得对应于每个生产产品(此处为钢卷)的时间序列碎片,需要合并三级系统的可追溯性和跟踪信息。如果要将来自不同生产线的变量整合到数据集中,那么,可追溯性信息是过滤那些遵循特定工艺路径的观察值(钢卷)的基础。

问题是如何将表示时间序列的变量合并到模型中。也就是说,对于之前的例子,如果数据集的每一个观察值(行)都对应一个钢卷,那么,数据集中表示时间序列的每个变量都是多值变量,也就是说,它不是一个单一的值,而是一个样本向量,以这种方式处理数据是不可能的,因此有必要通过数学运算符将时间序列提交给一种称为特征提取的预处理,数学运算符的输入参数是向量,生成的结果是标量。

特征提取有很多种运算符,从简单的运算符(比如平均值、方差、最大值、最小值)到复杂的运算符(比如快速傅里叶变换、小波变换等)。

这些提取的特征与其它固有的单值工艺变量一起组成数据集的变量。但是,由于时间序列通常有噪声并且包含有冗余,因此需要将其提交给滤波程序,以决定是否将其纳入数据集中。

所以,必须要在提取的重要的但可能弱化的特征与提取的强化的但可能不重要的特征之间保持平衡。一些特征,比如中位数,受异常值的影响不会太大,而另一些特征,比如时间序列的最大值,却是脆弱的,容易受到影响。

统计异常检测特征的重要性——异常情况是偏离预期的或正常特性的一种形式。因此,异常检测会查看线索、比较属性,以发现异常形式。多数情况下,一个群组里有多个异常,不只是单一事件。

异常情况表明一个机器或工艺流程的某种中断或不正常操作。同样,对信号的分析有助于解决这一问题,通过开发模型来检测异常情况,并且向操作员发出警告和警报。

异常检测分为两部分:1)开发恰当的特性,并且2)把这些特性输入到检测特性中异常情况的统计和机器学习模型中。如果操作得当,检测到的异常将与现场的中断高度相关,并且可以用于创建误报率较低的警报。这种系统的复杂性似乎集中在统计部分,然而众所周知,特性选择在实际应用中是关键要素。

3 实际的使用案例

3.1预测热轧机中的机械性能

在钢铁工业中,钢的机械性能是不同类型产品中的主要区别特征。钢的抗拉强度、屈服强度和延伸率等性能是决定建筑行业或汽车行业使用哪种材料的重要参数。此外,这些性能也用于确定钢铁制造过程中自身使用的参数。

机械性能通常在物理测试实验室测量,在冷轧工艺流程结束时对材料进行取样。这种方法虽然可靠,但有几个缺点。首先,样本通常取自钢卷一端,由于工艺中固有的问题,这个位置钢卷指标的可变性最大;第二,沿着钢卷方向的机械性能会变化,这是目前无法辨别的;第三,递送的实验室结果不及时,所以很多产品被留存,这使得生产时间和成本增加。

因此,预测模型是有益和可取的,用于估计轧机出口处钢卷的机械性能,因为它允许在工艺下游操作并且校正偏差,所以可防止材料被降级。

由于机械性能很大程度上取决于钢的类型,因此开发了不同的模型,根据化学成分分为三种类型:铌钢(NB)、碳钢(C)、钒钢(V)。

对每种类型的钢进行了抗拉强度、屈服强度和伸长率的预测,总共有9个模型。评估模型适用性的标准如表1所示,设定了预测值与实际值之间偏差的公差范围以及该范围内预测的最小百分比,以认为模型是适用的。

图片

这种情况所使用的数据集包含有热轧(HRM)生产线的工艺数据,由大约7个月的运行期构成,并且包括工艺变量(温度、带钢速度、减小厚度等)和与所处理钢带的化学成分有关的变量。每个观察值(行)代表一个已被热轧机加工处理过的钢卷,其机械性能已在实验室中确定。根据钢的化学成分,将观察值分为上述三类。

所有数据集都要经过一个清理过程:识别出与机械性能无关的以及缺失值比例高的变量并丢弃;随后,根据变量的属性,具有缺失值的观察值要么被删除,要么使用任意值(例如列平均数)补充。检查生成的数据集中变量的分布,以确定出异常值,并且确定这些异常值是否表示测量误差、记录误差或真值,并作相应的处理。

将数据集分为训练子集和测试子集。对于每种类型的钢,采用一种叫作梯度增强回归的机械学习算法来预测其机械性能。通过训练子集对算法进行训练和交叉验证,然后使用测试子集对算法进行评估。对算法参数进行调整后,所有模型的最终得分均超过了设定的阈值(见表2)。

图片

3.2可逆热轧机前端弯曲预测

在热轧制过程中,钢板的厚度可减少到99%。在这个项目进行的特定生产线上,大部分减小厚度的工作是在4辊可逆粗轧机上进行的。在粗轧机上,从炉子来的钢坯穿过一组可逆的水平和垂直的辊子,也就是,要穿过同样一组辊子好几次。当板坯穿过可逆轧机时,所处理的薄板顶端有时会出现曲率缺陷。这种缺陷由于其表现形式被称为SKI或ski,根据其方向和大小(高度),可能导致板坯撞到下一阶段的机架或者被插入到传送辊中,由此造成设备损坏和生产停顿。

根据报告,SKI的高度主要取决于材料上下表面的温度差、辊子间的速度差、辊子与薄板之间的摩擦系数以及辊子间的直径差。

对于这个特定的项目,目标是确定影响缺陷存在的工艺变量,并能够通过预测SKI高度或前端曲度大小来确定哪些板坯更容易受到当前SKI的影响。原始工艺特征数据集由不同工艺阶段的变量和产品特征组成,主要是加热炉和可逆轧机设置数据。红外热成像系统(IRT)提供了SKI的大小、方向和角度作为目标。用于建模的变量组为板坯热剖面、辊子、可逆轧机的设置、穿带辊速度和板坯特性。

对数据进行了详尽的收集,以尽量减少数据不足或不能完全描述这种现象的可能性。经过数据清理阶段和变量设计阶段,发现仅用少量变量无法解释这一现象。对数据进行主成分分析,结果表明,该数据集共有223个变量,95%的方差通过21个主成分来解释,其中的85个变量是通过计算得出的。

建模前,移除数据集中错误的观察值(例如生产线手动操作造成的日期错误)。然后,以80∶20的比例将数据集随机分为训练子集和测试子集,分别有12782个和3364个观察值。之后,检查训练观察值是否有异常值,并将其从数据集中删除,同时研究共线性,将共线性最高的变量转换成比值,以增强其差异性,并提高其可预测能力。

在不同的测试中,四个独立模型的一元模型表现最佳。这些独立的模型包括有:深度神经网络、XGB模型,随机森林模型和一个额外的树模型,然后取单个模型的预测平均值,得到最终的预测值。使用Python库sklearn和keras进行建模,同时所有的数据在R中进行预处理。

最好的模型是在测试集上R2为0.75,95%的预测值的绝对误差在20厘米以下,61%的预测值的绝对误差在4厘米以下。这一模型目前正在实施,其目的是预测可能的危险设定配置,这些配置可能导致危险等级的前端弯曲缺陷,将设定的数据输入到预测系统,如果系统检测到这种危险的情况,就会发出警报。

如果开发分析模型所需的条件满足,可以通过基于分析的创新来创造价值。(子悠)

本文为部分内容,全文请参阅《世界金属导报》41期B15。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多