分享

PHM建模方法论之「 数据特征提取 」

 SAIJIN 2022-12-11 发布于北京

PHM建模方法论包括6大步骤,分别是数据采集、数据预处理、特征提取、模型建立、预测与诊断以及可视化。

图片

数据特征提取步骤是整个过程的第3步,目的是通过采用合适的数据分析方法,从原始数据中提取与建模相关的有效特征来建立模型。

一、特征提

常用的特征提取方法,包括时域特征提取,频域特征提取,以及时频域特征提取。

时域特征提取通常包括的参数较多,比如有RMS(有效值)、峰峰值、峭度、裕度、歪度、均值、均方根、脉冲因数、波形因数、波峰因数等等。 

图片

上图展示了4种不同健康条件下轴承的振动信号。从这4个图里边我们可以看出,轴承的健康程度不同,振动信号波形的幅值也不相同,并且波形的特征也不相同。通常来讲,当轴承出现磨损以后,振动信号的峰峰值幅值有效值,以及峭度值都会增大。

图片

上图展示了柴油机4种不同健康状态下,振动信号的特征参数。从这4张图里边我们也可以看出来,不同状态下所对应的特征参数也是存在一定的差异。

频域特征提取主要包括频带能量提取和特征频率提取。

所谓频带能量提取是指,在频谱内指定的频段内提取所对应的能量。特征频率提取是指在特定的频率点提取该点锁定的幅值。频带能量提取通常会在FFT频谱或功率谱里边来进行。以FFT频谱为例,当要提取某一个频段内所对应的能量时,可以把该频段内所有的幅值进行相加,来作为该频段内所对应的能量。

图片

以滚动轴承为例,当轴承出现磨损时,通常会在频谱中出现共振频带频率簇,并且在包络谱中出现轴承故障特征频率。如上图所示,磨损的轴承会在4000-8000Hz频段内出现一个共振频带,因此,可以将该频段所对应的能量作为区分发电机轴承磨损和正常的一个特征参数。

图片

另外,对共振频带进行解调后可以得到包络谱,通过包络谱可以清晰地看到,轴承对应的故障特征频率。因此,可以把特征频率作为特征参数,然后提取特征频率所对应的幅值。

常用的时频域分析提取方法包括短时傅里叶变换(STFT)和小波分析。时频域分析特别适用于分析非平稳信号,然后针对非平稳信号的特征提取可以考虑时频域分析。 

时频域分析的主要优点是可以在时间、频率以及幅值三个维度来观察信号的特征。

图片

上图是某个典型非平稳信号的STFT结果。从图中我们可以清晰地看到,在E1、E2、E3、E4这4个位置出现了能量比较集中的区域,而且对应的频率以及时刻均不相同。因此,可以把这4个区域所对应的能量作为该信号的一个特征,用于后续分析,而4个区域的能量则可以通过幅值相加进行对应。

另外,小波分析也是时频域分析的一种常用方法。不同于短时傅里叶变换,小波分析所采用的基函数是一种幅值衰减、可伸缩、可平移的小波基,而短时傅里叶变换是基于FFT来进行的,而FFT基数函数是一种无限长的正弦函数。所以说通常情况下,小波分析要优于短时傅里叶变换,但小波分析也有自身的一些缺点。 

图片

上方左、右两图分别采用Cmor3-3小波和Db8小波对齿轮箱高速端进行振动分析,对比两图可以发现,采用不同的小波,对最后的分析结果会产生较大的影响。 

那么,在实际中应如何去选择小波基呢?一个是可以通过经验的方法;另外也可以多尝试几种小波,选择分析效果最好的一种。

二、特征选择

特征选择的目的是提升模型输入与建模目标的相关性并降低冗余度,避免“维度灾难”,同时为后续数据处理提供更好的理解。特征选择还有助于减少传感器的安装数量,比如,当评估轴承的健康状态时,若振动特征更能够体现轴承状态,可以只增加振动传感器,而不选择温度或其他类型的传感器。此外,通过特征选择还可以提高算法的计算效率。

特征选择的常用方法:

  • 基于机理/经验的方法

— 利用专家领域知识选择相应的变量(如,轴承特征参数通常选择RMS、峰峰值、峭度值、歪度;与风电机组振动相关的参数通常选择功率、转速、风速)

  • 封装法 Wrapper Method )

— 尝试将多个变量进行组合,选择模型性能最优的变量组合,如分类模型

— 全局优化及搜索算法,如遗传算法,适用于解决大规模特征选择问题

— 启发式变量选择方法,如向前选择法、向后选择法

  • 过滤法 ( Filter Method )

— 互信息法,即某个特征与某之间的互信息最大,表明该特征越有效,后续选择个特征进行建模

— Fisher score,即选择得分最高(样本方差越大,得分越高)的特征来作为有效特征

三、降维

降维可以减少计算量,提高计算效率,提高模型的泛化能力。常用的降维方法是基于PCA(主成分分析)的降维,它是通过空间转换,将高维数据转化为低维数据。通过PCA降维可以减少原参数之间的相关性,降维之后的数据仍可保留原数据的大部分信息。

图片

如上图所示,三角形表示二维空间的数据。将三角形朝两个不同的方向来进行投影,其中,在竖直方向投影后数据的区分度并不是很大,而在水平方向上投影后数据的区分度相对来说比较大,因此我们通常选择水平方向做为数据区分度最大的方向,而这个方向也就是前面提及的「主成分」。

图片

如上图所示,PCA降维流程包括以下主要步骤:

首先对原始数据进行特征提取,然后对提取到的特征进行标准化处理;

接着计算标准化处理后特征的协方差矩阵,进行特征值分解,得到多个特征值及其对应的特征向量;

此时,通常会选择比较大的特征值及其对应的特征向量来计算主成分。

通过利用上述原则,便完成了包含原始数据大部分信息的主成分的提取。 

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多