分享

关于相关性和特征选择的重要性

 汉无为 2023-08-04 发布于湖北

 又要学习新知识啦 

写在前面

      在构建模型之前,我们常常希望了解哪些特征对目标变量有影响?特征选择是数据预处理的重要环节,能够优化模型性能,提高预测准确性,并且也能帮助我们从海量特征中筛选出对目标变量最具影响力的特征,剔除冗余信息,使模型更加简洁高效。

      相关性是数据科学的基石!找出特征与目标变量之间的关联有助于我们建立更精确的预测模型。相关性分析让我们了解特征之间的相互关系,为特征选择提供指导。今天小编就给大家科普一下常见的相关性度量和特征选择方法。

01.  相关性分析

 相关性是统计学中的一个概念,是指两个变量的关联程度。在数据分析中,相关性度量是探索变量之间关系的关键方法之一。通过了解变量之间的相关性,我们可以揭示隐藏的模式和趋势。

图片

相关性度量——线性方法

[1] 皮尔逊相关系数(Pearson correlation coefficient):经典的线性相关性度量方法,衡量线性关系的强度和方向。值域为[-1, 1],1表示完全正相关,-1表示完全负相关。该方法一般适用于符合正态分布的连续性数据,对于离群值是较为敏感的。

[2] 判定系数(Coefficient of determination):也叫可决系数,是指在线性回归中,回归平方和与总离差平方和之比值,表示一个变量的方差能被另一个变量解释的比例。判定系数越接近1,线性关系越强。

[3] 切比雪夫相关系数(Chebyshev correlation coefficient):切比雪夫相关系数用于衡量两个连续型变量之间的线性关系。它是两个变量之间的最大差异绝对值除以数据范围的最大值。

[4] 列联表卡方检验:是一种用于衡量两个离散变量之间相关性的方法。该方法的基本思想是将观察到的频数与期望的频数进行比较,从而判断两个变量之间是否存在非随机的关联。适用于检测线性相关性,对于非线性关系不够敏感。

相关性度量——非线性方法

[1] 斯皮尔曼相关系数(Spearman correlation coefficient):该方法是通过对数据进行排名转换,衡量两个变量之间的单调关系,对于数据中的离群值是较为稳健的。

[2] 肯德尔相关系数(Kendall correlation coefficient):与Spearman 相关系数类似,也是一种基于数据秩的度量方法,当数据量很大时,该方法会比Spearman更高效。

[3] 互信息(Mutual Information):互信息是信息论中的概念,它用于衡量两个变量之间的非线性关系,以及它们共享的信息量。一般适用于衡量离散随机变量之间的相关性[1]。

[4] Copula熵(Copula entropy):新兴的非线性相关性度量方法,Copula熵是统计学中与Copula函数相关的一个信息熵度量,特别适用于复杂关系,能捕捉非线性关系,通过衡量Copula模型中的信息共享来评估变量之间的依赖程度[2]。

02. 特征选择

特征选择的一个重要目标就是通过评估特征与目标变量之间的相关性,来选择对目标变量预测有意义的、最具信息量的特征。

 特征选择有好处

[1] 提升模型性能:选取精华特征,降低过拟合风险,让模型更具泛化能力。

[2] 加快训练速度,减少不必要特征,让模型训练更快捷高效。

[3] 剔除无关特征,能够更好地理解模型的预测依据。

 特征选择的方法有多样

[1]过滤式方法:基于统计学或相关度评估特征重要性,如方差选择、相关系数等(上述介绍的相关性方法)。

[2] 包裹式方法:使用模型性能评估指标来筛选特征,例如递归特征消除。

[3] 嵌入式方法:在模型训练过程中自动选择特征,如LASSO和决策树的特征重要性。

当然,不仅限于上述的特征选择方法,还有粗糙集[3]、弹性网[4]等。

 特征选择注意事项

[1] 充分了解数据:深入了解数据背后含义,有助于选择正确特征。

[2] 交叉验证:使用交叉验证确保特征选择不会过拟合于单个训练集。

[3] 定期更新:数据变化,特征选择也需跟进更新,保持模型优秀性能!

小结

      以上为相关性分析和特征选择的简单介绍,二者是数据挖掘和机器学习领域的重要技术,它们的应用能够带来更加优秀的模型和深入洞察数据的能力。将它们融入数据科学的实践中,将有助于我们更好地理解数据,做出更明智的决策,并创造更大的价值。

参考文献:

[1]夏利宇, 姜天英, 刘赛可. 信用评级模型的特征选择方法研究[J]. 数学的实践与认识, 2020, 50(13):61-67.

[2]马健. 基于Copula熵的变量选择[J]. 应用概率统计, 2021, 37(4): 405-420.

[3]Moghadam M.R.S., Govindan K., Dahooie J.H., Mahvelati S., Meidute-Kavaliauskiene I.. Designing a model to estimate the level of university social responsibility based on rough sets[J]. Journal of Cleaner Production, 2021, 324(12):129-178.

[4]Zou H., Hastie T.. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2005, 67(2): 301–320. 

图片

了解更多概率论与数理统计的相关知识,

和我们一起加入网课学习吧!
选课网址:https://www.icourse163.org/learn/USTB-1003768006

 快来学习新知识 

关注我们 大数学极客

一周一个概率知识,让数学更有趣

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多