分享

特征选择的九大策略!!!

 阮朝阳的图书馆 2022-05-18 发布于浙江
图片
图片

前言:特征选择是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段。使用特征选择的前提是训练数据包含许多冗余或无用的特征,移除这些特征并不会导致丢失信息。其中冗余是指一个本身很有用的特征与另外一个有用的特征强相关,或它包含的信息能从其它特征推演出来。

进行特征选择的目的:

1.改善性能:节省存储和计算开销。

2.简化模型:使模型更易于理解,去除不相关的特征会降低学习任务的难度。并且可解释性能对模型效果的稳定性有更多的把握。

3.改善通用性:降低过拟合风险,减轻维数灾难,特征的增多会大大增加模型的搜索空间,大多数模型所需要的训练样本随着特征数量的增加而显著增加。特征的增加虽然能更好地拟合训练数据,但也可能增加方差,增加过拟合的风险。

本文的目的是根据平台已有的功能概述特征选择策略:

1.删除未使用的列

2.删除具有缺失值的列

3.P值

4.多重共线性

5.方差膨胀因子 (VIF)

6.LASSO回归

7.基于特征重要性的特征选择

8.特征筛选

9.韦恩图

01删除未使用的列

最简单的策略是你的直觉。虽然是直觉,但有时很有用的,某些列在最终模型中不会以任何形式使用(例如“ID”、“FirstName”、“LastName”等列)。如果您知道某个特定列将不会被使用,请随时将其删除。

平台可以通过数据整理<数据变量,通过拨动要删除的特征所在的按钮,然后点击开始分析就可以删除未使用的特征。

图片

02删除具有缺失值的列

缺失值在机器学习中是不可接受的,因此我们会采用不同的策略来清理缺失数据(例如插补)。但是如果列中缺少大量数据,那么完全删除它是非常好的方法。

平台可以通过数据整理<缺失剔除,填写缺失率,并在“缺失的行和列”那选择列,然后点击开始分析就可以按照缺失率剔除特征。

图片

03P值

1. 基线中P值

基线分析可以展示数据的一些基本信息,也为以后的分析中剔除不显著的特征(如P>0.05)。

平台可以通过基线分析<综合智能统计分析根据数据选择“分组变量”、“定量变量”、“定类变量”等可选项,然后点击“开始分析”就可以生成基线表,根据基线表中P情况,剔除不显著特征。

图片

2. 单因素多因素分析中的p值

单因素分析是指在一个时间点上对某一变量的分析。目的在于描述事实。多因素分析亦称“多因素指数体系”。指数体系的一种。用于说明一个现象总变动受三个或三个以上因素影响时,其中每个因素的变化对总变动影响的方向和程度。

平台可以通过高级分析<单因素\多因素分析根据数据选择“因变量”、“自变量(定量)”、“自变量(定类)”、“调参变量”等可选项,然后点击“开始分析”就可以生成基线表,根据三线表中P情况,剔除不显著特征。

图片

04相关性分析

平台可以通过基线分析<相关性分析根据数据选择“需分析变量”等可选项,然后点击“开始分析”就可以生成相关性分析表、P值表及相关性图片,根据相关性表剔除相关性较大的因子(如≥0.5)。

图片

05多重共线性

方差膨胀因子 (VIF) 是衡量多重共线性的另一种方法,也是一种消除多重共线性特征的有用技术。它被测量为整体模型方差与每个独立特征的方差的比率。一个特征的高 VIF 表明它与一个或多个其他特征相关。

平台可以通过基线分析<共线性分析根据数据选择“需分析变量”,然后点击“开始分析”就可以生成VIF分析表,根据表格剔除VIF值较大的因子(一般剔除VIF≥10)。

图片

06LASSO回归

LASSO分析方法是以缩小变量集(降阶)为思想的压缩估计方法。它通过构造一个惩罚函数,可以将变量的系数进行压缩并使某些回归系数变为0,进而达到变量选择的目的。

平台可以通过高级分析<Lasso回归根据数据选择“因变量”、“特征组合”等可选项,然后点击“开始分析”就可以根据分析结果选择因子。

图片

07基于特征重要性的特征选择

特征重要性是一种为预测模型的输入特征评分的方法,该方法揭示了进行预测时每个特征的相对重要性。可以为涉及预测数值的问题(称为回归)和涉及预测类别标签的问题(称为分类)计算特征重要性得分。

平台可以通过智能AI分析<影响因子重要度分析根据数据选择“因变量”、“特征”等可选项,然后点击“开始分析”就可以生成重要度表格及图片。根据重要度情况选择特征。

图片

08特征筛选

平台中的智能AI分析<特征筛选功能提供“Lasso”、“REF”、“PCA”、“mRMR”、“Relief”五种特征处理的方法。

图片

09韦恩图法

以样例数据库中“肿瘤——乳腺癌(699例)”的为例,用三个模型对数据进行重要度分析其结果如下:

分别采用高斯朴素贝叶斯分类算法(GNB)极端梯度提升树(XGBOOST)、随机森林(RF)进行变量重要度分析,将重要度最高的8个变量(由高到低)进行排序。画韦恩图计算三个模型共有的特征(取交集)。 

图片

总结:这是对可应用于特征选择的各种技术的有用指南。在特征工程中我们虽然不会在一个项目中完全使用所有策略,而这些策略都是我们进行测试的方向。根据数据情况选择几种策略进行特征筛选,然后建立模型根据评价指标观。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www./ 进行实操吧!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多