【原】练习R：randomForest ()函数随机森林模型筛选自变量

数据小兵 2024-04-02 发布于陕西

展开全文

===

使用prostate数据集，先来看一下变量情况。

因变量lpsa是连续数据，所以接下来进行的是随机森林回归预测，本例我们的主要目的是进行自变量重要性的排序。

set.seed(123)randfit <- randomForest(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45,                        mtry=3,                         nodesize=5,                        replace=T,                        localImp=T,                        nPerm=10,                        data = prostate)

设定随机种子便于重复。主动指定树的特征变量数量为3个，每次随机3个变量进行生长。

现在来看一下刚才拟合的随机森林模型情况：

Type of random forest: regression

Number of trees: 500

No. of variables tried at each split: 3

Mean of squared residuals: 0.5988957

% Var explained: 54.59

默认生成500棵树，按我们指定的每次树的分裂都是随机3个特征自变量，均方差0.599，解释了54.59%的变异来源。

plot(randfit,main="Random Forest")

看一下随tree个数增加的mse误差变化情况，

which.min(randfit$mse)

优选一下tree的数量。结果反馈是196棵树。然后重新建模，创建196棵树的随机森林。

randfit2 <- randomForest(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45,                        ntree=197,                        mtry=3,                        nodesize=5,                        replace=5,                        localImp=T,                        nPerm=10,                        data = prostate)

现在来看优化过的随机森林模型中自变量的重要性排序。

varImpPlot(randfit2,main = "Variable Importance Plot")

incnodepurity和%incmse这两个指标都是越大说明变量越重要。综合来看，lcavol、lweight、svi这三个最重要排在前三位置。

lcp和pgg45位列前五。

可以根据研究的需要，选择重要的自变量进行后续的分析。

===

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：数据小兵 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

数据小兵

关注对话

TA的最新馆藏

结构方程开更！优惠券还有5张了~
练习R：用sem()和lavaan_summary()函数输出结构方程模型结果
t分布和正态分布有什么不同，它们总是不同吗？
给大家测试使用JASP做结构方程模型
用glht()和plot()函数实现方差分析主效应多重比较，附字母标记
什么是模型的过拟合？看图说话和通俗理解来啦~

喜欢该文的人也喜欢更多

热门阅读换一换