分享

决策树与随机森林(5)—— 应用决策树算法的13篇文献解读

 大壮歌 2022-08-29 发布于福建
前面我们一共啰嗦了四期:

决策树与随机森林(1)—— 决策树算法数学推导与实例演练 推导决策树的原理。

决策树与随机森林(2)—— 用R种树和画树 用R语言实现决策树的构建和绘图。

决策树与随机森林(3)—— 决策树的剪枝和C4.5算法 聊了决策树的剪枝和明星算法C4.5。

决策树与随机森林(4)—— 决策树C5.0算法 讲解了C4.5的加强版C5.0. 

刀磨好了,可是如何来用呢?这期就来简单解读13篇使用决策树的文章,看一下别人如何在论文中科学使用决策树算法的。

范文1


图片

图片

图片

范文2

图片

图片

范文3

图片

范文4

图片

图片


范文5

图片

范文6

图片

范文7

图片

图片

图片

我们简单复现下这篇文章
# 数据处理rm(list = ls())options(stringsAsFactors = F)library(data.table)library(tibble)library(dplyr)library(rpart)library(rpart.plot)library(C50)library(RWeka)pheno <- fread('TCGA-KIRC.GDC_phenotype.tsv',data.table = F)pheno <- pheno[,colnames(pheno)[grepl('submitter_id.samples|stage|histologic',colnames(pheno))]]colnames(pheno) <- c('ID','Grade','Stage')pheno <- pheno[pheno$Grade!=''&pheno$Grade!='GX'&pheno$Stage!='not reported',]pheno$Stage <- ifelse(pheno$Stage%in%c('stage i','stage ii'),'stage i & ii',pheno$Stage)
expr <- fread('TCGA-KIRC.htseq_fpkm.tsv',data.table = F)%>%column_to_rownames('Ensembl_ID')expr <- expr[,as.numeric(substr(colnames(expr),14,15))<10]expr <- t(expr[grepl('ENSG00000228742',rownames(expr)),])%>%as.data.frame()colnames(expr) <- 'SLINKY'expr$SLINKY <- ifelse(expr$SLINKY>median(expr$SLINKY),'High','Low')
sur <- fread('TCGA-KIRC.survival.tsv',data.table = F)[,1:2]sur$OS <- ifelse(sur$OS==0,'Alive','Dead')
data <- merge(expr,pheno,by.x=0,by.y=1)data <- merge(data,sur,by=1)[,-1]data <- as.data.frame(apply(data2as.factor),stringsAsFactors = T)
# ID3算法ID3 <- rpart(OS~.,data,parms = list(split='information'))printcp(ID3)rpart.plot(ID3,branch=1,type=2, fallen.leaves=T,cex=0.8,extra = 1,main='ID3')

图片

#CART算法CART <- rpart(OS~.,data,parms = list(split='gini'))printcp(CART)rpart.plot(CART,branch=1,type=2, fallen.leaves=T,cex=0.8,extra = 1,main='CART')

图片

summary(CART# 这样直接可以看到CART算法或者ID3算法对所有变量的重要性定量

图片

# C4.5算法C4.5 <- J48(OS~.,data)plot(C4.5,main='C4.5')

图片

# C5.0算法C5.0 <- C5.0(OS~.,data)plot(C5.0,main='C5.0')

图片

可以发现两个问题:
1.结果不太一样,这可能是数据处理,数据自己提取,软件差异有关
2.C4.5/C5.0 和 ID3/CART有差异,包括C4.5和C5.0算法也有差异,但是四种算法对stage的衡量基本一致

范文8

图片

图片

范文9

图片

图片

图片

范文10

图片

图片

图片

范文11

图片

图片

范文12

图片

范文13

图片

图片

总结

这些文章的用法基本一致,大多集中在两点:
1. 筛选biomarker,多种算法一齐使用,比如LASSO,SVM,随机森林,决策树等。
2. 构建分类器,比如诊断分类器,预后分类器等

能够用到这类算法的场景有很多,不局限于上述的这些套路,理解原理和熟悉掌握操作才是灵活应用的关键。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多