共 24 篇文章
显示摘要每页显示  条
‘代表的缺失值,因此ca里面的变量都是字符类型的因子变量#因此需要先转换为数值型,再进行因子变量转换data$ca <- as.integer(data$ca)data$ca <- as.factor(data$ca)#同理,将thal做同样处理data$thal <- as.integer(data$thal) data$thal <- as.factor(data$thal)#将hd修改为因子变量,0为健康,1为不健康data$hd <- ifelse(...
StatQuest生物统计学专题 - 随机森林(1) 构建与评价。随机森林的构建方法随机森林的模型评价方法最优子集数目的选择。随机森林通过bootstrap和随机子集的方法可以产生大量的随机数据集,从而形成随机森林。由于我们已经知道了如何构建随机森林,也已经知道了随机森林的评价方法,所以寻找最优子集数目是一个非常简单的过程,多试试几个子集数目...
前情回顾——二分类数据的决策树构建数值数据及多分类数据的决策树构建决策树构建的二个遗留问题前情回顾——二分类数据的决策树构建。可以把决策树的数据变量分为两种:类比函数可以将他们分为“自变量”和“因变量”,也就是说,决策树就是通过多个自变量的信息,最终得出因变量的分类。Gini用于衡量每一个决策树的impurity(不纯净度),Gin...
StatQuest生物统计学专题 - 决策树(1)决策树是什么决策树构建方法决策树是什么。有很多方法去衡量三个分类树的优劣,这里使用一种叫做Gini的方法,Gini用于衡量每一个决策树的impurity(不纯净度),Gini值越低越好,它的计算非常简单:左侧分支分别使用Chest Pain和Blocked Arteries进行决策树构建,然后计算相应的Gini impurity值。如下图...
StatQuest生物统计学专题 - K近邻算法。简单是说K近邻算法是一种最简单的分类算法,它的直观含义是说要想知道一个数据点是哪一种分类,那么就看它最紧挨着的K个邻居是什么分类。K近邻算法的K是指的进行计算时使用多少个邻居点纳入计算,如K为5,代表进行K近邻算法计算时,会根据此点周围5个点的分类情况而决定当前点的分类。K近邻算法是一种非...
K-means聚类算法K-means聚类的2个细节优化K-means聚类的几个问题。如下图,第一个点距离“蓝色聚类”最近,因此被归为“蓝色聚类”,第二个点距离“绿色聚类”最近,因此被归类为“绿色聚类”,第3个点距离“橙色聚类”最近,因此被归类为“橙色聚类”。然后只需要在多次进行的K-means聚类中选择方差最小的聚类即可,如下图,进行了3次K-means...
聚类的最常见使用场景——热图经典聚类算法之“层次聚类”详解聚类热图的数据的标准化。聚类有两种最常用的算法:层次聚类(Hierarchical Clustering)和K-means聚类(Kmeans clustering)。聚类最常见的使用场景就是热图,如下图所示为一个聚类前后的热图对比:左边为未聚类的热图,右边为聚类后的热图。层次聚类是一种迭代算法,循环往复的进行如...
t-SNE同PCA的简单区别一个t-SNE的例子。再进一步的,如果基因的表达量数据可以很好的区分细胞,比如有两种细胞类别:肝脏细胞和肾脏细胞,各有50个数据点,那么可以知道的是在4个基因表示的4维空间中,代表肝脏细胞的50个数据点一定是有一种聚团的趋势,也就是相互之间距离较小,代表肾脏细胞的50个数据点一定也有聚团的趋势,也就是相互之间的...
对于上述矩阵,cell1、cell2、cell3等等是不同的数据点,他们目前是被展示在9维空间中(9个基因坐标代表一个点),而PCoA会将其降维到2维或3维(2或3个坐标表示一个点),也就是说cell1、cell2、cell3等等使用2坐标或3坐标来表示。由于计算欧氏距离的PCoA的结果和PCA的结果是一致,本次模拟会首先给出PCA结果与欧式距离下的PCoA的结果对比,然...
LDA的思想LDA的实际例子LDA与PCA的异同LDA的思想。有监督的意思是LDA进行计算之前需要知道样本的分类结果,不同于PCA(主成分分析)的无监督,PCA不需要知道样本的类别,直接根据降维变量的数据趋势,计算出所有的主成分。LDA与PCA的异同。LDA是一种有监督的降维方法,它需要提前知道数据的分类情况才能进行计算,PCA是无监督的降维方法,即便...
帮助 | 留言交流 | 联系我们 | 服务条款 | 下载网文摘手 | 下载手机客户端
北京六智信息技术股份有限公司 Copyright© 2005-2024 360doc.com , All Rights Reserved
京ICP证090625号 京ICP备05038915号 京网文[2016]6433-853号 京公网安备11010502030377号
返回
顶部