【原】30天学会R DAY23 基本统计描述方法

妙趣横生统计学 2019-12-08

展开全文

第23天常用统计描述和假设检验方法

统计分析包括统计描述和统计推断。

统计描述主要是对定量资料的集中趋势和离散趋势进行描述，包括均数、标准差、中位数，四分位间距，分类资料主要利用绝对数和相对比进行描述，包括样本量、率、比。

统计推断中假设检验是比较两组或多组总体均数是否有差异最为常用的方法，传统的假设检验方法包括t检验、方差分析、卡方检验、秩和检验。

本章将给大家介绍医学数据常用的统计描述。

对资料进行描述之前，我们先导入数据，并对数据进行整理。

t1<-read.csv("elder1.csv")

t2<-read.csv("elder2.csv")

newdata<-merge(t1,t2,by="ID") #合并两个数据

1.定量资料的描述

summary(newdata[c("height","weight")]) #均数、中位数、百分位数

mean(newdata$height,na.rm = T) #算身高的均数，na.rm=T 忽略缺失值

sd(newdata$height,na.rm = T) #算身高的标准差

median(newdata$height,na.rm = T)#算身高的中位数

IQR(newdata$height,na.rm = T) #算身高的四分位间距

range(newdata$height,na.rm = T) #算身高最大最小值

2.分类资料的描述

table(newdata$sex,newdata$sleep) #列联表，不同性别的睡眠状况

xtabs(~sex+ marriage, data=newdata) #列联表，~前可放加权的数据

prop.table(table(newdata$sex)) #百分比的计算

3. dplyr包在统计描述的应用

library(dplyr) #统计描述的语句主要有group_by 和 summarize

group_by 对数据进行分组计算，类似于spss对数据进行分割。

summarize参数包括：

mean(), median(), max(), min(), sd()

IQR()：对均数，中位数，最大，最小，标准差，四分位间距描述

first(), last(), nth(): 返回第几位的值.

n(): 计算数据的数量, 相当于 length() 函数.

n_distinct(): 计算非重复数据的数量, 相当于 length(unique(x)).

summarise(newdata,mean(height,na.rm=T),sd(height,na.rm=T),median(height,na.rm=T)) #汇总，分别计算均数，标准差，中位数

summarise(group_by(newdata,sex),mean(height,na.rm=T),sd(height,na.rm=T),median(height,na.rm=T)) #分组按性别计算均数，标准差，中位数

z<-group_by(newdata,sex) #按sex进行分组

summarise(z,n())#分别计算各组人数

4.gmodels包在交叉表当中的应用

library(gmodels)

x<-CrossTable(newdata$sex, newdata$sleep) ##计算行、列百分比

以上就是对医学数据常用的统计描述与假设检验方，在R语言中，统计描述和假设检的代码相对比较简单，在对医学数据进行分析时，重点还要在于对于前期数据的整理。

DAY23的内容就介绍到这里！

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：妙趣横生统计学 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

妙趣横生统计学

关注对话

TA的最新馆藏

学到了！还可以联合5个公共数据库发文章，别老盯着国内的！
哈哈！奖励式的减肥更有效！这个减肥实验把文章发在JAMA杂志
这个免费的公共数据库，5.16将公布最新数据，曾发表Lancet等顶刊文章
一串代码搞定！这个R语言包可以构建修正Poisson回归模型
浙大学者一区文章(IF=15)，童年不良经历加速衰老，女性尤其明显
JAMA！浙大和哈佛学者联合发文，痴呆死亡风险直降28%，每天只需这种植物油7g？

喜欢该文的人也喜欢更多

热门阅读换一换