小编之前从事医疗相关行业,发现统计检验无处不在,因为你总是要比较两组或多组群体有没有差别。 最典型的就是,比较用药组和无用药组有没有差异问题,再比如比较胆固醇高和低是不是会影响慢性肾脏病的恶化等等问题。 再后来,从事生物信息相关领域,发现大家虽然是生物背景出身,但是领导都默认员工都会统计检验了哈。 其实发现,这个和行业没有关系,只有你用到数据,那么一定会用到统计检验的知识。 一、统计检验1.1 For one-sample hypothesis testing独立样本假设检验 1.2 For two-sample hypothesis testing两样本假设检验 二、参数t检验(关注结果变量为连续型的组间比较,并假设其呈正态分布)2.1 单样本的t检验2.2 独立样本的t检验- 检验两个不相关的样本来自具有相同均值的总体
- 如男性与女性的工作效率的比较
2.3 非独立样本的t检验(配对样本t检验)- 检验两个相关样本是否来自具有相同均值的总体
- 如技术培训后是否提高了工作效率
2.4 多于两组的情况- 假设数据是从正态总体中独立抽样而得到,可以使用方差分析
三、非参数检验的条件- 数据无法满足t检验参数假设(两组,正态)
- 无法满足方差分析参数假设(同正态,方差齐性)
- 结果变量出现严重偏倚或呈现有序关系
3.1 非参数检验1 独立样本的t检验 - 检验两个不相关的样本来自具有相同均值的总体
- 如男性与女性的工作效率的比较
2 非独立样本的t检验(配对样本t检验) - 检验两个相关样本是否来自具有相同均值的总体
- 利用各对值的差值d与零均数进行比较来实现
- 如技术培训后是否提高了工作效率
3 多于两组的情况 - 假设数据是从正态总体中独立抽样而得到,可以使用方差分析
4 组间差异的非参数检验 - 数据无法满足t检验参数假设(两组,正态)
- 无法满足方差分析参数假设(同正态,方差齐性)
- 结果变量出现严重偏倚或呈现有序关系
四、t 检验的原理4.1 两个总体均是正态分布- 原假设:两个总体的均值是相等的(两个总体来自一个同样的分布),备择假设两个总体的均值不等
- 方差齐性检验
- 原假设:两个总体的方差相等,备择假设方差不等
- 方差相等的情况看,t检验看Pooled统计量的P值
- 方差不等的情况下,t检验看Satterhwaite统计量的P值
- P值小于置信水平就拒绝原假设(置信水平一般取0.05或0.1)
4.2 单个总体服从正态分布- 原假设:该总体的均值等于某个值,备择假设均值不等于某个值
- 如果该总体是正态分布,直接看t统计量(student's)的P值
五、非参数检验的原理(关注的总体不服从正态分布)5.1 单个总体的非参数检验- 如果数据很明显是有偏度的(skewed),则是不对称的
- 如果数据的均值、中位数和众数是同样的值,则是对称的
- 总体不服从正态分布,看它是不是关于中值对称(symmetrical)
- 关于中值对称,则用符号秩检验(signed rank test)统计量
- 关于中值不对称,则用符号检验(sign test)统计量
5.2 两组非参数检验的比较- Wilcoxon符号秩检验,两组成对数据无法保证正态性假设的情境
- 两组数据独立,用Wilcoxon秩和检验来评估观测是否从相同的概率分布中抽得的
- 独立样本非正态
- 非独立样本非正态(配对样本)
5.3 多于两组非参数检验的情况- 各组独立,用Kruskal-Wallis检验
- 各组不独立,用Friedman检验
七、总体是否服从某个分布- 原假设:服从某个分布,备择假设:不服从某个分布
- 适合检验任何分布的三个统计量
- Kolmogorov-Smirnov、Anderson-Darling、Cramer-von Mises
- 他们三个统计量对应的P值小于置信水平,则拒绝原假设
7.1 正态分布的t检验原理(一个总体)- 原假设:服从正态分布,备择假设:不服从正态分布
- 看统计量Shapiro-Wilk对应的P值(只适合正态分布的统计量)
- 也可以看统计量Kolmogorov-Smirnov,Anderson-Darling,Cramer-von Mises对应的P值
八、总体的相关性检验原理
|