今天是生信星球陪你的第310天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~ 就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~ 这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我! 豆豆写于19.3.17 如果平常的分析需要用到R语言,你会发现,许多函数是带有统计背景的,比如CPM、t检验、RPKM计算等等,虽然大多数需求都被包装成了函数,可以直接使用。但是掌握点统计知识对理解这里面的具体运算是非常必要的。 奔波了一天,在车上无聊,看点统计知识吧《白话统计学》,记录一下
第一章第二章:中心趋势的测度偏态分布(<=>正态分布):多数值聚集在分布高端=》正偏(反之负偏) 异常值:距离均值超过2倍标准差的极端值 双峰Bimodal:一个分布有两个出现频率最高的值 (<=>多峰) 参数:得自总体数据的值,或由样本统计量推断的总体的值
第三章:变异程度的测度第四章:正态分布(Norm distribution)第五章:标准化与z score为什么标准化? 标准化值standard score,或者z score,用于描述个别取值与分布中的其他取值之间的距离 =》一个标准化过程 z-score是以标准化为单位的分布中一个给定取值与均值之间的距离数,将原始取值(raw scores)转为标准差单位 z = (原始取值-均值)/标准差 例如:如果A考试得了 1.5的z score,就知道A考试得分比考试均值成绩高1.5倍的标准差;B考试得了-0.3的z score,就知道B考试比均值成绩低0.3倍的标准差,这样就可以判断哪一门科目考的更好 任何小于均值的原始值都有负的z score,反之为正; 标准差小而均值大,导致最后的z score比较小,说明数据严重偏移 正态分布的大部分取值都在均值周围,因此得到的z score都接近0
z score的问题:考虑的背景问题有限,因此提供的信息有限 百分位数取值(percentile scores):分布一定比例的取值在它之下,一定比例取值在其之上。如:某人考试得分为60分,然后全班30%的人的成绩都低于60分,那么第30百分位数为60
|