分享

搞定文章统计图,扔你一个懒人总结包!

 钟山紫竹林 2019-09-27

内容来源:小麦研究联盟

上次我们推送了标准差和标准误之间的关系,并用模拟数据进行图像展示,想必大家已经清楚了二者之间的数学关系。不过有的小伙伴还是有疑问,尤其对于误差线该用哪个还是不清楚。当然,也有朋友在留言区提出了非常好的建议,今天小编就继续跟大家详细总结一下我们试验数据统计中常用的 量,图,和线。


如果不想看下边长篇大论,请看小编给您总结的懒人包:


标准差:

群体的标准差是群体中所有数据方差的平方根,它衡量的是群体中某个测量值的离散程度。

我们可以看到下面左图中三个群体(正态分布曲线)的某个测量值的均值是相同的(x = u),但测量值的离散程度不同(标准差不同)。右边的图大家应该比较熟悉,它的意义是判断某个值是否是小概率事件,比如某个个体的测量值在三个标准差之外,我们就说这个数据点是个小概率事件(p< 0.01),在我们农业试验中也即意味着这个数据是个outlier,很有可能是混杂的种子,或者是测量出错了,数据输错了。

用于描述这种测量值离散程度的图大多为Histogram(直方图)和Box plot(箱式图)。我们以后再介绍这两个图,尤其箱式图,是一个很不错的工具。

这里要特别提醒一下:以上举的例子是以整个群体为对象的,但在我们实际操作过程中,我们拿到的数据一般都只是一个群体中的一部分样本(比如一个200个RIL的作图panel是从所有可能的RIL个体中随机挑选出来的),对于样本的标准差的公式如下:分子是n-1,而不是n。所以大家在Excel中计算SD的时候应该用STDEV.S,而不是STDEV.P。

均值的标准误:

接下来我们来看标准误。标准误衡量的是样本均值的离散程度,可以用来衡量样本的均值和整个群体实际均值之间的差别。也就是标准误越小,就说明样本的均值越接近于整个群体实际的均值。下面是标准误的计算公式,我们可以看到所取的样本量越大,标准误就越小,我们得到的均值就越接近于整个群体实际的均值。

基于SEM的这个统计学意义,当我们用t-test 测验两个样本均值是否有差异时,在均值上添加SEM更恰当,而非SD。当然,不得不说的是,现在大部分RNA表达的图都是用柱状图和标准差来做,我想其中一个罪魁祸首就是Excel吧,竟然没有直接SEM的计算公式,我以前用Excel处理数据时就只知道Average和SD,自然而然的就就采用这两个来做图了。另外一个原因也是现实情况所致,当一个试验的样本量特别大的时候,SEM就会非常小,甚至接近于0,画在柱状图上就看不到了,这也是有人选择标准差做error bar的原因吧。

均值的置信区间:

另外描述均值分布的还有均值的置信区间(Confidence Interval of the mean),用来估计均值误差范围的区间。它的计算公式如下:

其中S/√n为标准误,t = TINV(0.05, N-1), N 为样本大小,在Excel中输入此公式就可以得到t值,然后再代入均值置信区间的公式。从下面的t表来看,当样本量足够大时,t接近c的值1.96(a=0.05),这个c值用于大家平常在网上查到的均值置信区间的公式(如下),但我们平常的农业试验单因素样本量很少能达到500,所以此公式慎用。

至于原因以及关于均值置信区间的计算公式的推导,具体参考这个网页:https://zhuanlan.zhihu.com/p/35389951。 

另外,从这个表中,我们也可以看到,当样本量小于10的时候,置信区间范围将比SD还要大。大家可以根据SD,SEM和CI of the mean三者的公式自行推算。

这里要注意标准误(Standard Error:SE)和置信区间(Confidence Interval:CI)都只是一个统称,它们既可以描述均值,也可以描述中位数,甚至可以描述标准差。也就是说在文章中SE和CI后面一定要有定语。只有当它们用于描述均值的时候才成了Standard Error of the mean(SEM)和CI of the mean。

另一点要注意的是:判断两组数据的均值差异是否显著,不能只看均值大小,误差线,或者p值;而是应该结合起来看:当样本比较少时,标准误也就大,这时计算的value可能不显著,但增加了样本数量后,标准误降低了,p值可能就显著了。

小提琴图示例

说了这么多理论,下面我们用三种图(柱状图,点状图和小提琴图)来展示一下SD, SEM,和CI of the mean 之间的区别。下面用到了三组数据:左边的和右边两组是极显著差异,右边两组没有显著差异。

1.左图是柱状图加SD,右边是小提琴图加SD。本来好好的极显著差异就这样被埋没了:尤其是柱状图加SD,很难看出极显著。

2.左图是柱状图加SEM,右边是小提琴图加SEM。加SEM显然要比SD“好看”很多。尤其是小提琴图,由于比柱状图在纵坐标上有优势,看起来就是极显著。但加SEM也有“缺点”,第二组和第三组数据的均值有差异,二且SEM没有重叠,给人一种二者也是显著差异的感觉。

3.左图是柱状图加CI of the mean,右边是小提琴图加CI ofthe mean。对于这三组数据,最佳方案就是均值加均值的置信区间了。完美的避免了上面所提到的缺点:既可以明显看出极显著差异,又可以化解不显著的差异。

有没有老师告诉过你:误差线重叠,差异就不显著了!下面我们给你总结了最全面的说法:

置信区间没有重叠,二者肯定有显著差异。但置信区间有重叠,不一定说明二者没有显著差异。

标准误有重叠,二者肯定没有显著差异。但标准误没有重叠,不能说明二者就一定有显著差异。

点状图示例:

另一组示例,还是左边的和右边两组是极显著差异,右边两组没有显著差异。这个示例主要是看当样本量很小时(比如RNA 表达实验),采用SEM更恰当,因为CI of the mean太大了。。。三个图从左到右依次为点状图加SD,SEM,和CIof the mean.

JZUS学术服务

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多