搞定文章统计图，扔你一个懒人总结包！

钟山紫竹林 2019-09-27

展开全文

内容来源：小麦研究联盟

上次我们推送了标准差和标准误之间的关系，并用模拟数据进行图像展示，想必大家已经清楚了二者之间的数学关系。不过有的小伙伴还是有疑问，尤其对于误差线该用哪个还是不清楚。当然，也有朋友在留言区提出了非常好的建议，今天小编就继续跟大家详细总结一下我们试验数据统计中常用的量，图，和线。

如果不想看下边长篇大论，请看小编给您总结的懒人包：

标准差：

群体的标准差是群体中所有数据方差的平方根，它衡量的是群体中某个测量值的离散程度。

我们可以看到下面左图中三个群体(正态分布曲线)的某个测量值的均值是相同的（x = u），但测量值的离散程度不同(标准差不同)。右边的图大家应该比较熟悉，它的意义是判断某个值是否是小概率事件，比如某个个体的测量值在三个标准差之外，我们就说这个数据点是个小概率事件（p< 0.01）,在我们农业试验中也即意味着这个数据是个outlier，很有可能是混杂的种子，或者是测量出错了，数据输错了。

用于描述这种测量值离散程度的图大多为Histogram（直方图）和Box plot（箱式图）。我们以后再介绍这两个图，尤其箱式图，是一个很不错的工具。

这里要特别提醒一下：以上举的例子是以整个群体为对象的，但在我们实际操作过程中，我们拿到的数据一般都只是一个群体中的一部分样本（比如一个200个RIL的作图panel是从所有可能的RIL个体中随机挑选出来的），对于样本的标准差的公式如下：分子是n-1,而不是n。所以大家在Excel中计算SD的时候应该用STDEV.S，而不是STDEV.P。

均值的标准误：

接下来我们来看标准误。标准误衡量的是样本均值的离散程度，可以用来衡量样本的均值和整个群体实际均值之间的差别。也就是标准误越小，就说明样本的均值越接近于整个群体实际的均值。下面是标准误的计算公式，我们可以看到所取的样本量越大，标准误就越小，我们得到的均值就越接近于整个群体实际的均值。

基于SEM的这个统计学意义，当我们用t-test 测验两个样本均值是否有差异时，在均值上添加SEM更恰当，而非SD。当然，不得不说的是，现在大部分RNA表达的图都是用柱状图和标准差来做，我想其中一个罪魁祸首就是Excel吧，竟然没有直接SEM的计算公式，我以前用Excel处理数据时就只知道Average和SD，自然而然的就就采用这两个来做图了。另外一个原因也是现实情况所致，当一个试验的样本量特别大的时候，SEM就会非常小，甚至接近于0，画在柱状图上就看不到了，这也是有人选择标准差做error bar的原因吧。

均值的置信区间：

另外描述均值分布的还有均值的置信区间（Confidence Interval of the mean），用来估计均值误差范围的区间。它的计算公式如下：

其中S/√n为标准误，t = TINV(0.05, N-1), N 为样本大小，在Excel中输入此公式就可以得到t值，然后再代入均值置信区间的公式。从下面的t表来看，当样本量足够大时，t接近c的值1.96（a=0.05），这个c值用于大家平常在网上查到的均值置信区间的公式（如下），但我们平常的农业试验单因素样本量很少能达到500，所以此公式慎用。

至于原因以及关于均值置信区间的计算公式的推导，具体参考这个网页：https://zhuanlan.zhihu.com/p/35389951。

另外，从这个表中，我们也可以看到，当样本量小于10的时候，置信区间范围将比SD还要大。大家可以根据SD，SEM和CI of the mean三者的公式自行推算。

这里要注意标准误（Standard Error：SE）和置信区间（Confidence Interval：CI）都只是一个统称，它们既可以描述均值，也可以描述中位数，甚至可以描述标准差。也就是说在文章中SE和CI后面一定要有定语。只有当它们用于描述均值的时候才成了Standard Error of the mean（SEM）和CI of the mean。

另一点要注意的是：判断两组数据的均值差异是否显著，不能只看均值大小，误差线，或者p值；而是应该结合起来看：当样本比较少时，标准误也就大，这时计算的p value可能不显著，但增加了样本数量后，标准误降低了，p值可能就显著了。

小提琴图示例

说了这么多理论，下面我们用三种图（柱状图，点状图和小提琴图）来展示一下SD, SEM,和CI of the mean 之间的区别。下面用到了三组数据：左边的和右边两组是极显著差异，右边两组没有显著差异。

1.左图是柱状图加SD，右边是小提琴图加SD。本来好好的极显著差异就这样被埋没了：尤其是柱状图加SD，很难看出极显著。