一、Anscome's QuartetAnscombe的四重奏是四个数据集,这些数据集有着几乎相同的描述统计指标(均数,方差,相关性),但却有着区别明显的数据分布,如下图。 Anscome's Quartet 通过这些数据集的分布,使用简单的汇总统计数据检查时,所有四个集合都是相同的,但在绘制数据集分布时会有很大差异。“数值计算是准确的,可是图表太粗糙了”。不仅要关注数据的统计学指标,更要关注异常值和其他对统计特性有影响的指标。 而数据分布是在数据分析中常常会被大多人所忽略的一步。 统计学模型都是基于统计分布提出的,如果仅凭一些描述统计学的指标来判断,会造成很大的误差,这时,了解数据集的分布是很必要的。 二、描述统计与数据分布datasauRus是Anscome's Quartet的一个进阶,包含有13个描述统计指标相同但分布差异极大的数据集。 # 安装datasauRus的R扩展包 这13个数据集的描述统计指标完全一样。 # A tibble: 13 x 6 接下来使用ggplot2来查看这13个数据集的分布情况。 if(requireNamespace("ggplot2")){ 这些分布和想象的差距巨大!!! 来个更震撼的动态图!! 三、如何绘制箱线图1.一些描述统计学概念平均值,方差,最大值,最小值这些应该很熟悉,主要介绍一下中位数和四分位数的概念。 中位数:就是样本排序后,最中间的那个数了。 (将数据集从最大值一直排到最小值,从小到大也可以,那个最中间的数。如果样本数是奇数,那么中间的数只有一个就是中位数,如果样本数是偶数,那么取中间两个值的平均数就是他们的中位数) 四分位数:实际上就是把数据集分成四等份,要把一个苹果切成四块,需要几刀?答案是三。如果要把一个数据集分成四份,那么就需要3个指标来描述(描述性统计学):上四分位数,中位数,和下四分位数。 2.箱线图的组成箱形图使用第25,50和75百分位数(也称为下四分位数(Q1),中位数(m或Q2)和上四分位数(Q3),以及四分位数范围(IQR = Q3-Q1,涵盖50%的中央数据)来反映样本的分布。四分位数不受异常值影响,并保留了中央数据和分布的信息。因此,对于不对称或不规则形状的种群分布以及具有极端异常值的样本,优于平均值和标准差。在这些不规则或异常分布下,平均值是偏离大部分数据的,标准差不适用来解释这类数据分布。 如下图,箱线图的核心是一个框,长度是IQR,宽度任意。框内的线表示中位数,不一定在中心。垂直或水平都可以,但水平时,样本的分布要按顺序。线延伸到最极端的数据点,有不超过不超过1.5×IQR的Tukey风格,也有一直延伸到最大值和最小值的Spear风格。 用四分位数绘制箱形图的是一个公认的惯例:永远不应使用箱子或线来显示平均值、标准差或标准误。中位数不一定在箱子中心,两边延伸的线也不一定是对称的。
箱线图的组成 样本大小可以通过成比例的调整箱线图的宽度实现,如上图b中的第二个箱线图,箱子的凸凹程度表示样本量的多少。 3.样本量对箱线图的影响样本量越大,样本分布描述的准确性就越高。 不同样本量绘制箱线图 4.箱线图的边界的确定箱线图的箱子边界的确切位置取决于软件。首先,没有一种普遍认可的方法来计算四分位数,可以通过取均值或线性插值计算。其次,一些软件如R使用铰链hinges而非四分位数来作为箱边界,下铰链和上铰链分别是数据下半部分和上半部分的中位值,这种箱线图与基于四分位数的箱线图略有不同。 箱线图的宽度,上下限的位置,凹口尺寸和异常值都需要调整,因此,在文章描述清箱线图的构造方式是非常重要的。 四、箱线图的优点与不足1.箱线图能直观展现样本的分布从下图中可以看出箱线图的统计描述比均值和标准差更直观的展现了数据集的统计分布。 偏斜分布的箱线图 2.箱线图能展示更多的样本信息箱线图提供一种更具沟通性的方式来展示样本数据的分布。 上图展示了三个样本量为20的正态分布数据,其中标准差都为1,AB均值为1,C均值为3。图a比较了选取不同基线切割y轴对直方图高度的影响;图b是当样本量大于3时,标准差和95%置信区间的散点图适合比较集中趋势的数据;图c的箱线图能同时结合均值和95%置信区间,在相同的空间上能展示更多与样本相关的信息。 3.类箱线图与直方图的比较下图不同数据分布的柱状图/条形图t、箱线图、小提琴图和豆图。柱状图/条形图只能比较数据标准差或标准误的异同,箱线图可以反映数据分布的集中趋势,小提琴图和豆图是对数据分布的真正反映,尤其是Biomodal数据集。 箱形图的数据可视化比较 图a中,100个数据点的样本集,每个数据从上到下依次是均匀分布,具有两种不同方差的两个单峰分布,双峰分布。图b是直方图和箱线图、几种类箱线图可视化的比较,条形图通常仅展示了平均值和标准差,箱线图从下往上,依次展示了数据集的五个指标:最小值,小四分位数,中位数,上四分位数和最大值。小提琴图和豆图是箱线图的一种变形,展示了各个数据集的实际分布。 4.箱线图的生物学意义在生物医学研究中,通常需要比较具有不同分布的多个数据集。条形图或直方图基于简单的统计测量--平均值和方差,来比较数据集。然而,反应数据总体指标的统计量(平均值和方差等)无法反映数据结构的分布(潜在差异等),可能得到与实际相反的结论。
为什么要这么做呢,用箱线图画一下counts矩阵试试啊,说不定就能找到答案了。 五、总结正所谓:一图胜千言。 可视化的两个目标:加强对样本数据的理解;以可以看见的方式来比较样本。 箱线图是一种简单但功能强大的图形,可以同时满足这两个目标。 直方图绘图要求至少30个样本,而箱线图最小样本量仅为5。在“箱子”的两条线上提供了更多信息,方便于三个或者更多样本之间进行比较。 最后推荐一个发在nature methods上的boxplot的在线工具:http://shiny./boxplotr/,上面最后展示的箱线图,都是用这个工具画的哦! 六、参考资料Anscome's Quartet https://en./wiki/Anscombe%27s_quartet R语言学习 - 箱线图(小提琴图、抖动图、区域散点图)https://www.cnblogs.com/freescience/p/7454874.html |
|