命名与源起 “t”,是伟大的Fisher为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。 Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。(相对而言,我们常说的正态分布,在国外更多的被称为高斯分布……高斯~泉下有知的话,说不定会打出V字手势~欧耶!) 看懂概率密度图 这一点对于初学者尤为重要,相信还是有不少人对正态分布或者t分布的曲线没有确切的理解。 首先,我们看一下频率分布直方图,histogram: 上图,最关键的就是横轴了,柱高,即,对于横轴上每一个点,发生的频次。图中横轴为4处,次数最多,大约12次;依次类推,横坐标为10处,发生1次…… 我们做单变量的探索性数据分析,最喜欢做柱状图了,或者再额外绘制一条Density曲线于其上(见下图)。很容易就可以看出数据的分布(集中趋势、离散趋势),图中,数据大多集中在4左右(均数、众数),有一点点右偏态,但基本还是正态分布。 下图,手绘曲线,即密度曲线,英文全称Probability Density Function/Curve。实际上是对上面柱状图的一个平滑,但它的纵坐标变为了概率,区别于柱状图的频次。但理解起来意义差不多。 以下,我们就用Density曲线来讲解T分布的特征。 T分布的可视化 我们平常说的t分布,都是指小样本的分布。但其实正态分布,可以算作t分布的特例。也就是说,t分布,在大小样本中都是通用的。 之前有读者问过:“是不是样本量大于30或者大于50,就不能用t分布了呀”? 完全不是这样的!t分布,大小通吃!具体且看下文分解。 相对于正态分布,t分布额外多了一个参数,自由度。自由度
以上部分大家大概都学过的,相信大多数读者都会了解。但这里,让我们回到我们的标题(不是标题党):温良宽厚。 大家仔细比较一下下图。t分布(红色)虽然也是钟型曲线,但是中间较低、两侧尾巴却很高。
比较一下上图两条曲线,我用这样一个词,“宽厚”,来形容t分布曲线的特征。是不是比正态分布曲线更宽啊?是不是比正态分布曲线更厚呢?
尾部的高度,有十分重要的统计学意义。 我们来比较一下下图中的两条曲线。这两条曲线同样都是对图中底部6个黑色点(数值)进行分布拟合。 我们首先看一下那条矮的、正态分布的曲线。我们前面说过,正态分布的曲线不具备“宽厚”的特征。它的尾部很低,尾部与横轴之间高度很“狭窄”。也就是说,正态分布不能够容忍它长长的尾部出现大概率的事件(图中横轴值为15处一圆点出现概率为六分之一),所以正态分布就很无奈地,将这一点纳入它的胸膛而非留在尾部。于是乎,恶果就出现了:图中正态分布的均数,远远偏离了大多数点所在的位置,标准差也极大。总之,与我们所期待的很不一致。 再看一下那条高高的t分布曲线。我们前面说过了,t分布“温良宽厚”,它的尾巴很高(本图中不明显,参见上面自由度为1,2,3时所对应的图片),高高的长尾让它有“容人的雅量”。所以,这条t分布的曲线,很好的捕捉到了数据点的集中趋势(横坐标:0附近)和离散趋势(标准差:只是那条正态分布曲线标准差的四分之一)。 这也是T分布盛行的原因,即T分布被广泛应用于小样本假设检验的原因。虽然是很小的样本,但是,却强大到可以轻松的排除异常值的干扰,准确把握住数据的特征(集中趋势和离散趋势)! 准确捕捉变量的集中趋势和离散趋势在统计中有极为重要的意义,几句话难以说清,简单举几个栗子:
通过下面一幅图,我们巩固一下t分布的“宽厚”: 与正态分布曲线(矮胖)比较,t分布以其高高的尾部(本图中不明显,参见上面自由度为1,2,3时所对应的图片),容忍了在横轴为9处的异常值,得到了更稳健的集中趋势估计值(均值1.11)和更紧凑的离散趋势估计值(标准差差0.15,又是正态分布的四分之一)。要知道,我们如果单单想通过增加样本量来将标准误(假设检验中使用的参数,标准差除以自由度的平方根)缩减到四分之一,需要16倍的样本量!可见,t分布当真是威力无穷! PS:上述两幅图中的t分布曲线并不是频率学派应用t分布的常规套路(更像是贝叶斯学派的用法)。细心者可以发现,我们使用的t分布的自由度明显低于n - 1的自由度计算方法。这里的自由度是根据最大似然法估计出来的,用以更恰当地拟合数据的分布。虽然这与我们平时的用法不同,但小编觉得,这一点点不同不仅无伤大雅,反而更有利于大家深入理解t分布的特征——温良宽厚。 掌握了T分布温良宽厚的特征,将会对本号后续介绍的假设检验和T检验有更深入透彻的理解,期待后续文章,记得关注小号呀! 医学统计分析精粹 实用靠谱统计学,关注小号! 长按识别二维码→马上关注
|
|