【原】R语言参数检验：需要多少样本？如何选择样本数量

拓端数据 2020-11-10

展开全文

原文：http:///?p=3719

参数检验受制于数据属性的假设。例如，t检验是众所周知的参数检验，假设样本均值具有正态分布。由于中心极限定理，如果样本量足够，测试也可以应用于非正态分布的测量。在这里，我们将研究t检验有效所需的大致样本数。

将正态分布拟合到采样均值

为了研究满足t检验要求所需的样本数量，我们迭代各种样本量。对于每个样本大小，我们从几个分布中抽取样本。然后，计算样本的平均值，并将正态分布拟合到平均值的分布。在每次迭代中，我们记录描述正态分布与采样均值拟合程度的对数似然。当对数似然变为正时，我们将考虑采样均值接近正态分布。

拟合的概率

调查结果，我们可以看到一些分布似乎比其他分布更快地接近正态分布：

print(result)## Sample_Size Beta Normal Chi Poisson Student## 1 5 694.9139 -299.81161 -496.33474 -702.94076 -1971.203## 2 10 823.0384 -126.68806 -297.08253 -515.18702 -3806.447## 3 15 909.4417 -30.63266 -199.77525 -455.64737 -2119.944## 4 20 1045.1414 46.45709 -136.21868 -375.75690 -2263.025## 5 50 1235.7655 278.66189 84.44694 -117.56140 -3427.721## 6 100 1397.7265 443.81523 281.68706 47.87537 -2178.871## 7 1000 1996.2198 1019.70692 845.26837 619.25871 -3636.674## 8 5000 2398.4267 1402.41433 1260.47873 1018.24454 -3231.983

根据正对数似然，β分布产生的正态分布均值已经为5的样本大小。正态分布，卡方分布和泊松分布在样本大小分别为20,50和100时产生正态分布均值。最后，学生分布的方式永远不会正常，因为具有一个自由度的分布具有无限的峰度（非常重的尾部），使得中心极限定理不成立。