陕西师范大学心理学院 马庄实验室 前言 马庄实验室在2021年冬组织G-power专题讨论,十几名研究生各司其职,分享了各自所负责的板块。最终在马老师的最后整合下,汇聚成一个初步的G-power学习教程。 该教程突出常用分析方法,并结合心理学报等杂志的被试量计算案例,以服务马庄实验室为目的,并顺带帮助更多的研究生更好的开展心理学研究。 注意事项:本教程仅供参考,如有谬误概不负责。关于被试量的问题,马老师也懵圈,所以,马庄实验室不负责进一步答疑解惑。如果有任何疑惑,欢迎留言讨论,期待有共享意愿又有能力的研究者进一步丰富被试量选择的话题。 1 背景知识1.1 被试量与假设检验?统计学存在的基础是变异及由此产生的抽样误差,因此,利用现有的有限的数据做出一个统计学的结论,是有犯错的风险的。 以“女士品茶”为例,据说,一位女士声称,她能够区分奶茶中到底是先加入的奶还是先加入的茶。统计大师Fisher对此存疑,并设计了一个实验来验证。他提出了一个假设,“假设女士没有这种能力(区分奶和茶的添加顺序)”,即: l 零假设(H0):假设女士没有这种能力 l 备择假设(H1):假设女士有这种能力 接下来就是让女士随机品茶。如果零假设是成立的,即女士确实没有区分的能力,那么她只能够靠猜来回答。她仅靠猜测成功答对一杯的概率就是0.5,猜对两杯的概率是0.25,三杯是0.125,四杯是0.0625……七杯是0.007813,八杯是0.003906。 统计中的假设检验是基于“小概率事件原理”的,即“将发生概率不超过0.05的事件当做小概率事件,而小概率事件在一次试验中几乎是不可能发生的”。放到“女士品茶”这个例子中来说,女士没有区分能力而仅靠猜测连续猜对八杯的概率是小于0.05的,也就是“小概率事件”,如果这个几乎不可能发生的小概率事件发生了,那么就说明我们最初的假设是不对的,也就是“零假设:假设女士没有这种能力”是不成立的,说明备择假设成立,即女士是有这种能力的。 在这个例子中我们可以发现,女士品尝的奶茶的杯数是十分重要的。如果杯数太多,会造成人力、物力的不必要浪费,而如果品尝的杯数太少,得到的结论则是不准确的。正如上面我们提到的,利用有限的数据做出一个统计学的结论,是有犯错的风险的。在假设检验中,一共有两类错误:
这里出现了两个假设检验中的重要参数:α和β。需要注意这两者之间的一些关系: l α是拒绝H0时犯错误的概率(这时前提是“H0为真”);β是接受H0时犯错误的概率(这时前提是“H0为假”),所以二者相加不一定等于1 l 1-β反映着正确辨认真实差异的能力,所以又叫统计检验力(power of test)。假如真实差异很小,某个检验仍然能以较大的把握接受它,就说这个检验的统计检验力比较大 l 一个好的检验应该在样本容量一定(sample size)的情况下,使犯这两类错误的概率α和β都尽可能的小 l 在其他条件不变的情况下,α和β不可能同时减小或增大 l 在需要规定α的同时尽量减小β,这时最直接的方法就是增大样本容量(sample size) 除了α、β和sample size,还有一个研究中和常用的参数,效应量effect size,它是指衡量处理效应大小的指标,表示不同处理下的总体均值之间的差异大小。在平均数检验中表示的是两组样本分布的总体的非重叠程度,effect size越大,重叠程度越小,效应越明显。 效应量有个显著的特点,即不受样本容量的影响。同时我们需要注意,效应量并非只是一种指标(目前已有超过100多种指标),有些保留原始单位,有些进行标准化,有些无单位。比如下表列出了一些常用的效应量种类: 在了解了四个统计指标之后,我们将其按照“知三求一”的原则排列组合一下,就得到了GPower中的五种统计力分析(power analysis)类型: l 先验(priori)分析:根据所给的α水平,统计力水平1-β和效应量大小,计算样本容量N; l 折中(compromise)分析:想要得到较小α的和较大的1 − β ,所以α和β之间的权重用q=α/β表示,所以知道N,q和效应量大小,求出α和1-β; l 标准(criterion)分析:根据1-β、效应量和N计算α和相关决策标准; l 事后(post-hoc)分析:根据N,α,效应量大小,计算1-β; l 敏感性(sensitivity)分析:根据α、1-β和N计算效应量 其中,先验分析、事后分析和敏感性分析比较常用。 1.2 G-power适用哪些统计方法?虽然有五种统计力检验类型,但不管需要输入和输出的参数如何组合,它们的基本操作都是相似的,操作方法一共包括三步: G-Power中提供了很多种检验类型,我们需要根据自己的数据类型和需要的参数选择适当的方法,下表提供了各种数据类型与检验方法的关系,在接下来的几章中对每种方法的原理和操作方法都有详细介绍,大家可以按需索引。
2 T tests2.1 单样本t检验统计方法简介 单样本t检验常常用来检验样本数据是否与某一特定的数值之间存在差异,例如,想要验证某一批产品是否符合规定的标准,利用单样本t检验可以将抽出的一组样本数据与规定的标准数值进行比较。
我们可以在Gpower中使用样本量大小、显著性水平α、检验力β以及效应量d中的任意三个变量去计算第四个变量。例如,我们可以通过给定的显著性水平α、检验力β以及效应量d对所需要的样本量大小进行估计(A priori,见图1.1)。 图1.1 Type of power analysis 计算样本量 在进行实验前,我们可以使用Gpower计算所需的样本量大小。 【示例1】 研究者借鉴了传统内隐联想测验(IAT)的程序模式,开发了一套单类内隐联想测验(SC-IAT),SC-IAT将两个目标对象变成一个目标对象,减少了实验步骤。研究者希望探究SC-IAT测验里的自动联想激活成分是否存在。研究者将SC-IAT的加工过程分为两种成分:自动联想激活(A)和控制加工过程(C)。利用被试在相容任务和不相容任务的错误率计算A和C两个参数,可以计算出每个被试的参数A和C值。然后计算样本平均值,分别与0作比较,进行显著性检验。若自动联想激活(A)的样本平均值与0有显著性差异,则可说明SC-IAT测验里存在自动联想激活成分。 研究结果显示,A参数的平均值为0.11,与数值"0"进行单样本t检验,t(85)=3.67,p<.01,d=.68。C参数的平均值为0.88,与数值"0"进行单样本t检验,t(85)=41.60,p<.01,d=7.73。(参考文献:艾传国,佐斌(2012). 单类内隐联想测验(SC-IAT)自动联想激活成分分离. 第十五届全国心理学学术会议.) 操作流程(见图1.2) ① 首先选定t检验:Test family中选定t test ② 选定单样本t检验:Statisticaltest中选定Means: Difference from constant (one sample case) ③选定先验计算样本量:Type ofpower analysis中选定A priori: Compute required sample size– given α, power, and effect size(如需计算显著性水平α和检验力β、显著性水平α、检验力β、效应量d时分别选择Compromise、Criterion、Post hoc、Sensitivity) ④输入给定参数:InputParameters中的Tail (s)(单双尾检验)选择Two(根据实用统计方法的真实情况进行选择),Effect size d(效应量d)输入0.5,α err prob(显著性水平α)输入0.01, Power (1-βerr prob)(检验力β)输入0.8 Tips:在没有特殊要求的一般情况下,显著性水平α根据实际情况可输入0.05,0.01,0.001等;检验力β一般取0.8以上;t检验中的效应量d一般取0.2(小效应量),0.5(中等效应量),0.8(大效应量)。 ⑤进行计算:点击Calculate ⑥输出结果:OutputParameters中给出的结果包括Noncentrality parameter δ(非中心参数,可用于描述常用的检验统计量,代表检验统计量的均值偏离在原假设为真情况下的均值的程度)=3.57,Critical t(t值)=2.68,Df(自由度)=50,Total sample size(样本量)=51,Actual power(实际检验力)=0.81 结果说明,当我们需要结果在0.01的水平上显著且效应量为中等的0.5时,我们需要51个样本进行分析,也就是说我们至少需要51个被试才能使我们实验数据结果的检验力在0.8以上。 ⑦输出检验统计量的关系图:我们还可以通过点击X-Y plot fora range of values将四个检验统计量之间的关系进行可视化展示。在Plotparameters中我们可以自由选择固定某两个变量并规定纵横坐标的变量。在示例中,研究者获取了86个被试的数据,β已经大于0.98。同时,我们还可以选择将不同水平的d值同时呈现在图中进行比较。 图1.2 单样本t检验样本量计算操作界面 图1.3 单样本t检验统计检验量关系图输出界面1 估计效应量 当我们在实验前计算样本量时,需要事先给定效应量d值,通常我们会选择给出常用的0.2,0.5或0.8,但如果我们已经获得了一部分数据,可以利用现有的样本数据对效应量进行预估。 【示例2】 (示例来源:https://zhuanlan.zhihu.com/p/50089517) 操作流程(见图1.4) ①-③步骤同【示例1】 ④输入给定参数:InputParameters中的Tail (s) 选择One,α err prob输入0.01,Power (1-βerr prob) 输入0.8,Effect sized暂不输入 ⑤预估效应量:点击Determine,在弹出的对话框中依次输入Mean H0(总体均值)=20,Mean H1(样本均值)=17.17,SD σ(样本标准差)=2.98,点击Calculate计算出Effect size d=0.95,或者直接点击Calculate and transfer to main window将计算好的效应量自动填进左边的Input parameters模块 ⑥进行计算,输出结果:Inputparameters模块中点击Calculate,Output Parameters中给出结果Noncentralityparameter δ=3.55,Critical t=2.65,Df=13,Total samplesize=14,Actual power=0.80 结果说明,至少需要14个样本才能保证在0.01的显著性水平下,效应量等于0.95,检验力大于0.8。绘制统计检验量关系图(见图1.5)可知,示例中只取10个样本所能达到的检验力只有0.59,需要继续抽样。 图1.4预估单样本t检验的效应量大小操作界面 图1.5 单样本t检验统计检验量关系图输出界面2 2.2 独立样本t检验统计方法简介 独立样本t检验常常用来检验两个不相关样本数据之间是否存在差异。例如,想要验证两所学校的学生数学成绩之间是否存在差异,可以使用独立样本t检验将分别从两个学校中抽出的两组样本数据进行比较。
Gpower使用与操作 独立样本t检验在Gpower的功能和操作上同单样本t检验相同。 计算样本量 【示例】 研究者记录了两种不同路段(基本路段vs. 合流影响区路段)上车辆的行驶速度,并进行独立样本t检验,比较两组样本是否存在差异,以探究道路出入口对车辆流速的影响,具体数据如下: (参考文献:王茹,翁剑成,乔国梁. (2015). 不同道路条件对城市路段交通流特征的影响研究. 交通工程, 015(001), 8-14.) 操作流程(见图1.6) ①选定t检验:Test family中选定t test ②选定单样本t检验:Statisticaltest中选定Means: Difference from two independent means (two groups) ③选定先验计算样本量:Type ofpower analysis中选定A priori: Compute required sample size– given α, power, and effect size ④输入给定参数:InputParameters中的Tail (s)选择Two,α err prob输入0.01, Power (1-βerr prob)输入0.8,Allocationratio N2/N1(两组样本量比值)输入1(可根据实际情况调整) ⑤预估效应量:若有部分数据,可对效应量进行预估。点击Determine,若两组样本量不同,则只需在n1!=n2下输入两组样本的均值,若两组样本量相同,则需在n1=n2下分别输入Mean group 1(组1样本平均数)=75.08,Mean group 2(组2样本平均数)=72.10,SD σ group 1(组1样本标准差)=3.985,SD σ group 2(组2样本标准差)=4.040,直接点击Calculate and transfer to main window将计算好的效应量0.74自动填进左边的Input parameters模块 ⑥进行计算,输出结果:点击Calculate,Output Parameters中给出的结果包括Noncentralityparameter δ=3.52,Critical t=2.63,Df=88,Sample sizegroup 1(组1样本量)=45,Sample size group 2(组2样本量)=45,Total samplesize(总样本量)=90,Actual power(实际检验力)=0.81 结果说明,当我们需要结果在0.01的水平上显著且效应量为0.74时,我们需要两组样本量均至少为45,也就是说我们每组至少需要45个被试才能使我们实验数据结果的检验力在0.8以上。根据统计检验量关系图(图1.7)可知当总样本量大于130时检验力将稳定在0.95以上,因此示例中的样本量时足够的。 图1.6 独立样本t检验样本量计算操作界面 图1.7 独立样本t检验统计检验量关系图输出界面 2.3 配对样本t检验统计方法简介 配对样本t检验是检验两组完全同质的样本之间是否存在差异的统计方法。例如,想要检验某种新的教学方法的教学效果,可以使用配对样本t检验对一个班级在使用新的教学方法前后的成绩进行对比。
Gpower使用与操作 Gpower中对配对样本t检验的检验统计量的计算和独立样本t检验大致相同。 计算样本量 【示例】 为了检验一学期以来学生的学习效果,使用配对样本t检验对比了部分同学在学期初和学期末的成绩,具体数据如下: 操作流程(见图1.8) 配对样本t检验中计算样本量的操作与单样本t检验、独立样本t检验大致相同,只是在Statisticaltest中需要选定Means: Difference from two dependent means (matched pairs),另外,当取得了部分数据需要对效应量进行计算时,除了和独立样本t检验一样需要提供两组(或前后测)的平均数与标准差外,还需要提供两组配对数据的相关系数。 根据结果可知,当我们固定效应量为预估的0.47,且检验力至少大于0.8时,若我们要求配对样本t检验的结果在0.05水平上显著,则样本量至少为38(见图1.8 左);若我们要求配对样本t检验的结果在0.01水平上显著,则至少需要56个被试(见图1.8 右)。 图1.8 配对样本t检验样本量计算操作界面 2.4 曼-特尼U检验Wilcoxon-Mann-Whitney test统计方法简介 Wilcoxon-Mann-Whitney test也叫维尔克松两样本检验法/曼-特尼维尔克松秩和检验、曼-特尼U检验
计算方法 l n1、n2≤10时,首先将所有数据有小到大排列,将容量较小的样本中各数据的等级相加,用T表示,根据n1和n2的值查秩和检验表,将T值与临界值比较,若T≤T1或T≥T2表明两样本差异显著,否则不显著。 l n1、n2≥10时,秩和T接近正态分布,平均数μT=n1(n1+n2+1)/2,标准差σT=√(n1n2(n1+n2+1)/12),n1≤n2,Z=(T- μT )/ σT Gpower使用与操作 维尔克松两样本检验在Gpower中计算统计检验量的操作与独立样本t检验完全相同(见图1.9),只是Statisticaltest中需要选定Wilcoxon-Mann-Whitney test (two groups),并额外需要在Input parameters中需要对Parentdistribution(总体分布)进行选择,包括Normal(正态分布)、Laplace(拉普拉斯分布)、Logistic(逻辑斯谛分布/增长分布)、minARE。 图1.9 维尔克松两样本检验样本量计算操作界面 2.5 符号秩和检验Wilcoxon signed-rank test统计方法简介 Wilcoxon signed-rank test也叫威尔科克森符号秩检验/维尔克森符号等级检验法/符号秩和检验/维尔克松检验法,也称符号秩和检验,其基本思想是假定配对的两种处理效应相同,即其差值的总体分布应为对称分布,且差值的总体中位数为0。
计算方法 l 对i=1,...,n,计算∣Xi-M0∣,它们代表这些样本点到M0的距离。 l 把上面的n个绝对值排序,并找出它们的n个秩,如果它们有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4)。 l 令W+等于Xi-M0>0的∣Xi-M0∣的秩的和,而W-等于Xi-M0<0的∣Xi-M0∣的秩的和。 l 对双边检验H0:M=M0<=>H1:M≠M0,在零假设下,W+和W-应差不多。因而,当其中之一很小时,应怀疑零假设。在此,取检验统计量W=min(W+,W-) l 根据得到的W值,利用统计软件或查Wilcoxon符号秩检验的分布表以得到在零假设下的p值。如果n很大要用正态近似:得到一个与W有关的正态随机变量Z的值,再用软件或查正态分布表得到p值。 l 如果p值较小(比如小于或等于给定的显著性水平,譬如0.05)则可以拒绝零假设。如果p值较大则没有充分的证据来拒绝零假设,但不意味着接受零假设。 Gpower使用与操作 Wilcoxonsigned-rank test(one sample case)在Gpower中计算统计检验量的操作与单样本t检验完全相同,Wilcoxon signed-rank test(matchedpairs)与配对样本t检验完全相同,但同样额外需要在Inputparameters中需要对Parent distribution进行选择。 2.6 点二列相关分析点二列相关特点:自变量为二元变量,如男女等真实分类变量。因变量为连续变量。 ¡ 涉及参数: |r| :总体相关系数的绝对值,代表相关的效应大小 Small r = 0.1 medium r = 0.3 large r = 0.5 Ø 例子:如果要达到r=0.25,1-β= 0.95,且相关系数是显著的需要多少被试? Ø 输入: Tail(s) 选择One Effect size |ρ| = 0.25 α err prob = 0.05 Power (1-βprob) = 0.95 Ø 输出: Total sample size = 164 2.7 回归分析2.7.1 one group, size of slope ¡ 目的:确定预测变量的斜率是否显著不同于0。即检验自变量对因变量的影响是否显著。 H0 :β=0 H1 :β≠ 0 回归方程公式:Y= α + βX +ε ¡ 使用Gpower功能: 1. 计算达到期望斜率和检验功效的被试量 2. 实验后计算检验功效 计算被试量 问题1:为什么没有实验就能获得斜率值? β= r ×(Std devσy/ Std devσx) 问题2:为什么没有实验就能获得变量的标准差? 作者按照实验获得的是标准回归方程来设定,自变量和因变量都是标准正态分布,所以假设标准差为1. 例子:H0 :β≥0.40,为了保证β=0.20的回归方程,且检验功效达到0.95,需要多大的被试量? Ø 输入: Tail(s) 选择One 计算Slope H1:打开Calculate选择inputmode:ρ, σ_x, σ_y = > slope。输入Correlationρ = 0.5、Std devσ_x和Std devσ_y为1。计算得到0.20 α err prob = 0.05 Power (1-βprob) = 0.95 Slope H0 = 0.40 Std devσ_x = Std devσ_y = 1 Ø 输出: Total sample size = 262 计算检验功效 例子:每天锻炼的实际平均时间是否与6个月的训练计划后的身体质量指数(BMI)有关。经过调查后计算方程得到β=-0.0667,想知道斜率的检验力。 需要的参数:自变量和因变量的标准差、斜率值、样本量 Ø 输入: Tail(s) 选择Two Slope H1 = -0.0667(*双尾检验输入这项时需要带正负号) α err prob = 0.05 Total sample size = 100 Slope H0 = 0 Std devσ_x = 7.5 Std devσ_y = 4 Ø 输出: Power (1-βprob) = 0.2389693 参考文献:Faul, F., Erdfelder, E.,Buchner, A., & Lang, A-G. (2009). Statistical power analyses using g*power3.1: tests for correlation andregression analyses. Behavior Research Methods. 2.7.2 two groups, different betweenintercepts ¡ 适用条件:适用于斜率β相同,截距α1和α2可能不同的两个一元线性模型。 ¡ 目的:检验两个方程的截距是否存在差异。可以理解为检验两个群体是否为同质性群体(可以使用在检验实验组和控制组差异是否显著) ¡ 相关参数: |Δintercept|=| α1 - α2 | 两群体的样本量 两群体自变量的标准差 两群体自变量的平均数 2.7.3 two groups, different between slopes ¡ 目的:假设从两个不同的群体中抽取两个独立的样本,每个样本都与模型一致。检验自变量对因变量的效应,是否受到人群特征的影响而产生差异。 1. 计算检验功效 Ø 例子:研究者认为IAT的标准效度取决于测试情境中的自我激活程度。即人们对待酒精和软饮料的态度与他们自我报告的实际酒精消耗量之间存在相关,相关的程度受到人们是否被激活了自我概念的影响。实验后想计算检验功效的大小。 实验组:激活了自我概念 控制组:阅读无关词 Ø 相关参数: |Δslope|=|β1-β2|=|0.48-(-0.09)|=0.57 Std dev. residual σ = 0.80 参考文献:Perugini, M., O’Gorman, R., & Prestwich, A. (2007). Anontological test of the IAT: Self-activation can increase predictive validity.Experimental Psychology, 54, 134-147. 计算被试量 事先已经做了一次实验收集到数据,计算出斜率的差值,希望招募更多的被试来进行验证。 Ø 例子:男性的年龄和肺活量的关系。其中接触镉的经验作为分组变量。 Ø 相关参数: |Δslope|=|β1-β2|=| (-0.03061)-(-0.04653)|=0.01592 Std dev. residual σ = 0.5578413 N1 = 28, N2 = 44 结论:一共需要419名被试,组1需163人,组2需要256人。 2.8 多元线性回归fixed model¡ 基本概念:评价多元回归模型中单个预测因子Xj的效果的特殊F检验 ¡ 目的:对单回归系数的t检验可以采用单尾检验的形式 ¡ F检验中的fixed model与t检验中的fixed model的关系:
Ø 例子:研究者认为IAT的标准效度取决于测试情境中的自我激活程度。想要评估由于交互作用而导致的检验功效的增加量。 自变量: 1. 对酒水的态度(IAT量表测出) 2. 虚拟变量(控制组,G=0;自我概念激活组,G=1) 3. 乘积变量G·X表示两者的交互作用 因变量:自我报告的酒水消耗量 Ø 所需参数: Effect size f2: 解释方差与误差方差的比值 Small f2 = 0.02 medium f2 = 0.15 large f2 = 0.35 3 F tests3.1完全随机设计的方差分析(complete randomlized design)3.1.1单因素组间设计的方差分析(one-waybetween-subjects)单因素ANOVA在F检验中有对应的选项。分析其主效应就是观察水平数间的差异,选取所需的统计力分析类型后,并填写已知参数大小,该计算界面只需掌握一项计算规律,number of group 代表自变量的水平数。 例1根据参考文献(苗晓燕 2021) ,图1所示,对于单因素三水平方差分析,number of group为3,根据文献描述,研究者先进行先验分析,填写了显著性水平、效应值、统计检验力大小,得出该实验所需159名样本量。 图1 单因素三水平方差分析样本量计算 图2 单因素三水平方差分析计算效应量大小 如图2所示,在实验结束后,由于剔除了一些被试,研究者想分析一下在174名有效被试的条件下,实验结果能达到多大的效应,检测结果,主效应属于中等水平的效应。 3.1.2两因素组间设计的方差分析两因素组间设计在F检验中有对应的选项。该选项下既可以分析组间变量主效应也可以分析组间变量交互作用,但是一般研究者只计算交互作用条件下对应的样本量,一个原因是该条件下需要的样本量比主效应下更大,满足了交互作用就可满足主效应条件下的样本量,另一个原因在于正如数据分析时,研究者们其实更注重研究结果的交互作用。计算过程中,选取所需的统计力分析类型后,并填写已知参数大小,该计算界面只需掌握两项计算规律,首先numerator df: 主效应的计算方式=水平数-1,交互作用的计算方式=(A水平数-1) *(B水平数-1),number ofgroup : 无论主效应还是交互作用计算方式都是(A水平数)* (B水平数)。 例2参考文献(苗晓燕 2021)的另一个实验,图3所示,实验一共招募120名被试,研究者想检测一下实验结果能达到多大的效应,根据文献描述,研究者进行敏感性分析,填写了显著性水平、被试数量、统计检验力大小。该实验是2*2的组间设计,无论是主效应还是交互作用,numerator df=1,number of group=4,检测结果,效应都属于中等水平效应。 图3 两因素组间设计方差分析计算效应量大小 例3参考文献(吴奇, 钟春艳 et al. 2021)的另一个实验,图4所示,根据文献描述,该实验是2*3的组间设计,研究者进行先验分析,填写了显著性水平、效应量大小、统计检验力大小。当研究者没有具体声明计算主效应下的样本量时,一律默认计算交互作用下的样本量,因此按照计算规律numerator df=2,number of group=6,结果显示,根据该实验设计,需要240名被试。 图4 两因素组间设计方差分析样本量计算 3.2随机区组设计的方差分析(randomlizeddesign)3.2.1两因素重复测量方差分析 两因素重复测量方差分析在F检验中有对应的选项。该选项下可以分析组内变量主效应,。计算过程中,选取所需的统计力分析类型后,并填写已知参数大小,该计算界面只需掌握两项计算规律,首先numerator df= 1(由于自变量都是组内变量,其实每个被试自己构成一组),number of measurements = 计算方式是(A水平数)* (B水平数)(相当于1个被试重复实验了几次)。 Ø 注:可参考已有文献的Partial Eta squared或者Cohen建议的效应量基准得到effect size大小。 Ø 注:新版的重复测量方差分析当中,组内相关系数为0.5,球形检验系统为1(均为默认数值),并且不用再除重复测量次数。 例4参考文献(雷震, 毕蓉 et al. 2021)的实验,图5所示,根据文献描述,该实验是2*3的被试内设计,研究者进行先验分析,填写了显著性水平、参考已有文献的Partial Eta squared得到效应量大小、统计检验力大小。然后按照计算规律numerator df=1,number of measurements =2*3=6,结果显示,根据该实验设计,只需要16名被试即可。 图5 两因素重复测量方差分析样本量计算 3.2.2混合设计重复测量方差分析(两因素)混合设计重复测量方差分析在F检验中需要将组间效应、组内效应、交互作用分开来算,一一对应的关系。但是根据已有文献进行分析,当遇到混合设计重复测量方差分析时,若计算样本量,一般只计算交互作用条件下的样本量。计算过程中,选取所需的统计力分析类型后,并填写已知参数大小,该计算界面只需掌握两项计算规律,首先numerator df = 被试间变量的水平数(分几组被试填几),number of measurements = 被试内变量的水平数 (相当于每个被试重复实验了几次)。 例5参考文献(张银玲, 虞祯 et al. 2020)的实验,图6所示,根据文献描述,该实验是2*2的混合实验设计,研究者进行先验分析,填写了显著性水平、效应量大小、统计检验力大小。然后按照计算规律numerator df=2,number of measurements =2,结果显示,根据该实验设计,至少需要52名被试。 图6混合设计重复测量方差分析(两因素)样本量计算 例6参考文献(袁璐, 常若松 et al. 2021)的实验,图7所示,根据文献描述,该实验是2*2*2的混合实验设计,其中两个被试间变量,一个被试内变量。研究者进行先验分析,填写了显著性水平、效应量大小、统计检验力大小。然后按照计算规律numerator df=2*2=4,number of measurements =2,结果显示,根据该实验设计,至少需要48名被试。 图7混合设计重复测量方差分析(三因素)样本量计算 3.3 F tests协方差分析(ANCOVA)ANOVA算是ANCOVA中的一种,ANCOVA在F检验中也有对应的选项。选取所需的统计力分析类型后,并填写已知参数大小,相比于ANOVA分析,该计算界面只需多掌握一项计算规律,number of covariates 代表协变量的个数。 例7参考文献(张丽锦, 暴卿 et al. 2021)的实验,图8所示,根据文献描述,该实验是单因素组间设计,其中组间变量有5个水平,一个协变量。研究者将数学前测成绩作为协变量,分析不同干预方法对数学后测成绩的影响。实验招募125名被试,研究者想检验一下该被试量下得到的结果能达到多大的统计力水平,因此进行事后分析,填写了显著性水平、效应量大小、被试数量。然后按照计算规律number of covariates=1,number of groups =5,numeratordf = 5-1=4结果显示,统计力水平超过基本水平0.8,因此,该研究样本量符合要求。 图8 协方差分析统计力水平大小计算 4 Chi-square test tests卡方检验属于非参数检验,由于非参检验不存在具体参数和总体正态分布的假设,所以有时被称为自由分布检验。参数和非参数检验最明显的区别是它们使用数据的类型。非参检验通常将被试分类,如男性和女性,这些分类涉及名义量表或顺序量表,无法计算平均数和方差。 卡方检验分为拟合度的卡方检验和卡方独立性检验。拟合度卡方检验主要使用样本数据检验总体分布形态或比例的假说。测验决定所获得的的样本比例与虚无假设中的总体比例的拟合程度如何。 例如:“对于可口可乐公司的两个领导品牌,大多数美国人喜欢哪一种”?“公司采用了新的网页页面B,相较于旧版页面A,网民更喜欢哪一种页面”? 卡方独立性检是用于两个或两个以上因素多项分类的计数资料分析,即研究两类变量之间(以列联表形式呈现)的关联性和依存性,或相关性、独立性、交互作用性。卡方独立性检验的虚无假设指所测量的两个变量之间是独立的,即对于每个个体,所得到的一个变量值与另一个变量的值是不相关的。 例如:研究人员正在研究学习成绩和自尊之间的关系。样本为n=150名10岁的儿童,每名被试均根据学习成绩和自尊水平分类。下表显示了该例中的频率分布和实际频数。 在上例中,存在两个分类变量(学习成绩、自尊),每个变量含有不同水平(学习成绩有高低两个水平、自尊有高中低三个水平)。而在卡方拟合优度的例子中,我们只有一个分类变量(网页),该变量含有新旧两个水平。 4.1 列联表拟合度检验Goodness-of-fit tests: Contingency tests例:在马蓉和秦晓晴(2017)多群组结构方程模型方法的研究中,想要构建夸群组模型,并对其模型进行检验,因此选择Chi-square test ——Goodness-of-fittests: Contingency tests。
在卡方检验中,效应量w值的设定一般为Cohen(1969): l smallw = 0.10 l mediumw = 0.30 l largew = 0.50 注:当不知如何选择时,可以选中等0.30。 选择: Test family:x2 tests Statistical test:Proportion:Goodness-of-fit tests: Contingency tests Type of power analysis: A priori 输入: Effect size w = 0.3 α err prob: 0.05 Power (1-βerr prob): 0.8 Df = (2-1)*(6-1) = 5 参考文献:马蓉,& 秦晓晴. (2017). "动机调控的词汇学习模型"的适用性及其效度研究——多群组结构方程模型方法. 外语学刊(1), 6. Cohen, J. (1969). Statistical power analysis for thebehavioral sciences. New York: Academic Press. 4.2 与常数的差异比较 Variance - difference from constant (one sample case)此方法用于检验正态分布随机变量的方差与特定方差的差异。 当关注是否有差异时选择双尾检验,关注差异的符号(大于或小于)时选择单尾检验。 例:如果想要检测某个样本的方差是否显著低于𝜹0 = 1.5 ,样本量至少为多少?(本例中,显著低于的标准是𝜹2 < 1) 则:var1/var0 =1/1.5 = 0.66667 选择: Test family:x2 tests Statistical test:Proportion:Variance: difference from constant (one sample case) Type ofpower analysis: A priori 输入: Tail(s) = One Ratio var1/var2 = 0.66666667 α err prob: 0.05 Power (1-β err prob): 0.8 5 Z test5.1 Correlation - inequality of two independent Pearsonr’sZ检验是对比差异是否显著的假设检验方法,利用的原理是标准正态分布,重点要与T检验做区分。只有当总体方差已知且样本数大于30时才能用Z检验,在这种条件下Z检验又包括不同的几种情况,当涉及到两个独立样本的总体相关系数之间差异的假设检验时,我们就要选择Correlation:Two independent Pearson r’s。 举例来说:假设我们要证明A组的学习时数与考试分数之间的相关性是否与B组的学习时数与考试分数之间的相关性存在统计学差异。已知A组的相关系数r1=0.75,B组的相关系数r2=0.88,现在已有的数据中,A组人数N1=51,B组人数N2=260,利用这些数据我们要得出A、B 两组最佳样本数,那么在GPower软件中我们的操作分为两步: 第一步: 选择: Test family:z test Statistical test:Correlation:Two independent Pearson r’s Type of power analysis:Post hoc 输入: Tail(s): two Effect size q:-0.4028126 α err prob: 0.05 Sample size: 260 Sample size: 51 这一步的Effect size q: -0.4028126这个值,是通过Determine=>按钮,利用原始数据计算得出的,步骤为:点击Determine=>按钮,依次输入两个相关系数r1、r2,然后点击Calculate即可得到Effect size q的具体值。除此之外,α err prob,可以根据自己的实验需求填写,一般通常为0.05;样本量根据题目条件填写即可。 输出: Critical z: -1.959964 Power (1-β): 0.726352 第二步: 选择: Test family:z test Statistical test:Correlation:Two independent Pearson r’s Type of power analysis:A priori 输入: Tail(s): two Effect size q:-0.4028126 α err prob: 0.05 Power (1-β): 0.726352 Allocation ratioN2/N1:1 这一步的Power (1-β): 0.726352这个值,是第一步输出的;Effect size q的值和第一步一样,Allocation ratio N2/N1是两个样本数的比例,根据自己的研究填写,我选择两个样本数相等,所以填入1。 输出: Critical z: -1.959964 Sample size group1:84 Samole size group2:84 Total sample size:168 Actual power:0.7269215 此处输出的Sample size group1:84和Samole sizegroup2:84就是该例子中,我们研究所需的两个组的样本量至少要每组84个,总共168个。软件操作页面如下 5.2 Two dependent Pearson r`s(no common index)当涉及到两个相关样本的相关系数之间差异的假设检验,且两个样本不包含同一变量时,我们就要选择Correlation:Two dependent Pearson r’s (no common index)。举例来说:假设我们要证明同一样本在不同年龄阶段下对暴力性电视节目的喜爱和攻击性行为之间的相关系数是否存在统计学差异(Eron,et al.1972),具体相关系数见下图。 利用Gpower计算所需样本量时,只需将相应变量之间的相关系数填入相应选项。为方便将具体的相关系数填入Gpower中,将相关系数整理成相关矩阵的形式。
选择: Test family:z test Statistical test:Correlation:Two dependent Pearson r’s(no common index) Type of power analysis:A priori:Compute required sample size-given α,power,and effect size 输入: Tail(s): one H1 corr ρ_cd:0.2 αerr prob:0.05 Power(1-β err prob):0.8 H0 corr ρ_ab: 0.1 Corr ρ_ac: 0.5 Corr ρ_ad: 0.4 Corr ρ_bc: -0.4 Corr ρ_bd: 0.8 在这一步中,“Tail(s)”若需要双侧检验,则选“two"选项;“α err prob”一般填写0.05,可根据实际情况更改;“ Power(1-β err prob)” 需大于0.8。 输出:Samplesize: 886 5.3 Two dependent Pearson r`s( common index)当涉及到两个相关样本的相关系数之间差异的假设检验,且两个样本包含同一变量时,我们就要选择Correlation:Two dependent Pearson r’s ( common index)。举例来说:假设有研究想要了解人们的生活满足感与看电视和上网之间的关系,因为电视比互联网更普及,所以假设看电视与生活满足感的相关程度高于上网与生活满意度的相关程度。其中,common index为生活满足感,具体相关指数如图:
同Z-test:Two dependent Pearson r’s(no common index)一样,利用Gpower计算所需样本量时,只需将相应变量之间的相关系数填入相应选项。 选择: Test family:z test Statistical test:Correlation:Two dependent Pearson r’s( common index) Type of power analysis:A priori:Compute required sample size-given α,power,and effect size 输入: Tail(s): one H1 corr ρ_ac:0.2 αerr prob:0.05 Power(1-β err prob):0.8 H0 corr ρ_ab: 0.4 Corr ρ_bc: 0.5 在这一步中,“Tail(s)”若需要双侧检验,则选“two"选项;“α err prob”一般填写0.05,可根据自己的情况更改;“ Power(1-β err prob)”需大于0.8。 输出:Samplesize:144 5.4 Tetrachoric Correlation当因变量为人为二分变量时,我们就要选择Tetrachoric model,举例来说,现在有930名受访者对人格问卷中两个问题的回答是或否记录在一个2×2表格中,表格中的结果我们可以写成这样:f11=203,f12=186,f21=167,f22=374。
在得到上述数据后,就可以在GPower软件中选择相关选项,以上述题目为例,我们的操作为: 选择: Test family:z test Statistical test:Correlation: Tetrachoric model Type of power analysis:A priori 输入: Tail(s): One H1 corrρ: 0.2399846 α err prob: 0.05 Power (1-β errprob):0.95 H0 corrρ: 0 Marginal prob x:0.6019313 Marginal prob y:0.5815451 这一步的H1 corrρ: 0.239984这个值,是通过Determine=>按钮,利用原始数据计算得出的,步骤为:点击Determine=>按钮,选择From C.I. calculatedfrom observed freq,依次填入f11,f12,f21,f22的值,然后点击Calculate即可得到H1 corrρ的具体值,。除此之外,α err prob,Power (1-β err prob)这两个值根据自己的实验需求填写,一般通常为0.05和0.95;H0 corrρ则为0,也就是我们的零假设,其他值无需更改。 输出: Critical z: 1.644854 Total sample size: 463 Actual power: 0.950370 H1 corrρ: 0.239985 H0 corrρ: 0.0 Critical r lwr:0.122484 Critical r upr:0.122484 Std err r: 0.074465 此处输出的Total sample size: 463就表明在本例这个研究中我们的样本数至少要达到463个。软件操作页面如下: 6 Exact6.1 多元线性回归Random model线性回归是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。如果可以确定n个自变量相互独立,并与因变量组成联合多元正态分布,便可使用此方法。 举例来说:有人认为,某校高中生在数学、语文、英语三门科目上所做练习题的数量可解释期末考试成绩变异的70%,但反对者认为,练习题数量所能解释的变异不超过50%。试问,要抽取多少学生参与调查,才能验证此判断?在GPower软件中我们可以如此操作: 选择: Testfamily:Exact Statisticaltest: Correlation:Linear Multiple Regression:Randommodel Typeof power analysis: A priori 输入: Tail(s): one H1 ρ*2:0.7 H2 ρ*2:0.5 α err prob:0.05 Power (1-β) prob:0.95 Number of predictors:3 欲求样本数量,需要输入自变量的数量(Number of predictors),两类假设的决定系数也即多元全相关系数的平方(ρ2),需求的α与(1-β)的预设值。其中,ρ*2=Σ’YXΣ-1XΣYX/σ*2Y,若ρ*2未知,可以点击Determine=>按钮,输入各独立自变量与因变量的相关来求出。 输出: Lower critical R*2: 0.6182228 Upper critical R*2: 0.6182228 Totalsample size:105 Actualpower: 0.9513667 从结果可知,我们研究所需的样本量至少要105个。 6.2 Proportion:符号检验(binomial test)符号检验法是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。此处是针对二项分布的符号检验法。举例来说:有A、B两种治疗皮肤病的药物,有些研究员认为两种药物的效果一样好,有些研究员根据过往数据,认为A药的效果远好于B药,现在招募患有皮肤病的被试,左手涂A药,右手涂B药,效果好记为1,不好记为0。剔除相等数据后,用正负号来表示左右手的效果差异。 选择: Test family:Exact Statistical test:Proportion:Sign test(binomial test) Type of power analysis: A priori 输入: Tail(s): one Effect size g: 0.3 α err prob: 0.05 Power (1-β): 0.95 其中效应量g = p−0.5 (p0 = 0.5),p为预计的正号或负号比例 输出: Lower critical N:19 Upper critical N:19 Total sample size:28 Actual power: 0.9609293 Actual α:0.0435793 此处输出的Total sample size: 28就表明在本例这个研究中我们的有效样本数至少要达到28个。 6.3 Fisher's exact test (独立样本)精确检验是一族特殊的统计检验方法,它们最突出的特点是不需要统计量(t检验的t值、F检验的F值、卡方检验的卡方值)而直接利用原始数据计算出精确p值,以检验假设是否成立。 Fisher's exact test和卡方检验十分相似。然而,卡方检验利用了大样本情况下数据分布渐进卡方分布的性质,得出近似的p值,并且在小样本情况下需要做若干矫正。与之相对,Fisher's exact test总是能够利用样本原始数据计算出精确且“有意义”的p值,但是,这种计算非常繁琐,在计算机诞生以前使用起来十分不便。计算上的不便造成了它更加适合小样本的说法,而易于计算的特点让卡方检验更为流行。 下面先通过一个例子了解Fisher's exact test是如何得出精确p值的。我们对性别和节食的关系感兴趣,到路上随机采访了5名男生和5名女生,问他们是否在近期进行节食。得到的结果如下。问:女生节食的情况是否显著多于男生?虚无假设:女生节食情况和男生节食情况没有显著差异。
如果虚无假设成立的话,那么我们应该观察到男生组的节食情况和女生组的节食情况差不多。假如我们观察到了一个非常极端的情况,男生组和女生组有很大的差异,那么这个时候我们就要考虑拒绝虚无假设了。所以回答这个问题的关键在于判断我们手头拿到的这个分布是不是一个极端情况,换句话说,我们看到的这个分布有多大的概率出现,这便是Fisher’s exact test中p值的含义。 现在,我们把数据用字母代替,以得出计算p值的通式,如下所示。
两个分式的含义不同,但是计算结果相同,都等于第三个分式。对于第一个分式来说,它的含义是:从n个被试中抽取a+c个男生,恰好抽中a个男生在节食,c个男生没节食的概率;对于第二个分式来说,它的含义是:从n个被试中抽取b+d个女生,恰好抽中b个女生在节食,d个女生没节食的情况。根据组合数的性质,两者展开之后等同于第三个分式。由于需要计算阶乘,当数值变大时很难手算完成。以上便是前文所述“Fisher's exact test总是能够利用样本原始数据计算出精确且“有意义”的p值,但是,这种计算非常繁琐”的依据。 带入数值到通式中,可得p=5!5!5!5!/1!4!4!1!10!=0.09920635。按照单尾α=0.05的标准,我们看到的分布并不算是一个极端情况,我们不能拒绝虚无假设。 什么原因造成了这样的问题呢?数据分布看上去对备择假设非常有利,也就是男女生两组数据看上去是有显著差异的。这个时候我们怀疑可能是发生了第二类错误,也就是备择假设为真,但是我们却拒绝了备择假设。换句话说,统计效力太小,没有把真实的效应检验出来。 现在用到Gpower软件,首先看看我们的统计效力究竟有多大,步骤如下: 1)Testfamily选中Exact; 2)Statisticaltest选中Fisher's exact test; 3)Typeof power analysis选中Post hoc; 4)Tail(s)选中One; 5)Proportionp1:男生组有节食人数除以男生组总人数(1/5); 6)Proportionp2:女生组有节食人数除以女生组总人数(4/5); 7)αerr prob采用默认值0.05; 8)Samplesize group 1:男生组人数(5); 9)Samplesize group 2:女生组人数(5); 10)点击Calculate,得出实际统计效力为0.38。 统计效力太小,我们可以考虑增大样本量来得到合适的结果。具体需要多大的样本量取决于研究者能够接受多大的统计效力,通常来说样本量越大,统计效力越大,但是研究成本也越大,故样本量和统计效力需要权衡。 在Gpower中根据统计效力计算样本量有两种办法。其一是做出两者的关系图,在图上选择一个可接受的统计效力,查看对应的样本大小;其二是直接输入一个统计效力,并计算所需要的样本大小。 方法一步骤如下: 1)在之前的基础上,选择X-Y plot for a range of values; 2)Plot(on y axis)选择Total sample size; 3)点击Draw plot; 4)可以看到统计效力0.9对应的样本大小为24,即男女组各12人。 方法二步骤如下: 1)在之前的基础上,Type of power analysis选中A priori; 2)Power输入一个值,默认为0.95,改为0.9; 3)点击Calculate,得出每组各需要12人,总共24人。 6.4 McNemar exact test (相关样本)McNemar exact test和Fisher'sexact test相似,但是适用于两个相关的样本。在上一个部分的例子中,我们考察了男生组和女生组在节食上的差异,男生组和女生组是两个独立的样本,所以采用Fisher’s exact test。现在我们换一个问题:同一批女生被试,观看健康宣传视频前有若干人节食,观看健康宣传视频后有若干人节食,如下表所示。问:观看健康宣传视频是否影响了女生的节食行为?这里前测组和后测组是两个相关的样本,采用McNemar exact test。
回答这个问题的关键在于比较看宣传片前后行为发生反转的被试,那些看宣传片前后行为一致的被试无法反映宣传片的效果,所以只需要考虑B和C的差异即可。虚无假设为B=C,意味着原来不节食,看了宣传片后节食的人数,等同于原来节食,看了宣传片后不节食的人数,这代表宣传片的作用是随机的,既能说服女生节食,也能说服女生不节食,换句话说,它没有实质性的作用。备择假设为B<C,宣传片有实质性效果,它能说服女生不节食。
现在假设我们拿到了如上的数据,想知道统计效力有多大,步骤如下: 1) Testfamily选中Exact; 2) Statisticaltest选中McNemar; 3) Typeof power analysis选中Post hoc; 4) Tail(s)选中One; 5) Oddsratio = B/N / C/N = 2/20 / 8/20 = 0.25; 6) αerr prob采用默认值0.05; 7) Totalsample size = 20; 8) Propdiscordant pairs = (B+C) / N = (2+5) / 20 = 0.5; 9) 点击Calculate,得出实际统计效力为0.38。 考虑增大样本量以提升统计效力。有两种办法。其一是做出两者的关系图,在图上选择一个可接受的统计效力,查看对应的样本大小;其二是直接输入一个统计效力,并计算所需要的样本大小。和Fisher's exact test的操作相似,不再赘述。 6.5 Generic binomial test这是一种通用的二项分布检验方法。举例来说:假设某公司技术部门预计新招聘员工中业绩好的人占比为0.5,人力部门认为实际占比会更高(0.8),于是技术部门在实习期结束前安排了一次业绩考核来摸底。预计要随机抽取多少新员工才能达到目的? 选择: Test family:Exact Statistical test: Generic binomial test Type of power analysis: A priori 输入: Tail(s): one Proportion p1:0.8 Proportion p2:0.5 α err prob:0.05 Power (1-β) prob:0.95 欲求样本数量,需要两类假设的比例(p1和p2),需求的α与(1-β)的预设值。 输出: Lower critical N: 19 Upper critical N: 19 Total sample size: 28 Actual power: 0.9609293 Actual α:0.0435793 从结果可知,我们研究所需的样本量至少要28个。 7 写在最后
|
|