分享

统计学基础 | 假设检验

 taotao_2016 2023-10-25 发布于辽宁

    假设检验是统计学中一种重要的方法,用于验证关于总体参数的假设。它帮助研究者确定观察到的数据是否与一个特定的假设相符或不相符。在假设检验中,通常会提出两种假设,一个被称为'零假设'(null hypothesis,通常用H0表示),另一个被称为'备择假设'(alternative hypothesis,通常用H1表示)。

    假设检验的基本思想是:首先,假设零假设为真,然后根据样本数据计算一个统计量,该统计量的分布已知。接下来,根据这一分布,计算出观察到的统计量的概率或p值。如果p值小于一定的显著性水平(通常称为α,通常取0.05),则可以拒绝零假设,认为备择假设更有可能成立。否则,如果p值大于α,我们不拒绝零假设,但不能证明零假设的绝对真实性,只能暂时接受它。

    假设检验的由来和发展历程可以追溯到20世纪初。最早的贡献之一是由英国统计学家罗纳德·A·费雪(Ronald A. Fisher)在1920年代提出的。费雪开创了现代假设检验的基本框架,他引入了p值的概念,发展了许多经典的假设检验方法,如t检验和F检验。

    此外,诸如Jerzy Neyman、Egon Pearson、Abraham Wald等统计学家也在20世纪中期对假设检验的理论和方法做出了重要的贡献。他们提出了许多不同类型的假设检验,包括最大似然估计、置信区间等,以扩展假设检验的应用范围。

    假设检验在统计学和科学研究中发挥着重要作用,帮助研究者在有限的数据下进行推断和决策。它的发展历程涵盖了数十年,涉及了许多统计学家的贡献,使其成为现代统计学的重要组成部分。假设检验在统计学和科学研究中非常重要,主要有以下几个方面:

1.验证科学假设:假设检验允许研究者验证科学假设或研究问题,例如,是否一种新药物对某种疾病的治疗有效,或者某种广告策略是否能提高销售额。通过在实际数据上应用假设检验,研究者可以确定这些假设是否成立。

2.数据推断:假设检验允许研究者从样本数据中推断关于总体的性质。通过分析样本数据并进行假设检验,研究者可以根据样本数据得出总体参数的估计和置信区间,从而了解总体特征。

3.决策制定:在实际应用中,决策者常常需要基于数据来做出决策。假设检验提供了一种基于统计学的方法,帮助决策者判断是否采取某种行动,如投资、政策制定或产品改进。通过设置显著性水平(α),决策者可以控制决策的风险。

4.确定效果的显著性:假设检验帮助确定某种效果或关联是否显著。通过比较观察到的数据和期望的结果,假设检验可告诉我们是否这一效果可能是由随机因素引起的,还是真正存在的。

5.科学界的贡献:假设检验有助于科研成果的验证和复制。科研领域中,其他研究者可以使用相似的数据和方法来重复假设检验,从而验证之前的发现,增加了研究结果的可信度。

6.提高决策的透明度:假设检验提供了一种结构化的方法,使决策过程更透明,因为它要求决策者明确设定显著性水平、提出假设和提供证据。这有助于消除主观性和偏见,提高决策的客观性。

    总之,假设检验在科学研究和决策制定中起到了至关重要的作用,它允许研究者和决策者根据数据做出有根据的判断,验证假设和提供统计依据,以更好地理解现象和推动科学进步。

    假设检验涉及许多重要的概念,以下是其中一些主要的概念:

1.零假设(Null Hypothesis,H0)

零假设是一个基本的假设,通常表示没有效应、没有差异或没有关联。它是一个研究者试图进行实验证明错误的假设。零假设通常写为H0,并与备择假设(H1)相对立。例如,如果研究者想要测试一种新药是否有效,零假设可能是'这种新药对疾病的治疗效果没有影响'。

2.备择假设(Alternative Hypothesis,H1):备择假设是与零假设相对立的假设,通常表示存在效应、差异或关联。它是研究者试图证明的假设。备择假设通常写为H1。继续上面的例子,备择假设可能是'这种新药对疾病的治疗效果有显著影响'。

3.显著性水平(Significance Level,α):显著性水平是一个事先确定的阈值,通常表示为α,用于决定是否拒绝零假设。通常,α取常见的值,如0.05或0.01,表示在5%或1%的情况下犯下错误,拒绝了实际上为真的零假设。

4.检验统计量(Test Statistic):检验统计量是根据样本数据计算的一个统计量,它用于确定零假设是否应该被拒绝。不同类型的假设检验使用不同的检验统计量,例如t统计量、z统计量或F统计量。

5.p值(p-value):p值是在零假设为真的情况下,观察到的检验统计量或更极端的值的概率。较小的p值表示观察到的数据在零假设下更不太可能发生。如果p值小于显著性水平α,通常认为这是拒绝零假设的统计显著性证据。

6.拒绝域(Rejection Region):拒绝域是检验统计量的取值范围,如果检验统计量落在拒绝域内,那么零假设将被拒绝。拒绝域的边界由显著性水平α决定。

7.接受域(Acceptance Region):接受域是检验统计量的取值范围,如果检验统计量落在接受域内,零假设将被接受,即没有足够的统计证据来拒绝零假设。

8.类型I错误(Type I Error):类型I错误是指在零假设实际为真的情况下,错误地拒绝零假设的情况。它的概率等于显著性水平α。

9.类型II错误(Type II Error):类型II错误是指在备择假设实际为真的情况下,错误地接受零假设的情况。它的概率通常表示为β。

10.统计显著性(Statistical Significance):当p值小于显著性水平α时,结果被认为具有统计显著性,即存在足够的证据拒绝零假设。

11.效应大小(Effect Size):效应大小表示实际效应的大小或强度。它用于衡量在拒绝零假设后,效应的实际重要性。通常使用Cohen's d、相关系数或其他指标来度量。

    这些概念共同构成了假设检验的基础,研究者使用它们来评估数据、做出决策,以及理解观察到的效应是否具有实际意义。假设检验有助于确定是否有足够的证据支持某个假设,并提供了一种统计框架,可以在科研和决策中进行推断。

    假设检验的原理基于统计推断,旨在确定观察到的数据与一个特定假设是否一致。以下是假设检验的基本原理:

1.建立假设:假设检验的第一步是明确两种互相对立的假设:零假设(H0)和备择假设(H1)。零假设通常表示没有效应、差异或关联,而备择假设表示存在效应、差异或关联。

2.收集数据:研究者需要收集样本数据,以便对假设进行检验。这些数据通常包括样本大小、观测值等。

3.选择适当的统计检验:根据研究问题和数据类型,研究者选择适当的假设检验方法,如t检验、z检验、卡方检验等。每种方法都有其特定的统计检验统计量和分布。

4.计算检验统计量:使用样本数据计算检验统计量,这个统计量与所选的统计检验方法相关。检验统计量衡量了观察到的数据与零假设的一致性或不一致性。

5.计算p值:使用检验统计量,计算在零假设为真的情况下观察到比当前统计量更极端的值的概率,这就是p值。p值表示了在零假设下观察到数据的不太可能性。

6.比较p值和显著性水平:将计算得到的p值与预先确定的显著性水平α进行比较。通常,α的常见取值为0.05或0.01。如果p值小于α,就拒绝零假设,认为结果在统计上显著。如果p值大于α,就接受零假设,没有足够的证据拒绝它。

7.做出决策:根据p值的比较结果,研究者做出相应的决策。如果拒绝了零假设,通常会接受备择假设,表明观察到的数据与备择假设更一致。如果接受了零假设,没有足够的证据支持备择假设,数据与零假设一致。

8.解释结果:最后,研究者解释假设检验的结果,包括关于零假设的拒绝或接受,以及p值的含义。还可以讨论效应大小,以了解观察到的效应是否实际上具有实际意义。

    总的来说,假设检验的原理在于通过比较观察到的数据与零假设下的期望情况,确定是否存在统计显著性,以支持或反驳研究问题中的假设。它提供了一种结构化的方法来进行统计推断和决策制定。

    检验统计量(Test Statistic)是假设检验中的一个关键概念,它是通过对样本数据进行统计计算而得出的一个数值,用于帮助评估零假设的可信性。检验统计量的选择取决于研究问题、数据类型和所选的假设检验方法,不同的检验方法使用不同的统计量。以下是检验统计量的详细解释:

1.选择适当的检验统计量:首先,研究者需要根据研究问题和数据类型选择适当的检验方法,以确定使用哪种检验统计量。不同的检验方法对应不同的统计量。例如,t检验使用t统计量,z检验使用z统计量,方差分析使用F统计量,卡方检验使用卡方统计量,相关分析使用相关系数等。

2.计算检验统计量:一旦选择了适当的检验统计量,研究者使用样本数据来计算这个统计量。计算方法取决于所选的统计量。通常,计算的过程涉及到样本均值、标准差、样本大小等统计量的运算。

3.理解检验统计量的分布:对于所选的检验统计量,研究者需要了解它在零假设为真的情况下的理论分布。这通常是通过数学推导或模拟研究来获得的。例如,t统计量在零假设下通常服从自由度为n-1的t分布。

4.比较观察到的检验统计量和理论分布:一旦计算了检验统计量,并了解了其理论分布,研究者将观察到的统计量与理论分布进行比较。这通常涉及计算p值,即在零假设下,观察到的统计量或更极端的值出现的概率。

5.做出决策:最后,根据检验统计量的比较结果,研究者可以做出决策。如果观察到的统计量在理论分布中非常极端,即p值很小,通常会拒绝零假设,认为结果在统计上显著。如果观察到的统计量不太极端,即p值较大,通常会接受零假设,表示没有足够的证据拒绝它。

    正确理解假设检验中的两类错误(类型I错误和类型II错误)非常重要,因为它们反映了在假设检验过程中的权衡和风险。这两种错误通常相互竞争,降低一种错误的概率可能会增加另一种错误的概率。以下是它们的定义和关系:

1.类型I错误(Type I Error):类型I错误是当实际上零假设为真,但假设检验错误地拒绝了零假设的情况。换句话说,它表示研究者错误地认为发现了统计显著性,当实际上没有。类型I错误的概率通常用α表示,它是显著性水平,代表了犯类型I错误的风险。

2.类型II错误(Type II Error):类型II错误是当实际上备择假设为真,但假设检验错误地接受了零假设的情况。这意味着研究者未能发现存在的效应或关联,导致错失了真实情况。类型II错误的概率通常表示为β。

    两类错误之间存在权衡关系:

  • 降低显著性水平α(减小类型I错误)会增加类型II错误的风险。通过要求更高的证据水平来拒绝零假设,您减少了类型I错误的概率,但可能会错失实际存在的效应,从而增加了类型II错误的概率。

  • 增大样本大小通常会减小类型II错误的风险,因为更大的样本通常提供更多信息,使您更容易检测到实际效应。但增大样本大小并不会直接影响类型I错误的概率。

  • 选择适当的统计功效(Power)可以帮助平衡类型I和类型II错误。统计功效是正确地拒绝零假设的概率,当备择假设为真时,通常用1-β来表示。高统计功效意味着您有更好的机会检测到真实效应,但通常需要更大的样本大小。

    因此,类型I错误和类型II错误是在假设检验中的两种可能的错误,它们之间存在权衡。研究者需要根据研究问题、可用数据和研究目标来确定如何设定显著性水平、样本大小和统计功效,以在两种错误之间取得合适的平衡。

    统计显著性(Statistical Significance)是假设检验中一个重要的概念,它指示了观察到的数据是否在统计上与零假设(没有效应或差异)不太可能一致。正确理解统计显著性包括以下几个关键点:

1.统计显著性不等于实际重要性:

统计显著性表明观察到的数据在零假设下的不太可能性,但它并不直接告诉您效应的大小或实际重要性。一个结果在统计上显著并不意味着这个结果在实际生活中具有重大意义。因此,除了统计显著性,还需要考虑效应大小和实际背景信息。

2.显著性水平α的重要性:

显著性水平α是在假设检验中预先设定的阈值,通常为0.05或0.01。当p值小于α时,结果被认为在统计上显著。选择α的值是一个重要的决策,因为它决定了类型I错误(拒绝零假设,当零假设实际为真时的错误)的概率。

3.解释p值:

p值是衡量统计显著性的指标。较小的p值表示观察到的数据在零假设下更不太可能发生。通常,如果p值小于α,就可以拒绝零假设,认为结果在统计上显著。但p值本身并不提供有关效应的信息。

4.效应大小的重要性:

除了统计显著性,研究者还应该考虑效应大小。效应大小是衡量实际效应的大小或强度的指标。一个小但统计显著的效应可能不如一个大的但不显著效应具有实际重要性。

5.实际背景信息:

在解释统计显著性时,需要考虑相关的实际背景信息和领域知识。某种效应是否具有实际重要性取决于具体的研究背景和应用领域。

6.不等于确定性

统计显著性并不代表确定性。即使结果在统计上显著,也存在一定的不确定性。它只提供了一种在零假设下观察到数据的概率解释。

    正确理解统计显著性需要将其视为一个工具,用于帮助研究者评估观察到的数据是否与零假设不太可能一致。然而,为了做出全面的决策,还需要考虑效应大小、实际背景信息和类型I错误的控制。统计显著性在科学研究中是有用的,但它不应被视为单一标准,而应与其他信息一起综合考虑。

最后介绍一些常用的假设检验方法:

1.t检验:

用于比较两组样本的均值是否存在显著差异。t检验有两种类型,独立样本t检验和配对样本t检验。

示例: 假设我们想要检验一种新药是否比常规药物更有效。我们有两组患者,一组接受新药,一组接受常规药物,并记录了治疗后的血压变化。

# 示例数据new_drug <- c(120, 122, 125, 128, 130, 133)conventional_drug <- c(125, 127, 130, 129, 132, 135)
# 独立样本t检验t.test(new_drug, conventional_drug)
Welch Two Sample t-test
data: new_drug and conventional_drugt = -1.3435, df = 9.1021, p-value = 0.2116alternative hypothesis: true difference in means is not equal to 095 percent confidence interval: -8.936250 2.269584sample estimates:mean of x mean of y 126.3333 129.6667

2.ANOVA(方差分析):

用于比较三个或多个组的均值是否存在显著差异。ANOVA分为单因素(单变量)和多因素(多变量)。

示例: 假设我们有三种不同施肥方式,想要检验它们对植物生长的影响。我们记录了不同组植物的生长高度。

# 示例数据group1 <- c(18, 20, 22, 24, 26)group2 <- c(17, 19, 21, 23, 25)group3 <- c(16, 18, 20, 22, 24)
# 单因素ANOVAaov_result <- aov(c(group1, group2, group3) ~ factor(rep(1:3, each = 5)))summary(aov_result) Df Sum Sq Mean Sq F value Pr(>F)factor(rep(1:3, each = 5)) 2 10 5 0.5 0.619Residuals 12 120 10

3.卡方检验:

用于比较两个或多个分类变量之间的关联性或独立性。卡方检验分为卡方独立性检验和卡方拟合度检验。

示例: 假设我们想要了解男性和女性在喜欢不同类型音乐的偏好是否存在显著差异。

# 示例数据music_pref <- matrix(c(30, 15, 25, 40), nrow = 2)colnames(music_pref) <- c('Pop', 'Rock')rownames(music_pref) <- c('Male', 'Female')
# 卡方独立性检验chisq.test(music_pref)
Pearson's Chi-squared test with Yates' continuity correction
data: music_prefX-squared = 7.3709, df = 1, p-value = 0.006629

4.相关分析:

用于检验两个连续变量之间的相关性。Pearson相关系数用于线性相关,Spearman秩相关系数用于非线性相关。

示例: 假设我们想要检验学习时间与考试分数之间的相关性。

# 示例数据study_time <- c(1, 2, 3, 4, 5)exam_scores <- c(65, 70, 75, 80, 85)
# Pearson相关系数cor(study_time, exam_scores, method = 'pearson')[1] 1

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多