假设检验在制药行业中的应用

留在家里 2019-01-18

展开全文

“假设检验”是统计学的一个子课题，此次分享主要围绕以下内容

一、假设检验的基本原理

二、假设检验的步骤

三、单总体均值检验

四、独立性检验及正态性检验

五、双总体均值检验及配对样本检验

六、单因子ANOVA分析

备注：其中“单总体均值检验”、“独立性检验及正态性检验”、“双总体均值检验及配对样本检验”和“单因子ANOVA分析”均需基于minitab软件的功能实现。

分享者：董光辉

来源：蒲公英智库班

一、假设检验的基本原理

名词定义：

总体：所考察对象的某一数值指标的全体构成的集合。

个体：构成总体的每一个元素。

样本：从总体中抽取一部分的个体所组成的集合。

样本数量：样本中的个体数目。

假设检验(Hypothesis Testing)：是数理统计学中根据一定假设条件由样本推断总体的一种方法，在医学、遗传学、气象学以及地理学等领域已有广泛应用。

假设检验方法：根据所讨论问题的性质对所研究的总体作出某种假设(记作H₀)，选取合适的统计量（平均值、方差、比率和中位数），由实测的样本，按照预先给定的显著性水平进行检验，计算出在原假设H₀成立的条件下，该统计量应该有的分布及应拒绝的范围，再根据样本观测值是否落入应该拒绝的范围做出判断。

常用的假设检验方法：Z检验、t检验、X²检验、F检验等。

Z检验：σ₁，σ₂已知的均值检验

t检验：σ₁=σ₂未知但相等的均值检验

X²检验：单总体μ未知的方差检验

F检验：双总体μ₁，μ₂未知的方差检验

假设检验(Hypothesis Testing)基于以下两个基本原理：

①带有概率性质的反证法原理

②小概率事件原理

带有概率性质的反证法原理：为检验H₀（原假设）是否正确，先假定它正确。如果样本观测值出现了一个与H₀应有结果明显矛盾的情况，则表示应该判定“H₀正确”这个假设是错误的，于是拒绝H₀，这时检验结果是具有说服力的；如果没有出现矛盾的情况，却不能判定“不拒绝H₀”或“接受H₀”，因为此时只能说明“目前还没找到足够拒绝H₀的理由”而已，没有足够的说服力来肯定H₀一定是成立的。

在这里，我们需要明确H₀（原假设）和H₁（备择假设）的一些基本特性：

H₀（原假设）：

①受到保护

②有足够证据时才能否定的论断

③“不证自明”的论断

H₁（备择假设）：

①待判定的结论

②待证明的结论

③不相等的结论

④有差别的结论

基于以上事实，H₀（原假设）和H₁（备择假设）的地位是不对等的，不能随意交换。因而，在一般情况下，H₀（原假设）要取那个在实践中应该受到保护，有足够证据时才能否定的论断或“不证自明”的论断作为原假设；根据要说明的问题，将待判定、待证明、不相等的、有差别的结论作为备择假设，设为H₁。

小概率事件原理：带有概率性质的反证法原理中，所谓的明显不合理情况指的就是竟然出现了小概率事件。因为按照常识，在假设“H₀是成立的”条件下，与大概率事件相比，小概率事件在一次试验中是几乎不会发生的，如果它发生，说明最初的假设“H₀是成立的”并不正确，因此应该拒绝H₀。

应该注意的是：在处理假设检验问题时，未考虑特殊情况，虽说小概率事件在一次试验中几乎不会发生，但不等于就不会发生，它仍然有发生的可能性。所以，根据小概率事件发生而做出的拒绝的判断有犯错误的可能。

在实际工作中，常见的比较问题可以按总体的个数分为三种类型：单总体、双总体、多总体。

二、假设检验的步骤

1、通常需要建立一对假设：原假设H₀和备择假设H₁。

在对单总体均值进行检验时，有三类假设：

其中：μ为总体均值。

假设检验的任务便是根据样本X₁，X₂，……，X_n来判断原假设是否为真，如果有证据证明它已经不能成立，应该被拒绝，则可以得出结论说我们可以肯定备择假设H₁是成立的。

2、选择检验统计量，确定拒绝域的形式

根据检验统计量的值，把整个样本空间分成两部分：

拒绝域W; 接受域A

当样本落在拒绝域中就拒绝原假设，否则就无法拒绝原假设；如果样本落入所谓的“接受域”，我们所能说的也只是“无法拒绝原假设”，因为这时只能说明“目前我们尚未找到证据拒绝原假设”而已，这与说“接受原假设”或“原假设肯定成立”还是有差别的。这时候，拒绝是一种有说服力的判断，而“无法拒绝原假设”是一种没有说服力的判断。所以在假设检验中总是强调要找出拒绝域。

根据备择假设的不同，拒绝域可以是双边的也可以是单边的。在确定了拒绝域的类型后，还要确定临界值c，这应根据允许犯第一类错误的概率α来确定。

3、给出检验中的显著水平α

在对原假设是否成立进行判断时，由于样本的随机性，判断可能产生两类错误。

第一类错误是当原假设H₀为真时，由于样本的随机性，使样本观察值落入拒绝域W中，从而做出拒绝原假设的决定，这类错误称为第一类错误，其发生的概率称为犯第一类错误的概率，也称为“弃真概率”，记为α，即P（拒绝H₀|H₀成立）＝α。

第二类错误是当原假设为假时，由于样本的随机性，使样本观察值落入接受域A中，从而做出无法拒绝原假设的决定，这类错误称为第二类错误，其发生的概率称为犯第二类错误的概率，也称为“纳伪概率”，记为β，即P（不拒绝H₀|H₁成立）＝β。

由于假设检验的目的通常是要进行某种判断，强调的是判断的说服力要足够强。当原假设H₀成立的时候，如果出现“目前样本观测结果是根本不可能的”，则根据逻辑关系，我们可以根据出现了不应该出现的观测结果，而判定原假设H₀不成立。但现实情况中，当原假设H₀成立的时候，虽然目前观测结果出现可能性很小，但仍然是有可能出现的，则根据逻辑关系，我们“由于目前样本出现了，因而判定原假设不成立”也就犯了判断错误的可能性。我们要求出现这类错误，也就是犯第一类错误的概率不能超过某个水平α，由此给出的检验称为“水平为α的显著性检验”，称α为显著性水平，通常取α为0.05，也有取α为0.01的情况。而当原假设H₀不成立时，我们却未拒绝原假设H₀，这就犯了第二类错误，其概率用β表示。

在样本量n一定的情况下，α减小，β会增大；β减小，α会增大；要想同时减小α和β，只有增大样本量n才行。

4、给出临界值，确定拒绝域

确定了显著性水平α后，可以根据给定的检验统计量的分布，计算或查表得到临界值，从而确定具体的拒绝域。在不同的备择假设下H₁，拒绝域、临界值与显著性水平α的关系是不同的，为了直观，请看下面三幅图：

5、根据样本观察值，计算检验统计量的值并进行判断。

（1）置信区间方法根据样本观测结果计算总体参数的置信区间，然后看置信区间是否包含了该总体参数的原假设值，如果原假设值未被包含在内，则拒绝原假设；反之，则不能拒绝原假设。

（2）临界值法这是假设检验最早采用的一种手工计算方法。先计算出检验统计量的观察值，将它与该检验统计量的临界值进行比较，当它落在拒绝域中就作出拒绝原假设的结论，否则就作出无法拒绝原假设的结论。

（3）P值比较法所谓P值，指的就是当原假设H₀成立时，出现目前状况的概率。当这个概率很小时，这个结果在原假设成立的条件下就不该在一次试验中出现；但现在它确实出现了，因此有理由认为“原假设成立”的这个前提是错的，因而应该拒绝原假设，接受备择假设。

一般规则：

①如果P值≤α，则在显著性水平α下拒绝H₀

②如果P值＞α，则在显著性水平α下接受H₀

实际工作中，通常取α=0.05，把P值与0.05进行比较，若P值比0.05小，则拒绝原假设；反之，不能拒绝原假设H₀。

所谓P值，也可以理解为“对于此样本拒绝原假设将犯的第一类错误”，因此同样可以得到判断法则：“如果P值＜α，则拒绝原假设。”把P值与显著性水平α进行比较，若P值比α小，则拒绝原假设；反之，不能拒绝原假设H₀。

P值表示反对原假设H₀的依据的强度，P值越小，反对的依据越强、越充分。譬如，对于某个检验问题的检验统计量，其观察值P值=0.0001，如此的小，以至于几乎不可能在为真时出现目前的观察值，这说明拒绝的理由很强，我们就拒绝H₀。

一般情况下：

①若P值≤0.01，称判断拒绝H₀的依据很强或称检验是高度显著的；

②若0.01＜P值≤0.05，称判断拒绝H₀的依据是强的或称检验是显著的；

③若0.05＜P值≤0.1，称判断拒绝H₀的依据是弱的，检验是不显著的；

④若P值＞0.1，一般来说没有理由拒绝H₀。

基于P值，研究者可以使用任意希望的显著性水平来做计算。

三、单总体均值检验

t检验，亦称student t检验（Student's ttest），当总体呈正态分布，如果总体标准差σ未知，而且样本容量＜30，那么这时一切可能的样本平均数与总体平均数的离差统计量呈t分布。

t检验分为单总体t检验和双总体t检验，是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。t检验是戈斯特为了观测酿酒质量而发明的。

单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。

单总体t检验统计量为：

如果样本是属于大样本（＞30）也可写成：

其中

问题一：某提取物的收率过去一直维持在45.0%-50.0%之间，现市场上该提取物的原药材价格大幅上涨，为降低成本，公司优化了该提取物的提取工艺，调整了部分工艺参数。现收集了工艺优化后的10批提取物收率，数据如下，能否确认工艺优化后，提取物收率一定有所提高呢？（显著水平α=0.05）？

工艺优化后的提取物收率

50.4%	51.2%	50.1%	49.3%	51.0%
50.5%	49.7%	50.6%	51.3%	50.8%

1、建立假设：

2、选择“统计-基本统计量-单样本t”；总体标准差σ未知，选用单样本t检验。

四、独立性检验及正态性检验

进行单总体t检验（Z检验），必须验证所有数据同时符合下面两个条件：

①数据观测值是相互独立的

②数据必须服从正态分布

1、对于来自同一总体的样本数据的独立性检验，通常采用游程检验来进行。

游程：依时间或其他顺序排列的有序数列中，具有相同的事件或符号的连续部分称为一个游程，常常记为r游程总个数。

此游程数为=6。

从游程的概念出发，很容易看出，当数据是相互独立的时候，数据的出现顺序完全随机，因此，游程的个数应该不多不少。总之，游程总个数偏少或游程总个数偏多都是数据不独立的表现。为此，我们可以对游程总个数设定拒绝域：游程总个数偏少或游程总个数偏多。

（1）当样本量不超过40时。建立假设：

（2）使用minitab，按照“统计-质量工具-运行图”进行计算游程总个数r（数据1）。

（3）查附表确定下临界值R1及上临界值R2。当≤R1或≥R2时，则拒绝原假设（游程总数检验表）。

当样本量不超过40时，按照“统计-质量工具-运行图”进行计算游程总个数r，查附表确定下临界值R1及上临界值R2。当r≤R1或r≥R2时，则拒绝原假设（游程总数检验表）。

附表的应用范围是n1，n2≤20，即总样本量小于40才行。当总样本量超过40时，无临界值表可查，但可以对游程总个数用正态近似了。

（1）当总样本量超过40时。建立假设：

H₀数据是相互独立的

H₁数据不是相互独立的

（2）使用minitab进行计算（数据5）。

当总样本量超过40时，先用“统计-基本统计量-图形化汇总”，求出中位数，再以中位数为界，用“统计-非参数-游程检验”求出游程总数，并用正态近似法计算出p值，当p值小于α时，拒绝原假设。

如果发现数据是独立的，则可以继续进行数据的正态性检验等后续工作。如果数据不是独立的，最重要的任务不是讨论如何进行后面的分析，而是首先搞清楚为什么数据会出现不独立的情况。通常这是由于在收集数据过程中混入了某个因子的系统性影响，必须先把它找出来，然后设法去除它的影响，并重新收集数据、重新进行分析。

2、数据的正态性检验

正态检验，通常有如下三种方法（Minitab列出了三种正态检验的方法）：

①Anderson-Darling（AD）检验：根据观测数据的累积分布函数ECDF来计算，它是默认选项。一般认为此方法是目前所有正态性检验中功效是最高的。

②Ryan-Joiner检验：类似Shapiro-Wilk检验（简称W检验）。该方法是以讨论数据点的横纵两个坐标间的相关系数为基础的检验方法。

③Kolmogorov-Smirnov（KS）检验：根据观察数据的累积分布函数ECDF与理论分布相差的最大值处的差别来进行检验的一种方法，它适用于多种分布，因此单独针对正态分布的检验功效比前两种专门方法要低一些。

1、建立假设：

H_0：数据服从正态分布

H_1：数据不服从正态分布

2、使用minitab进行计算（数据1）。

用“统计-基本统计量-正态性检验”判断数据是否服从正态分布，一般选择AD检验。

注意：如果数据非正态分布就应该换用非参数检验方法。

五、双总体均值检验及配对样本检验

所列数据来自两个不同总体，属于双总体均值检验问题。

使用双样本的双总体均值检验的条件共有三项：

（1）两组样本内相互独立，两组间也相互独立；

（2）两组数据皆来自正态分布总体；

（3）两个总体方差相等，

而方差齐性检验（Homogeneity of variance test）正是数理统计学中检查不同样本的总体方差是否相同的一种方法。

对于方差齐性检验输出有两种检验结果：

①F检验，适用于正态数据；

②Levene 检验，是以样本中位数而非样本均值为基准，在小样本时更稳健，适于非正态连续数据。

选择“统计-基本统计量-双方差”；在正态条件下，选用F检验。

如果方差齐性检验不能满足双总体等方差，则我们用统计量来检验时，它只可能是一种近似的双样本的t检验方法罢了，其总自由度已经大打折扣，精确到受到很大的影响。

双总体均值检验

双总体均值检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。

双总体均值检验样本有如下特点：

①分别从两个总体中抽取出

②样本观测值彼此互不影响

③抽取的样本量可以不同

在minitab软件中，用 “统计-基本统计量-双样本t”进行双样本t检验。进行双总体t检验时，如果选定“假定两总体方差相等”，计算机进行的是精确的双样本t检验；未选定“假定两总体方差相等”，则计算机进行的只是近似的双样本t检验。

问题2：某药品原料供应商因为企业战略发生改变，停止生产该原料，公司不得不更换了原料供应商。现收集了10批变更了原料供应商的产品含量数据，并与原先的12批产品含量数据进行比较。产品质量是否有影响呢（显著水平α=0.05）？

序号	原料供应商变更前	原料供应商变更后
1	95.3%	94.8%
2	95.6%	94.5%
3	94.8%	95.3%
4	96.2%	96.0%
5	96.5%	95.7%
6	94.3%	93.9%
7	95.7%	94.1%
8	97.2%	96.2%
9	95.4%	94.6%
10	96.0%	95.4%
11	95.1%
12	95.8%

1、建立假设：

2、使用minitab进行计算（数据2）。

配对样本检验：

问题3：为考察某种减肥药品的药效，选定10个人进行实验，收集了每个人服用该减肥药三个疗程前后的体重数据。服用该减肥药品后体重是否有显著降低呢（显著水平α=0.05）？

实验者	Xi（服药前，单位：Kg）	Yi（服药后，单位：Kg）
1	90	83
2	79	70
3	86	80
4	88	84
5	92	87
6	79	74
7	76	79
8	87	83
9	102	96
10	96	90

将此类问题当作双总体的均值检验问题，很容易得到“疗效不显著”的结论，这是因为不同人的体重本身有很大差异，而这种误差并不是由于药物疗效引起的，药物的疗效被淹没在误差之中了。

选取的样本观测值是成对的，即是对选定的一组个体，分别观测在两种处理之后的结果，称这样的样本为配对样本。

一般情况下的配对检验，就是对于差值的均值 μ是否为0进行单样本的假设检验。

其具体形式有下列三种情况：

在minitab软件中，可直接选择“统计>基本统计量>配对t”进行配对样本检验。

六、单因子ANOVA分析

生产上，经常遇到为了考察某一因素（如：温度）对产品得率或质量的影响，而选择该因素的不同水平进行试验，希望判断该因素对产品得率或质量是否有显著影响。

如果以三个总体均值（如：三个不温度参数）的检验为例，采用前面讲到的方法，分别对两总体均值相等性进行检验，需要进行三次检验，若每次检验的置信水平为0.95，那么三次检验后，置信水平将降低为0.953=85.7%。总体数目越多，置信水平将越低，因为比较过程将更加复杂（比如，若有n个总体，则需要检验C_n²次），还会导致判定结果犯第一类错误的概率大大增加，这将使得这种比较方法不再具有实际价值。

为此，我们引入了一种更为有效的方法来实施多总体均值相等的检验，这就是方差分析。

方差分析(Analysis of Variance，简称ANOVA)，又称“变异数分析”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

试验中，只有一个因素变化，其他因素不变，称作单因子试验，选用ANOVA；

单因子ANOVA分析必须验证如下三个条件：

（1）数据观测值是相互独立的；

（2）数据必须服从正态分布；

（3）每一水平下总体方差相等。

数据独立性检验及正态性检验前面已有叙述，这里再讲讲单因子ANOVA分析的第三个条件——多总体方差齐性检验。在正态分布的前提下，可以使用Bartlett检验；在正态分布的前提不满足时，可以使用Levene检验。

1、建立假设：

2、使用minitab进行计算（数据4）。

选择“统计-方差分析-等方差检验”，进行多总体方差齐性检验。

问题4：某颗粒剂产品生产过程中，同时使用了4台分装机对同一批次产品进行分装，其装量范围要求0.485-0.515g。现分别抽取了4台分装机的10个样本，请根据样本信息分析这4台分装机所分装的产品是否有显著差异（显著水平α=0.05）？

序号	分装机1	分装机2	分装机3	分装机4
1	0.502	0.505	0.497	0.488
2	0.498	0.497	0.501	0.492
3	0.486	0.493	0.486	0.495
4	0.505	0.509	0.495	0.507
5	0.495	0.502	0.506	0.486
6	0.510	0.514	0.509	0.489
7	0.507	0.504	0.497	0.493
8	0.488	0.495	0.511	0.490
9	0.492	0.488	0.502	0.487
10	0.493	0.506	0.508	0.491