SPSS基本统计分析

湖经松哥 2023-05-05 发布于湖北

展开全文

描述统计分析

⚪️ 描述统计分析是指对数据进行总结和描述的方法，包括测量数据的中心趋势、数据的分布和变异等。描述统计分析通常用于初步了解数据的特征和趋势，为进一步的数据分析提供基础。包括中心趋势测度,例如平均数、中位数，众数等；离散程度测度，方差、标准差以及极差等；分布形态测度，偏度、峰度等。

中心趋势测度

中心趋势测度是用来描述一组数据集中的趋势和平均值的统计量，通常用于了解数据集的整体水平和趋势。以下是常用的中心趋势测度：

1. 平均数：平均数是一组数据的总和除以数据的数量，用来描述数据的中心趋势。平均数被广泛使用，因为它易于计算和理解，通常用于测量连续型变量的中心位置，例如身高、体重、收入等。

2. 中位数：中位数是一组数据中间位置的数值，将数据按大小排序后，位于中间位置的数据就是中位数。中位数常用于测量数据的中心位置，尤其适用于数据存在异常值或偏态分布的情况。

3. 众数：众数是一组数据中出现次数最多的数值，常用于描述数据的分布特征，尤其适用于具有明显峰值的数据分布。

这些中心趋势测度都有其优缺点和适用范围，选择合适的测度方法应根据数据集的特点和分析目的进行选择。在实际应用中，我们也可以同时使用多种中心趋势测度，以全面了解数据集的中心趋势和平均水平。

在【文件】→【数据】下打开新的文件数据

选择【分析】→【描述统计】→【频率】

选择统计数值作为变量，点击【statistics】也就是【统计学】

在【统计学】中选择中心趋势测度，包括平均值、中位数和众数，点击【继续】，再点击上述的【确定】

然后SPSS就会显示出数据的频率值以及中心趋势测度值

离散程度测度

离散程度测度是用来描述一组数据分散程度的统计量，通常用于了解数据集的分散程度和变异程度。以下是常用的离散程度测度：

1. 方差：方差是一组数据中每个数据值与数据平均值差的平方和的平均值。方差越大，表示数据的分散程度越大。
2. 标准差：标准差是方差的平方根，通常用于测量数据的分散程度和变异程度。标准差越大，表示数据的分散程度越大。
3. 极差：极差是一组数据中最大值与最小值之间的差值。极差越大，表示数据的变异程度越大。
4. 四分位数间距：四分位数间距是一组数据中第三个四分位数与第一四分位数之间的差值。四分位数间距可以用来描述数据的分布情况，尤其适用于具有偏态分布的数据。

这些离散程度测度都有其优缺点和适用范围，选择合适的测度方法应根据数据集的特点和分析目的进行选择。在实际应用中，我们也可以同时使用多种离散程度测度，以全面了解数据集的分散程度和变异程度。

与上述同样步骤，只是选择的参数不同

然后点击【继续】，并点击【确定】就会出现相关离散数据的分析

分布形态测度

分布形态测度是用来描述数据分布形态的统计指标，常用的分布形态测度有偏度和峰度。

1. 偏度（Skewness）：偏度用来描述数据分布的不对称性，它衡量数据分布的尾部相对于平均值的偏移程度。当偏度为0时，表示数据分布呈对称分布；当偏度大于0时，表示数据分布的尾部偏向于较大的值，呈正偏态分布；当偏度小于0时，表示数据分布的尾部偏向于较小的值，呈负偏态分布。

2. 峰度（Kurtosis）：峰度用来描述数据分布的峰态，它衡量数据分布的峰度相对于正态分布的峰度。当峰度为0时，表示数据分布的峰度与正态分布相同；当峰度大于0时，表示数据分布的峰度比正态分布更陡峭，呈尖峰态分布；当峰度小于0时，表示数据分布的峰度比正态分布更平缓，呈扁平态分布。

总之，偏度和峰度是用来描述数据分布形态的重要指标，可以帮助我们更好地理解数据的分布特征和概率分布函数的形态。在数据分析中，常常需要对数据的偏度和峰度进行检验，以判断数据是否符合特定的分布假设。

推断统计分析

⚪️ 推断统计分析是指利用样本数据对总体特征进行推断的一种统计分析方法。它的目的是通过对样本数据的分析，来推断总体的参数或者总体分布的性质，从而进行决策、预测或者推断。推断统计分析主要包括两个方面：参数估计和假设检验。

参数估计

参数估计是指利用样本数据对总体参数进行估计的方法。在统计学中，总体参数是指总体分布的某个特征值，如总体均值、标准差等。参数估计的目的是通过样本数据来估计总体参数，从而对总体进行推断。常用的参数估计方法包括点估计和区间估计。点估计是用样本统计量来估计总体参数的方法，如用样本均值估计总体均值。区间估计是指利用样本数据来构造一个区间，以一定的置信水平来推断总体参数，如用置信区间来估计总体均值。

点估计和区间估计都是参数估计的方法，它们的区别在于推断的范围不同。

1. 点估计：点估计是用样本数据来估计总体参数的点估计值。点估计的推断结果通常是一个单一的值，用来估计总体参数的未知值。例如，用样本均值来估计总体均值，用样本标准差来估计总体标准差等。点估计的估计结果可以是无偏估计或有偏估计，具体取决于所使用的估计方法和样本数据的特点。

2. 区间估计：区间估计是用样本数据来估计总体参数的值范围。区间估计的推断结果通常是一个区间，用来估计总体参数的未知值的范围。例如，用置信区间来估计总体均值等。区间估计的置信水平可以设定，通常是95%或99%等。置信水平越高，区间估计的范围越宽，反之亦然。

总之，点估计和区间估计都是参数估计的方法，区别在于推断的范围不同。点估计的推断结果是一个单一的值，用来估计总体参数的未知值；而区间估计的推断结果是一个区间，用来估计总体参数的未知值的范围。两种方法在实际应用中都有其优缺点，需要根据具体的问题场景和数据特点来选择。

注意:置信度和置信区间是统计学中常用的概念，用于描述参数估计的精度和可靠性。置信度是指在重复采样的情况下，估计量包含真实参数的可能性。例如，假设我们从总体中抽取一组样本，计算出样本均值，并使用样本均值来估计总体均值。如果我们重复进行这个过程很多次，每次都计算一个置信区间，那么这些置信区间中包含真实总体均值的比例，就是置信度。通常用百分比来表示置信度，例如95%置信度表示，在重复采样的情况下，有95%的置信区间会包含真实总体均值。

置信区间是指用样本数据计算出的一个区间，该区间内包含真实参数值的可能性较高。例如，我们使用样本数据计算出一个置信区间，这个置信区间的范围是由样本数据和置信水平共同决定的。如果我们在重复抽样的情况下，使用相同的方法计算置信区间，那么这些置信区间中有95%的区间会包含真实总体参数的值。

举个例子，如果我们想要估计某个城市所有居民的平均年龄，我们可以从这个城市中随机抽取一些样本，计算样本均值和标准误差，然后使用这些值计算置信区间。例如，我们可以计算出样本均值为40岁，标准误差为2岁（表示样本均值的不确定性），并设定置信水平为95%。则95%的置信区间为（36岁，44岁）。这个置信区间的意义是，在重复抽样的情况下，有95%的置信区间会包含真实总体平均年龄的值。总之，置信度和置信区间是统计学中常用的概念，用于描述参数估计的精度和可靠性。置信度是在重复采样的情况下，估计量包含真实参数的可能性；置信区间是用样本数据计算出的一个区间，该区间内包含真实参数值的可能性较高。

打开数据文件选择【分析】→【描述统计】→【探索】

区间估计的数值移动到因变量列表，设置平均值的置信区间为95%

点击确定，输出参数估计

假设检验

假设检验是指利用样本数据对总体参数的假设进行检验的方法。在假设检验中，我们首先设定一个原假设和一个备择假设，然后通过样本数据来判断是否拒绝原假设。常用的假设检验方法包括t检验、z检验、卡方检验等。假设检验的结果可以用来判断样本数据是否支持原假设，从而对总体参数进行推断。

假设检验是一种常用的统计学方法，用于判断样本数据是否支持某个假设。通常情况下，我们将要测试的假设称为原假设，用 H0 表示。同时，我们还会提出另一个假设，称为备择假设，用 Ha 表示。假设检验的目的就是根据样本数据来判断原假设是否成立，如果原假设不成立，则我们会拒绝原假设，并接受备择假设。

下面举一个例子来说明假设检验的应用。

假设我们想要判断某个硬币是否是公正的，也就是说，正面和反面出现的概率是相等的。我们可以抛硬币100次，记录正面朝上的次数，假设记录到正面朝上的次数为45次。我们可以使用假设检验来判断这个硬币是否是公正的。具体步骤如下：

1. 建立假设

我们要测试的假设是：这个硬币是公正的，正面和反面出现的概率是相等的。这个假设可以表示为 H0: p = 0.5，其中 p 表示正面朝上的概率。备择假设可以表示为 Ha: p ≠ 0.5，表示正面朝上的概率不等于0.5。

2. 确定显著性水平

显著性水平是指在假设检验中，我们愿意接受犯错的概率。通常情况下，我们会将显著性水平设定为0.05或0.01，表示我们愿意在5%或1%的情况下犯错。假设我们将显著性水平设定为0.05。

3. 计算检验统计量

在这个例子中，我们可以使用一个叫做二项检验的方法来计算检验统计量。在假设 H0 成立的情况下，我们可以计算出正面朝上的次数服从一个二项分布，其参数为 n=100，p=0.5。因此，我们可以计算出在这个假设下，出现45次或更极端情况的概率为 P(X ≤ 45) + P(X ≥ 55)，其中 X 表示正面朝上的次数。根据二项分布的性质，我们可以使用正态分布来近似计算这个概率，得到 P(Z ≤ -1.96) + P(Z ≥ 1.96) ≈ 0.05，其中 Z 表示标准正态分布。因此，检验统计量为 Z = (45-50) / (sqrt(100 * 0.5 * (1-0.5))) = -1.0。

4. 判断结论

根据显著性水平和检验统计量，我们可以判断结论。在这个例子中，检验统计量的值为 -1.0，说明在假设 H0 成立的情况下，出现45次或更极端情况的概率为 0.32。这个概率大于我们设定的显著性水平0.05，因此不能拒绝原假设，即不能得出这个硬币不是公正的结论。综上所述，假设检验是一种常用的统计学方法，用于判断样本数据是否支持某个假设。在实际应用中，我们需要根据具体情况选择合适的假设检验方法和显著性水平，以得出可靠的结论。