配色: 字号:
2021中级经济师《经济基础知识》考点解析-第四部分 统 计
2022-06-27 | 阅:  转:  |  分享 
  
本章考情

年份 单选题 多选题 合计 2020年 4题4分 3题6分 10分 2019年 3题3分 1题2分 5分 2018年 3题3分 1题2分 5分 本章重点:1.统计学、描述统计与推断统计的含义。2.变量、数据,定性变量和定量变量,分类数据、顺序数据和数值型数据。3.观测数据和实验数据,一手数据和二手数据。4.统计调查的含义及其分类(全面调查和非全面调查、连续调查和不连续调查),常用统计调查方式(统计报表、普查、抽样调查、重点调查和典型调查)的含义、特点和应用场合。5.数据科学与大数据。

知识点一:统计学(一)统计学:一门关于数据的学科,它提供了一系列用于收集、处理、分析和解释数据的方法。(二)统计学两个分支:1.描述统计:研究数据收集、整理和描述的统计学方法。主要内容:如何取得所需要的数据,如何用图表或数学方法对数据进行整理和展示,如何描述数据的一般性特征。【示例】利用统计图表展示GDP的变化、利用增长率描述人均可支配收入的基本走势、利用统计表描述公司员工年龄分布等。2.推断统计:研究如何利用样本数据来推断总体特征的方法。

参数估计 利用样本信息推断总体特征 某国家男青年的身高构成一个总体,想知道这个总体的均值,随机抽取部分人,测得身高的均值,再用这些数据来估计这群人的平均身高 假设检验 利用样本信息判断对总体的假设是否成立 若假设“该国男青年平均身高超过1.7米”,需要通过样本检验此命题是否成立

【例题·单选题】(2020年)下列统计处理中,属于描述统计的是()。A.利用均值测度一组数据的集中趋势B.利用抽样调查数据推断城镇居民平均收入C.利用样本信息推断消费者对某品牌的知晓度D.利用最小二乘法拟合线性回归模型 ?? 『正确答案』A『答案解析』描述统计是研究数据收集、整理和描述的统计学方法。其内容包括如何取得所需要的数据,如何用图表或数学方法对数据进行整理和展示,如何描述数据的一般性特征。选项BCD属于推断统计。

【例题·单选题】利用概率样本数据推断全国居民人均消费支出,适用的统计学方法是()。A.参数估计B.相关分析C.假设检验D.描述统计 ?? 『正确答案』A『答案解析』本题考查统计学。参数估计是利用样本信息推断总体特征。

知识点二:变量和数据(一)变量1.变量:研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,而变量可以有两个或更多个可能的取值。【示例】性别、受教育水平、年收入等。2.分类:

定量变量(数量变量) 变量的取值是数量 职工人数、年销售额等 定性变量 分类变量 变量的取值为类别 性别、出行方式、工作行业等 顺序变量 变量的取值表现为类别且具有一定顺序 客户满意度、经济师职称等

(二)数据1.含义:对变量进行测量、观测的结果。数据根据需要可以是数值、文字或者图像等形式。2.分类

分类数据 分类变量的观测结果表现为类别,一般用文字来表述,也可用数值代码表示 “性别”=“男”,“女”=“0”,“1” 顺序数据 顺序变量的观测结果也表现为类别,一般用文字来表述,也可用数值代码表示 “客户满意度”=“非常满意”,“满意”,“不满意”=“1”,“2”,“3” 数值型数据 定量变量的观测结果表现为具体表示大小或多少的数值 “年龄”=“20”,“30”,“40” 3.对不同类型的数据,可采用不同的统计方法来处理和分析。(1)分类数据:计算出各类别的频率,但对其进行加、减、乘或除等数学运算是没有意义的。(2)数值型数据:可以进行数学运算,计算均值和方差等统计量。

【例题·单选题】(2020年)对顺序变量观测的结果称为()。A.顺序数据B.定量数据C.分类数据D.数值型数据 ?? 『正确答案』A『答案解析』数据是对变量进行测量、观测的结果。顺序数据是对顺序变量的观测结果。

【例题·单选题】下列变量中,属于分类变量的是()。A.运输方式B.公共预算收入C.商品零售额D.新增就业人数 ?? 『正确答案』A『答案解析』本题考查变量和数据。当变量的取值表现为类别时则被称为分类变量,比如企业所属行业。

【例题·多选题】分类数据和顺序数据的共同点是()。A.可用数值代码表示B.表现为类别C.通常用文字表述D.有顺序E.不区分顺序 ?? 『正确答案』ABC『答案解析』本题考查分类数据和顺序数据。二者都表现为类别,都可以用文字表述,也都可以用数值代码表示。 知识点三:数据的来源(一)按收集方法分类:观测数据和实验数据1.观测数据:通过直接调查或测量而收集到的数据,是在没有对事物施加任何人为控制因素的条件下得到的,几乎所有与社会经济现象有关的统计数据都是观测数据。【示例】GDP、CPI、房价等。2.实验数据:通过在实验中控制实验对象以及其所处的实验环境收集到的数据。自然科学领域的数据大多都是实验数据。【示例】一种新产品使用寿命的数据等。

(二)统计数据按来源分为:1.一手数据:来源于直接的调查和科学实验的数据,对使用者来说这是数据的直接来源。来源主要有:调查或观察、实验。2.二手数据:来源于别人的调查或实验的数据,对使用者来说这是数据的间接来源。来源主要有:统计年鉴、内部财务报表等。

【例题·单选题】(2020年)下列统计数据中,属于观测数据的是()。A.居民收入数据B.新药疗效数据C.电池使用寿命数据D.轮胎使用寿命数据 ?? 『正确答案』A『答案解析』通过直接调查或测量而收集到的数据,称为观测数据。观测数据是在没有对事物施加任何人为控制因素的条件下得到的,几乎所有与社会经济现象有关的统计数据都是观测数据。选项BCD属于实验数据。

【例题·单选题】通过直接统计调查获得的数据属于()。A.二手数据B.实验数据C.间接数据D.一手数据 ?? 『正确答案』D『答案解析』本题考查数据的来源。统计数据,就其本身的来源来看,最初都来源于调查或实验。但从使用者的角度看,数据的来源主要有两种:一是直接的调查和科学实验,对使用者来说,这是数据的直接来源,称为直接数据或一手数据;二是别人的调查或实验的数据,对使用者来说,这是数据的间接来源,称为间接数据或二手数据。一手数据的来源主要有两个:一是调查或观察,二是实验。在社会经济领域,统计调查是获得数据的主要方法,也是获得一手数据的重要方式。

知识点四:统计调查(一)统计调查的概念与分类1.统计调查:按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地收集数据信息资料的过程。调查过程有两个重要特征:(1)调查是一种有计划、有方法、有程序的活动;(2)调查的结果表现为搜集到的数据。2.分类(1)按调查对象的范围不同全面调查:对构成调查对象的所有单位进行逐一的、无一遗漏的调查,包括全面统计报表和普查。例如,人口普查、经济普查等。非全面调查:对调查对象中的一部分单位进行调查,包括非全面统计报表、抽样调查、重点调查和典型调查等。例如,城市居民家庭的生活水平等。

(2)按登记的时间是否连续

连续调查 √为观察总体现象在一定时期内(通常是一年内)的数量变化√要求随着调查对象的发展变化,连续地进行调查登记,说明现象的发展过程√目的是了解现象在一段时期的总量 产品产量能源的消耗等 不连续调查 √间隔一个相当长的时间(通常是一年以上)所作的调查√数值在短期内变化不大,不需要连续登记√为了对总体现象在一定时点上的状态进行研究 生产设备拥有量耕地面积等

(二)统计调查的方式统计报表、普查、抽样调查、重点调查、典型调查

调查方式 含义 分类/特征 统计报表 按照国家有关法规的规定,以一定的原始数据为基础,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式 1.按调查对象范围的不同分为:全面统计报表和非全面统计报表。目前的大多数统计报表都是全面统计报表2.按报送周期长短的不同分为:日报、月报、季报、年报等3.按报表内容和实施范围的不同分为:国家的、部门的、地方的统计报表 普查 为某一特定目的而专门组织的一次性全面调查,主要用于了解处于某一时点状态上的社会经济现象的基本全貌 1.普查通常是一次性的或者周期性的2.一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性3.数据一般比较准确,规范化程度较高,可以为抽样调查或其他调查提供基本依据4.使用范围比较窄,只能调查一些最基本及特定的现象 1.经济普查每10年进行两次,分别在每逢年份的末尾数字为3、8的年份实施2.人口普查逢“0”的年份进行3.农业普查逢“6”的年份进行,均为每10年一次 抽样调查 从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查 1.经济性(最显著优点)2.时效性强:可以迅速、及时地获得所需要的信息,弥补全面调查的不足3.适应面广:适用于各个领域4.准确性高:误差往往很小 重点调查 从调查对象的全部单位中选择少数重点单位进行调查 1.重点单位虽然只是全部单位中的一部分,但就调查的标志值来说在总体中占绝大比重2.调查单位不是随机抽取的,结果不能推断总体3.适用范围很广4.调查目的只要求了解基本状况和发展趋势

【示例】调查全国工业企业的资产总额情况,只需对全国大中型工业企业进行重点调查即可。因为虽然大中型工业企业数占全国工业企业数不到5%,但这些大中型企业的资产总额却占全国工业的60%以上。

典型调查 根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查 作用:1.弥补全面调查的不足2.在一定条件下可以验证全面调查数据的真实性

【例题·单选题】(2020年)第七次全国人口普查与第六次全国人口普查相同,普查标准时间定为普查年份的()。A.1月1日0时B.11月1日0时C.7月1日0时D.12月31日0时 ?? 『正确答案』B『答案解析』第六次人口普査的标准时间为普查年份的11月1日0时。

【例题·多选题】(2020年)关于抽样调查的说法,正确的有()。A.抽样调查只抽取部分样本进行调查B.抽样调查的时效性强C.抽样调查耗费大量人力、物力、财力D.抽样调查根据样本调查结果推断总体数量特征E.抽样调查工作量小 ?? 『正确答案』ABDE『答案解析』抽样调查是从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。所以AD正确。抽样调查具有经济性、时效性强、适应面广的特点。由于调查的样本单位通常是总体单位中的很小一部分,调查的工作量小,因而可以节省大量的人力、物力、财力和时间。所以BE正确,C错误。

【例题·单选题】为及时了解全国城市商品零售价格的变动趋势,按照商品零售额排序对前35个大中型城市的商品零售价格变化情况进行调查,这种调查方法属于()。A.全面调查B.典型调查C.重点调查D.随机调查 ?? 『正确答案』C『答案解析』本题考查重点调查。重点调查是一种非全面调查,它是在所要调查的总体中选择一部分重点单位进行的调查。所选择的重点单位虽然只是全部单位中的一部分,但就调查的标志值来说在总体中占绝大比重,调查这一部分单位的情况,能够大致反映被调查对象的基本情况。

【例题·多选题】普查的特点有()。A.使用范围广,适用于各个领域B.需要耗费大量的人力、物力和财力C.周期性的普查通常需要间隔较长时间D.规范化程度较高E.一般需要规定统一的标准调查时间 ?? 『正确答案』BCDE『答案解析』本题考查统计调查的方式。普查的特点:(1)普查通常是一次性的或周期性的,由于普查涉及面广、调查单位多,需要耗费大量的人力、物力和财力,通常需要间隔较长的时间;(2)普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性;(3)普查的数据一般比较准确,规范化程度也比较高,因此它可以为抽样调查或其他调查提供基本依据;(4)普查的使用范围比较窄,只能调查一些最基本及特定的现象。

知识点五:数据科学与大数据(一)数据科学:一门通过系统性研究获取与数据相关的知识体系的学科。数据科学一方面研究数据本身的特性和变化规律,另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,从而揭示自然界和人类行为的现象和规律。包含:对数据进行采集、存储、处理、分析、表现等一系列活动。

研究对象 数据 研究目标 通过对数据的分析,来解释、预测、洞见和决策,为现实世界服务 (二)大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据特征(多选)

数据量大 大数据的起始计量单位是PB(1024TB)、EB或ZB 数据多样性(多选) 包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据1.结构化数据:指存储在数据库里,可以用二维表结构实现表达的数据2.非结构化数据:数据结构不规则或不完整,没有预定义的数据,包括所有格式的办公文档、文本、图片、报表、图像、音频信息、视频信息等3.半结构化数据:介于完全结构化数据和完全非结构化数据之间的数据,具有一定的结构性;例如员工简历,有的简历只有教育情况,有的简历包括教育、婚姻、户籍、出入境等很多信息 价值密度低 大数据价值密度的高低与数据总量的大小成反比 数据的产生和处理速度快 一般要在秒级时间范围内给出分析结果,超出这个时间数据就可能失去价值,即大数据的处理要符合“1秒定律”

(三)数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。1.数据挖掘内涵:(多选)

数据源必须是真实的、大量的、有噪声的 发现的是用户感兴趣的知识 发现的知识是可接受、可理解、可运用的 并不要求发现放之四海而皆准的知识,仅支持特定的发现问题 数据挖掘以解决实际问题为出发点,核心任务是对数据关系和特征进行探索。

2.数据挖掘分为:

有指导学习(监督学习) 对目标需求的概念进行学习和建模,通过探索数据和建立模型来实现从观察变量到目标需求的有效解释 无指导学习(非监督学习) 没有明确的标识变量来表达目标概念,主要任务是探索数据之间的内在联系和结构 3.数据挖掘算法:常用的算法有分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析等。(多选)

分类 确定目标对象属于哪个预定的类别,以实现对未来潜在的预测需求 聚类分析 把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽量大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低 关联分析 对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现 趋势与演化分析 包括数据变化趋势、序列模式分析、周期性分析以及相似程度分析等内容,统计学的回归分析方法经常用于这类问题的分析

(四)数据可视化:借助图形化手段清晰有效地传达与沟通信息。(多选)

可视化优势 简单,表现清晰,利用人对形状、颜色、运动的敏感,有效传递信息,帮助用户从数据中发现关系、规律和趋势 两大分支 科学可视化 面向科学与工程领域的数据,如包含空间坐标和几何信息的三维空间测量数据、计算机模拟数据和医学影像数据,重点探索以几何、拓扑和形状特征来呈现数据中蕴含的规律 信息可视化 处理对象是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据

【例题·多选题】(2020年)关于大数据多样性的说法,正确的有()。A.大数据只包括结构化数据B.结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据C.半结构化数据是介于完全结构化数据和完全非结构化数据之间的数据D.半结构化数据具有一定的结构性E.非结构化数据是指数据结构不规则或不完整、没有预定义的数据 ?? 『正确答案』BCDE『答案解析』大数据类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据。结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据;非结构化数据是指数据结构不规则或不完整,没有预定义的数据,包括所有格式的办公文档、文本、图片、报表、图像、音频信息、视频信息等;半结构化数据是介于完全结构化数据和完全非结构化数据之间的数据,具有一定的结构性,例如员工简历,有的简历只有教育情况,有的简历包括教育、婚姻、户籍、出入境等很多信息。

【例题·多选题】(2020年)关于数据可视化的说法,正确的有()。A.数据可视化借助图形化手段清晰有效地传达与沟通信息B.数据可视化包含科学可视化和信息可视化两个重点分支C.数据可视化传达的信息比较复杂,需要专业解读D.科学可视化面向科学与工程领域数据E.信息可视化的处理对象是非结构化、非几何的抽象数据 ?? 『正确答案』ABDE『答案解析』数据可视化,即借助图形化手段清晰有效地传达与沟通信息。可视化的优势在于简单,表现清晰,利用人对形状、颜色、运动的敏感,有效传递信息,帮助用户从数据中发现关系、规律和趋势。所以C错误。数据可视化包含两个重点分支:科学可视化和信息可视化。科学可视化面向科学与工程领域的数据;信息可视化的处理对象是非结构化、非几何的抽象数据。

【例题·多选题】以下属于大数据特征的有()。A.数据量大B.数据多样性C.数据的产生和处理速度快D.价值密度高E.价值高 ?? 『正确答案』ABC『答案解析』本题考查大数据特征。大数据的特征有:数据量大、数据多样性、价值密度低、数据的产生和处理速度快。



本章考情

年份 单选题 多选题 合计 2020年 4题4分 0题0分 4分 2019年 2题2分 1题2分 4分 2018年 3题3分 1题2分 5分 本章重点:1.测度数据集中趋势的统计量:均值、中位数和众数。2.测度数据离散程度的统计量:方差、标准差和离散系数。3.测度数据分布偏态的统计量:偏态系数、标准分数。4.测度变量相关关系的统计量:散点图、相关系数。

知识点一:集中趋势的测度1.均值。平均数,数据组中所有数值的总和除以该组数值的个数。均值是集中趋势最主要的测度值,它是一组数据的重心所在,解释了一组数据的平均水平。【示例】某售货小组5名营业员,元旦一天的销售额分别为520元、600元、480元、750元和500元,求该日平均销售额。平均销售额=(520+600+480+750+500)÷5=570(元)【注意1】均值主要适用于数值型数据,但不适用于分类和顺序数据。【注意2】均值容易受到极端值的影响,极端值会使得均值向极大值或极小值方向倾斜,使得均值对数据组的代表性减弱。需要全部信息避不开极端值!

2.中位数。把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值叫作中位数,用Me表示:【注意1】中位数是一个位置代表值,主要用于顺序数据和数值型数据,但不适用于分类数据。【注意2】中位数的优点:不受极端值的影响,抗干扰性强,尤其适用于偏斜分布的数值型数据。不需要全部信息能避开极端值!

3.众数:一组数据中出现次数(频数)最多的变量值。不适用于描述定量数据的集中位置。【注意】适用于描述分类数据和顺序数据的集中趋势。在定量数据中,可能出现多众数和无众数的情况,因此众数不适于描述定量数据的集中位置。不需要全部信息能避开极端值!总结:

指标 适用 特点 均值 定量变量 ·利用全部信息,受极端值影响·如有明显极端值,则代表性差 中位数 顺序变量定量变量 ·不受极端值影响·适用于分布不对称的数据·没有充分利用全部信息,稳定性优于众数,差于均值 众数 分类变量顺序变量 ·没有充分利用全部信息,不受极端值影响·适用于分布明显呈偏态的数据·可能不唯一

【例题·单选题】(2020年)在测度数据集中趋势时,中位数与众数的共同优点是()。A.能够充分利用数据的全部信息B.适用于分类变量C.适用于定量变量D.不受极端值影响 ?? 『正确答案』D『答案解析』中位数与众数的共同优点是都不受极端值的影响。

【例题·单选题】2019年某企业集团下辖8个分公司的销售额分别为10000万元、3600万元、800万元、1000万元、600万元、3000万元、2800万元、2200万元,这组数据中的中位数是()万元。A.2200B.2800C.2500D.3000 ?? 『正确答案』C『答案解析』本题考查中位数的计算。(2800+2200)/2=2500。 知识点二:离散程度的测度(一)方差和标准差离散程度:反映数据之间的差异程度。集中趋势的测度值对一组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。

1.方差(1)方差:数据组中各数值与其均值离差平方的平均数。(2)方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。》总体方差公式:》样本方差公式:

【示例】某售货小组5名营业员,元旦一天的销售额分别为520元、600元、480元、750元和500元,平均销售额为570元,计算日销售额的样本方差。=[(520-570)2+(600-570)2+(480-570)2+(750-570)2+(500-570)2]÷(5-1)=12200(元2)

2.标准差方差是反映数据离散程度的重要测度指标,但是其单位是原数据单位的平方,没有解释意义。因此,我们经常使用标准差来测度数据的离散程度,标准差即方差的平方根。标准差与方差只适用于数值型数据,它们对极端值很敏感。【示例】5名营业员元旦当天的销售额的标准差

(二)离散系数1.离散系数:变异系数或标准差系数。2.标准差与均值的比值:3.适用:不同类别数据离散程度的比较。【注意】标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准差比较不同变量的离散程度。离散系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较变量的离散程度。

【示例】某学校学生的平均年龄为20岁,标准差为3岁;该校教师的平均年龄为38岁,标准差为3岁。比较该校学生年龄和教师年龄的离散程度。 ?? 『正确答案』学生年龄的离散程度更大。『答案解析』学生年龄的离散系数=3/20=0.15教师年龄的离散系数=3/38=0.0789

【例题·单选题】(2020年)与标准差相比,方差在测度数据离散程度时的缺点是()。A.计算方法复杂B.不适用于数值型数据C.其单位是原数据单位的平方,没有解释意义D.数学性质较差 ?? 『正确答案』C『答案解析』方差是反映数据离散程度的重要测度指标,但是其单位是原数据单位的平方,没有解释意义。

【例题·多选题】下列统计量中,容易受极端值影响的有()。A.均值B.方差C.众数D.中位数E.标准差 ?? 『正确答案』ABE『答案解析』本题考查集中趋势和离散程度的测度指标。均值、方差、标准差容易受极端值的影响。

【例题·单选题】根据2014年某城市金融业和制造业各1000人的年薪样本数据来比较这两个行业从业人员年薪的离散程度,应采用的统计量是()。A.标准分数B.相关系数C.变异系数D.偏态系数 ?? 『正确答案』C『答案解析』本题考查离散系数。离散系数也称为变异系数或标准差系数,即标准差与均值的比值,主要用于不同类别数据离散程度的比较。

知识点三:分布形态的测度(一)偏态系数(SK):1.偏度:指数据分布的偏斜方向和程度,描述数据分布对称程度。(单选)2.偏态系数:测度数据分布偏度的指标。偏态系数取决于离差三次方的平均数与标准差三次方的比值。3.应用:偏态系数的绝对值越大,说明数据分布的偏斜程度越大。

SK=0 说明数据分布是对称的 SK>0偏态系数为正值 1.说明数据分布为右偏2.取值0~0.5(说明轻度右偏)0.5~1(说明中度右偏)大于1(说明严重右偏) SK<0偏态系数为负值 1.说明数据分布为左偏2.0~-0.5(说明轻度左偏)-0.5~-1(说明中度左偏)小于-1(说明严重左偏)

【例题·单选题】(2020年)下列统计量中,用于测度数据分布偏度的是()。A.方差B.标准差C.偏态系数D.均值 ?? 『正确答案』C『答案解析』测度数据分布偏度的统计量称为偏态系数。

【例题·单选题】(2020年)如果一组数据的偏态系数为﹣0.4,则该组数据的分布为()。A.轻度左偏B.中度左偏C.中度右偏D.轻度右偏 ?? 『正确答案』A『答案解析』偏态系数为0,说明数据的分布是对称的。偏态系数为正,说明分布是右偏的,取值在0~0.5之间说明轻度右偏,取值在0.5~1之间,说明中度右偏,取值大于1说明严重右偏;偏态系数为负,说明分布为左偏,取值在0~-0.5之间,说明轻度左偏,取值在-0.5~-1之间,说明中度左偏,取值小于-1,说明严重左偏。本题中,偏态系数为﹣0.4,说明轻度左偏。

【例题·单选题】关于偏态系数的说法,正确的是()。A.偏态系数为正值,说明数据对称B.偏态系数的绝对值越大,说明数据越对称C.偏态系数等于0,说明数据对称D.偏态系数等于1,说明数据对称 ?? 『正确答案』C『答案解析』本题考查偏态系数。如果偏态系数为正值,说明分布为右偏的。A选项错误。偏态系数的绝对值越大,说明数据分布的偏斜程度越大。B选项错误。偏态系数等于0,说明数据对称。C选项正确。偏态系数等于1,说明系数中度右偏。D选项错误。

【例题·多选题】在某电商网站上,商品甲得到6个评价得分,分别是1、4、4、5、5、5;商品乙得到5个评分,分别是3、3、3、4、4。关于这两组数据的说法,正确的有()。A.商品甲的评分中位数高于商品乙B.商品甲的评分均值低于商品乙C.商品甲的评分众数高于商品乙D.商品甲的评分分布离散程度大于商品乙E.商品甲的评分分布是左偏的 ?? 『正确答案』ACDE『答案解析』本题考查集中趋势、离散程度的测度。商品甲:评分中位数=(4+5)/2=4.5,众数=5,均值=(1+4+4+5+5+5)/6=4,方差=[(1-4)2+(4-4)2+(4-4)2+(5-4)2+(5-4)2+(5-4)2]/5=2.4,标准差=1.55,离散系数=1.55/4=0.3875。商品乙:评分中位数=3,众数=3,均值=3.4,标准差=0.55,离散系数=0.55/3.4=0.16。由于商品甲离差三次方,即(1-4)3+(4-4)3+(4-4)3+(5-4)3+(5-4)3+(5-4)3=﹣24,根据公式可知偏态系数为负,说明数据分布左偏。

(二)标准分数1.标准分数(Z分数):统计学上常用的一种标准化方法。标准分数可以给出数值距离均值的相对位置,用于比较不同分布的变量值。2.公式:标准分数Z=(数值-均值)÷标准差3.结果:标准分数Z越大越好。【注意】转变后的标准分数并没有改变数值在原分布中的位置,也没有改变数据原分布的偏度,但是标准分数的平均数为0,标准差为1。

【示例1】考核A中员工得分80分,均值80分,标准差为20分,在考核B中员工得分70分,均值60分,标准差为5分。80分的Z分数=(80-80)÷20=070分的Z分数=(70-60)÷5=2【说明】70分在考核B中的相对排名高于80分在考核A中的相对排名。

【示例2】某班期末考试。语文考试全班平均成绩73分,标准差7分,甲得了78分;数学考试全班平均成绩80分,标准差6.5分,甲得了83分。甲哪一门成绩更优秀?因为两科分布(均值、标准差)不同,不能用原始数据直接比较,需要转换成标准分数,然后比较。Z(语文)=(78-73)÷7=0.71Z(数学)=(83-80)÷6.5=0.46【说明】甲的语文成绩更优秀。

4.实际应用:当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例。约有68%的数据与平均数的距离在1个标准差之内,标准分数在[-1,1]范围内;约有95%的数据与平均数的距离在2个标准差之内,标准分数在[-2,2]范围内;约有99%的数据与平均数的距离在3个标准差之内,标准分数在[-3,3]范围内。

【示例】语文考试全班平均成绩73分,标准差7分:则68%的同学得分在66和80之间;则95%的同学得分在59和87之间;则99%的同学得分在52和94之间。

【例题·单选题】某公司员工年度业绩考核中,全体员工考核成绩的均值为80,方差为25。某员工在这次业绩考核中成绩为85,则该员工考核成绩的标准分数为()。A.3.4B.0.2C.1.0D.17.0 ?? 『正确答案』C『答案解析』本题考查分布形态的测度。标准分数可以给出数值距离均值的相对位置,计算方法是用数值减去均值所得的差除以标准差,标准分数=(85-80)/5=1。

【例题·多选题】某企业客户满意度数据服从对称的钟形分布,均值为75,标准差为5。根据经验法则,关于该企业客户满意度的说法,正确的有()。A.约有68%的客户满意度在[70,80]范围内B.约有68%的客户满意度在[75,85]范围内C.约有95%的客户满意度在[75,95]范围内D.约有95%的客户满意度在[65,85]范围内E.约有99%的客户满意度在[60,90]范围内 ?? 『正确答案』ADE『答案解析』本题考查标准分数。经验法则表明:约有68%的数据与平均数的距离在1个标准差之内,约有95%的数据与平均数的距离在2个标准差之内,约有99%的数据与平均数的距离在3个标准差之内。

知识点四:变量间的相关分析(一)相关关系分类1.按相关的程度:完全相关、不完全相关和不相关。2.按相关的方向:正相关和负相关。3.按相关的形式:线性相关和非线性相关。【注意】相关关系并不等同于因果关系。(二)两变量的散点图:两个变量间的关系可以用散点图来展示。1.观测点分布无规律:不相关。2.观测点分布密集在一条线周围:线性相关。(1)正相关:直线向右上倾斜;(2)负相关:直线向右下倾斜。3.观测点呈现曲线模式:两个变量非线性相关。

(三)相关系数的定义和计算1.Pearson相关系数:度量的是两个变量之间的线性相关关系。2.Pearson相关系数的取值范围:-1≤r≤1。(1)0
3.相关程度:

【例题·多选题】关于相关关系的说法,正确的有()。A.完全相关是指一个变量的取值变化完全由另一个变量的取值变化所确定B.相关关系等同于因果关系C.正相关是指一个变量的取值随着另一个变量的取值增大而增大D.不相关是指两个变量的取值变化彼此互不影响E.相关关系等同于函数关系 ?? 『正确答案』ACD『答案解析』本题考查变量间的相关关系。相关关系并不等同于因果关系和函数关系。

【例题·单选题】根据下面的变量X和变量Y的散点图,可以看出这两个变量的Pearson相关系数r的取值范围是()。A.r≤-1B.0≤r<1C.r≥1D.-1≤r<0 ?? 『正确答案』D『答案解析』本题考查散点图与相关关系。若-1≤r<0,表明变量X和Y之间存在负线性相关关系。

【例题·单选题】2014年某企业员工的工龄和月平均工资的散点图如下:根据以上散点图,工龄和月平均工资两个变量的相关关系是()。A.正相关、线性相关B.负相关、线性相关C.正相关、非线性相关D.负相关、非线性相关 ?? 『正确答案』C『答案解析』本题考查散点图。首先,观测点的走势很容易判断出是正相关关系;其次,观测点呈现出曲线模式,并不是直线的模式,所以两个变量为非线性相关关系。



本章考情

年份 单选题 多选题 合计 2020年 1题1分 1题2分 3分 2019年 1题1分 2题4分 5分 2018年 4题4分 1题2分 6分 本章重点:1.抽样调查基本概念:总体、样本、样本量、总体参数、样本统计量与抽样框。2.概率抽样和非概率抽样,抽样误差和非抽样误差(抽样框误差、无回答误差、计量误差)。3.几种基本概率抽样方法:简单随机抽样、分层抽样、系统抽样、整群抽样和多阶段抽样。4.估计量的性质,抽样误差影响因素,样本量的影响因素。

知识点一:抽样调查基本概念(一)抽样调查基本概念1.总体:调查对象的全体,调查总体必须是明确的而不能是模糊的。【示例】研究全国钢铁企业盈利状况,所有钢铁企业是总体。2.样本:总体的一部分,它由从总体中按一定原则或程序抽出的部分个体所组成。样本量:样本中包含的入样单位的个数。【示例】选取了20家钢铁企业是样本。3.抽样框:供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。【示例】工商局注册的200家企业;公司200名注册在职人员名册。4.总体参数:变量的数字特征,根据总体中所有单位的数值计算的。【示例】所有钢铁企业盈利总额,所有钢铁企业盈利均值。5.样本统计量:根据样本中各单位的数值计算的,是对总体参数的估计,因此也称为估计量。常用的样本统计量:样本均值,样本比例、样本方差等。【示例】20家企业盈利总额,20家企业盈利均值。

【例题·单选题】供抽样所用的所有抽样单元的名单称为()。A.抽样框B.总体C.总体参数D.样本 ?? 『正确答案』A『答案解析』本题考查抽样框。抽样框是供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。

【例题·单选题】从某单位所有在职员工中随机抽取300人进行抽样调查,来研究该单位在职职工中亚健康人员占比状况,该项调查的总体是()。A.随机抽取的300名在职员工B.该单位所有亚健康在职员工C.该单位所有在职员工D.被调查的300名在职员工中的亚健康员工 ?? 『正确答案』C『答案解析』本题考查抽样调查的基本概念。总体即调查对象的全体,也就是该单位所有在职员工。

(二)概率抽样与非概率抽样根据抽取样本方法的不同,抽样分为:1.概率抽样(随机抽样):指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的方法。(1)随机原则:在抽取样本时排除主观上有意识地抽取调查单元的情况,使每个单元都有一定的机会被抽中。(2)特点:√按一定的概率以随机原则抽取样本;√总体中每个单元被抽中的概率是已知的,或者是可以计算出来的;√当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率。(3)分类:

等概率抽样 每个单位被抽入样本的概率相等 不等概率抽样 每个单位被抽入样本的概率不同

2.非概率抽样(非随机抽样):调查者根据自己的方便或主观判断抽取样本的方法。(1)最主要的特征:抽取样本时并不是依据随机原则。(2)非概率抽样方法(多选):

判断抽样 调查人员依据调查目的和对调查对象情况的了解,人为确定样本单元,例如:选择“平均型”单元作为样本,代表研究变量的平均水平 方便抽样 依据方便原则,以达到最大限度降低调查成本的目的,例如:“拦截式”调查 自愿样本 不是经过抽取,由自愿接受调查的单元所组成的样本,典型:“网上调查” 配额抽样 将总体中的各单元按一定标准划分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法没有严格限制,一般采用方便抽样方法抽取样本单元例如:某高校2000名学生,男生60%,女生40%,抽取一个100人样本。配额样本,男生60人,女生40人

【例题·单选题】(2020年)在抽取样本时,调查人员依据调查目的和对调查对象情况的了解,人为确定样本单元。这种抽样调查方法称为()。A.判断抽样B.方便抽样C.配额抽样D.简单随机抽样 ?? 『正确答案』A『答案解析』判断抽样是指调查人员根据调查目的和对调查对象情况的了解,人为确定样本单元。

【例题·多选题】随机抽样的特点主要包括()。A.每个总体单元被抽入样本的概率都相等B.以最大限度降低调查成本为目的C.调查者可以根据自己的主观判断抽取样本D.总体中每个单元都有一定的机会被抽中E.总体中每个单元被抽中的概率是已知或可计算的 ?? 『正确答案』DE『答案解析』本题考查随机抽样。随机抽样的特点:(1)按一定的概率以随机原则抽取样本;(2)总体中每个单元被抽中的概率是已知的,或者是可以计算出来的;(3)当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率。

(三)抽样调查中的误差1.误差:样本估计值和总体参数真值之间的差异。凡调查就一定有误差,误差或大或小总会存在,不可能完全避免。2.误差分类:(1)抽样误差:由于抽样的随机性造成的,用样本统计量估计总体参数时出现的误差。抽样误差产生的根本原因:抽到哪一个样本完全是随机的,而抽到不同的样本,对总体的估计就会不同。【示例】2,4,6,8四个数的均值为5。

样本 样本估计量 2,4 3 6,8 7 (2)非抽样误差:除抽样误差之外,由其他原因引起的样本统计量与总体真值之间的差异。

3.非抽样误差产生的原因(多选):

抽样框误差 抽样框不完善造成 用工商局签发的营业执照作为抽样框,掌握个体商业零售额情况,有些无照经营、有些有执照但不再经商、有些有一个摊点却办理多个营业执照,易造成结果失真 无回答误差 调查人员没能从被调查者那里得到所需要的数据 随机因素:被调查者恰巧不在家;非随机因素:被调查者不愿告诉实情而拒绝回答 计量误差 调查所获得的数据与其真值之间不一致;由调查人员、问卷设计、受访者等原因造成 调查员在调查中有意无意地诱导被调查者;记录答案错误;对调查问题的理解有偏误;受访者提供虚假数字等

【例题·多选题】在城乡住户收支调查中,非抽样误差的可能来源有()。A.抽样框遗漏掉部分城乡住户B.部分高收入住户拒绝接受调查C.调查人员有意作弊D.被调查住户提供虚假数据E.抽样的随机性 ?? 『正确答案』ABCD『答案解析』本题可采用排除法,排除“随机性”即可选择。

【例题·单选题】由于受访者记忆模糊,导致调查数据与其真值之间不一致,这种误差属于()。A.抽样误差B.抽样框误差C.无回答误差D.计量误差 ?? 『正确答案』D『答案解析』本题考查抽样调查中的误差。计量误差是由调查人员、问卷设计、受访者等原因造成的。如调查员在调查中有意无意地诱导被调查者;记录答案错误;调查人员有意作弊;由于问卷的原因受访者对调查问题的理解有偏误;受访者记忆不清;受访者提供虚假数字等。

知识点二:几种基本概率抽样方法(5种)(一)简单随机抽样1.简单随机抽样:最基本的随机抽样方法。分为:

类型 含义 特点 有放回简单随机抽样 从总体中随机抽出一个样本单位,记录观察结果后,将其放回总体中,再取第二个样本 单位有被重复抽中的可能,容易造成信息重叠而影响估计的效率,所以较少采用 不放回简单随机抽样 每次都在所有尚未被抽入样本的单元中等概率的抽取下一个单元 每个单位最多只能被抽中一次,比有放回抽样的抽样误差低

2.特点及适用条件

优点 操作简单,每个单位的入样概率相同 缺点 (1)未利用抽样框中更多的辅助信息,用样本统计量估计总体参数的效率受到影响(2)样本分布可能十分分散,增加了调查过程中的费用和时间 适用条件 (1)抽样框中没有更多可以利用的辅助信息(2)调查对象分布的范围不广阔(3)个体之间的差异不是很大

(二)分层抽样1.分层抽样:指先按照某种规则把总体分为不同的层,然后在不同的层内独立、随机地抽取样本,这样所得到的样本称为分层样本。【示例】某地区300家商店,为掌握各商店的营业情况抽取20个样本。设计的分层抽样为:大型商店30家,从中抽取5家;中型商店75家,从中抽取5家;小型商店195家,从中抽取10家。2.特点:(1)既可以估计总体参数,同时也可以估计各层的参数。(2)便于抽样工作的组织:分层编制抽样框。(3)每层都要抽取一定的样本单位,这样样本在总体中分布比较均匀,可以降低抽样误差。

3.样本量在各层中分配的方法:

等比例分配 层中单位数越多,该层中抽取的样本单位就越多,该层的样本单位比例与层中的总体单位比例相一致 不等比例分配 (1)各层单位数相差悬殊:如果按等比例抽样,总体单位数少的层所分到的样本量过小,代表性不足,就需要在该层适当增大样本量(2)有些层内的方差过大:为了降低抽样误差,在方差大的层中多抽,在方差小的层中少抽【注意】如果各层的总体方差已知,不等比例抽样的抽样误差可能比等比例抽样更小 4.适用条件:(1)抽样框中有足够的辅助信息,能将总体单位按某种标准划分到各层中;(2)同层内,各单位之间的差异尽可能地小,不同层之间各单位的差异尽可能地大。

(三)系统抽样1.系统抽样:指先将总体中的所有单元按一定顺序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。最简单的系统抽样是等距抽样。【示例】从某学校5000名学生中抽取50名进行体质检查,先对5000名学生进行编号,即0001~5000;间隔K=5000/50=100,表示每间隔100名学生抽取1个学生;0001~0100随机抽取0035号学生作为起点,依次抽取0135,0235,0335……,直到4935,50个样本抽取完毕。2.特点

优点 (1)操作简便,因为它只需要随机确定起始单位,整个样本就自然确定了(2)抽样框的要求也比较简单,只要求总体单位按一定顺序排列,而不一定是一份具体的名录清单 缺点 方差估计比较复杂,给计算抽样误差带来一定困难

3.估计效果与总体单位排列顺序有关:(1)无关标识排列:排列顺序与调查内容无联系。其估计与简单随机抽样估计效率相仿。(2)有关标识排列:排列顺序与调查内容有关。系统抽样精度一般比简单随机抽样的精度高。【示例】对汽车尾气排放情况的调查中,按汽车牌号排列,牌号与尾气排放没有关系,属于按无关标识排列。如果按汽车价格排列,价格与尾气排放量有相关性,属于按有关标识排列。

(四)整群抽样1.整群抽样:将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部基本单位,对没有抽中的群则不进行调查。【示例】在近千户的居民小区中,调查居民的宽带拥有率。从小区内随机抽取15号楼,然后对楼中每一户居民进行调查,用调查的结果来估计整个小区的宽带拥有率。2.特点及适用条件

特点 优点 (1)实施调查方便,可以节省费用和时间(2)抽样框编制得以简化,抽样时只需要群的抽样框,而不要求全部基本单位的抽样框 缺点 抽取的样本单位比较集中,群内各单位之间存在相似性,差异比较小,而群与群之间的差异比较大,使得抽样误差比较大 适用条件 群内差异大,群与群结构相似

(五)多阶段抽样1.多阶段抽样:在大规模抽样调查中,一次抽取到最终样本单位是很难实现的,往往需要经过两个或两个以上阶段才能抽到最终样本。【示例】全国性居民入户调查。首先抽取区县,然后在选中的区县中抽居委会,最后在选中的居委会中随机抽取居民户。2.特点:(1)抽样分阶段进行,抽样框也可以分级进行准备;(2)多阶段抽样是在选中的单位中再抽选,使得样本的分布相对集中,节省调查的人力和财力;(3)抽样设计比较复杂,抽样误差计算比较复杂。

【例题·多选题】(2020年)下列抽样调查方法中,属于概率抽样的有()。A.系统抽样B.判断抽样C.简单随机抽样D.分层抽样E.方便抽样 ?? 『正确答案』ACD『答案解析』概率抽样包括简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样。BE属于非概率抽样方法。

【例题·多选题】关于分层抽样设计的说法,正确的有()。A.不同层间单元的差异尽可能大B.各层的样本单元比例必须与该层的总体单元比例一致C.不等比例分层抽样的抽样误差大于等比例分层抽样D.抽样框中必须有总体单元的分层信息E.同一层内单元间的差异尽可能小 ?? 『正确答案』ADE『答案解析』本题考查分层抽样。等比例分配是指层中单位数越多,在该层中抽取的样本单位就越多,该层的样本单位比例与该层中的总体单位比例相一致,选项B错误。在条件具备时,如果各层的总体方差已知,不等比例抽样的抽样误差可能比等比例抽样更小,选项C错误。

【例题·多选题】在某城市的一项在职员工亚健康情况抽样调查中,调查人员先将工作单位按照行业和规模分层,然后在各层内随机抽取初始单位后,等距抽取5家单位,再对被抽中单位内所有员工进行体检和检查。该调查中采用的抽样方法有()。A.分层抽样B.简单随机抽样C.配额抽样D.整群抽样E.系统抽样 ?? 『正确答案』ABDE『答案解析』本题考查几种基本概率抽样方法。题干中所述的抽样方法包括分层抽样、简单随机抽样、整群抽样、系统抽样,其中的等距抽样就是最简单的系统抽样。“等距抽取5家单位,再对被抽中单位内所有员工进行体检和检查”采用的就是整群抽样的方法。 知识点三:估计量和样本量(一)估计量的性质【示例】2,4,6这3个数,抽取2个作为样本。

样本 样本均值(估计量) 2,4 3 2,6 4 4,6 5

1.估计量的无偏性:对于不放回简单随机抽样,所有可能的样本均值取值的平均值总是等于总体均值。

样本 样本均值(估计量) 2,4 3 2,6 4 4,6 5 估计量均值=(3+4+5)/3=4总体均值=(2+4+6)/3=42.估计量的有效性:在同一抽样方案下,对某一总体参数θ,如果有两个无偏估计量θ1和θ2,由于样本的随机性,θ1的可能样本取值比θ2更密集在总体参数真值θ附近,认为θ1比θ2更有效。估计量方差:常用于描述抽样误差,估计量方差越大,说明用可能的样本估计值之间的差异越大,用样本统计量估计总体参数的效率就越低,抽样误差越大。

3.估计量的一致性:随着样本量的增大,估计量的值如果稳定于总体参数的真值,这个估计量就有一致性。【示例】2,4,6这3个数,抽取2个作为样本。

样本 样本均值(估计量) 2,6 4 2,4,6 4 【记忆口诀】一、无、(所)有

【例题·单选题】总体参数的无偏估计量的方差小于其他的无偏估计量的是()。A.有效性B.一致性C.重要性D.无偏性 ?? 『正确答案』A『答案解析』本题考查估计量的性质。

【例题·多选题】抽样调查中,估计量的常用选择标准有()。A.方便性B.无偏性C.重要性D.有效性E.一致性 ?? 『正确答案』BDE『答案解析』本题考查估计量的性质。估计量的常用选择标准包括无偏性、有效性和一致性。

(二)抽样误差的估计1.均值估计量的方差:y表示样本均值,n为样本数量(样本量),N为总体个数,S2为总体方差(总体分布),实践中用样本方差来估计。2.抽样误差影响因素(多选)(1)总体分布:总体单位值之间差异越大,总体方差越大,抽样误差就越大;(2)样本量:在其他条件相同情况下,样本量越大,抽样误差就越小;(3)抽样方式和估计量的选择。

(三)样本量的影响因素

因素 影响 调查的精度 调查精度越高(误差水平越小),需要的样本量越大 总体的离散程度 总体的离散程度越大,所需要的样本量也越大 总体的规模 对于大规模的总体,总体规模对样本量的需求则几乎没有影响;对于小规模总体,总体规模越大,为保证相同估计精度,样本量也要随之增大(但不是同比例) 无回答情况 在无回答率较高的调查项目中,样本量要大一些,以减少无回答带来的影响 经费的制约 样本量是调查经费与调查精度之间的某种折中和平衡

【例题·多选题】关于样本量的说法,正确的有()。A.调查误差越小所需的样本量越大B.总体方差越小所需的样本量越小C.总体规模越大样本量要同比例增大D.经费越少样本量越小E.无回答率越高需要抽取的样本量越大 ?? 『正确答案』ABDE『答案解析』本题考查样本量的影响因素。选项C错误,对于大规模的总体,总体规模对样本量的需求几乎没有影响。但是对小规模的总体,总体规模越大,为保证相同估计精度,样本量也要随之增大,但不是同比例的。

【例题·多选题】为有效降低抽样调查中的抽样误差,可采取的措施有()。A.增大样本量B.改进估计量C.加强调查过程中的质量控制D.加强对访问人员的培训E.选择更有效的抽样方法 ?? 『正确答案』ABE『答案解析』本题考查抽样调查中的误差。误差是样本估计值和总体参数真值之间的差异。改进估计量可以降低误差。改进估计量时,可以增大样本量,也可以选用更有效的抽样方法。



本章考情

年份 单选题 多选题 合计 2019年 2题2分 0题0分 2分 2018年 1题1分 1题2分 3分 本章重点:1.回归分析和相关分析。2.一元线性回归模型。3.最小二乘法。4.模型的检验和预测。

知识点一:回归模型(一)回归分析的概念1.回归分析:根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的依赖关系。2.回归分析vs相关分析(研究目的和方法有明显区别)(1)相关分析需要依赖回归分析表明现象数量相关的具体形式。(2)回归分析依赖相关分析表明现象数量变化的相关程度。(3)相关分析无法从一个变量的变化来推测另一个变量变化情况,而回归分析的数学方程式可以。(4)只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。3.进行回归分析时,首先需要确定因变量和自变量。(1)因变量:被预测或被解释的变量,一般用Y表示;(2)自变量:用来预测或解释因变量的变量,一般用X表示。

【例题·多选题】关于相关分析和回归分析的说法,正确的有()。A.相关分析研究变量间相关的方向和相关程度B.相关分析可以从一个变量的变化来推测另一个变量的变化C.回归分析研究变量间相互关系的具体形式D.相关分析和回归分析在研究方法和研究目的上有明显区别E.相关分析中先要明确自变量和因变量 ?? 『正确答案』ACD『答案解析』本题考查相关分析与回归分析的联系与区别。相关分析不能提出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,所以B项错误。进行回归分析时,首先需要确定因变量和自变量,所以E项错误。

(二)一元线性回归模型1.回归模型分类(1)根据自变量的多少:一元回归模型和多元回归模型。(2)根据回归模型是否是线性:线性回归模型和非线性回归模型。2.一元线性回归模型:描述两个变量之间相关关系的最简单的回归模型。一元线性回归是只涉及一个自变量的回归问题。【注意1】线性函数β0+β1X:反映由于自变量X变化而引起的因变量Y的线性变化。【注意2】误差项ε:随机变量,表示除X和Y的线性关系之外的随机因素对Y的影响;不能由X和Y的线性关系所解释的Y的变异性。

(三)回归方程:描述因变量Y的期望E(Y)如何依赖自变量X的方程。一元线性回归方程:E(Y)=β0+β1X【注意1】一元线性回归方程的图示是一条直线。【注意2】β0是回归直线的截距,β1是回归直线的斜率,表明X每变动一个单位,E(Y)的变动量。

【例题·单选题】(2019年)一元回归模型和多元回归模型的划分依据是()。A.模型的数量B.样本量C.因变量数量D.自变量数量 ?? 『正确答案』D『答案解析』本题考查一元线性回归模型。根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。

【例题·单选题】下列回归模型中,属于一元线性回归模型的是()。A.Y=β0+β1X1+β2X2+εB.Y=β0+β1X1+β2X22+εC.Y=β0+β1X2+εD.Y=β0+β1X+ε ?? 『正确答案』D『答案解析』本题考查一元线性回归模型。一元线性回归模型只涉及一个自变量,即Y=β0+β1X+ε。

【例题·单选题】在一元线性回归方程中,回归系数β1的实际意义是()。A.当自变量X=0时,因变量Y的期望值B.当自变量X变动1个单位时,因变量Y的平均变动数量C.当自变量X=0时,自变量X的期望值D.当因变量Y变动1个单位时,自变量X的平均变动数量 ?? 『正确答案』B『答案解析』β1是回归直线的斜率,表明X每变动一个单位,E(Y)的变动量。

【例题·单选题】线性回归模型中误差项的含义是()。A.回归直线的截距B.回归直线的斜率C.观测值和估计值之间的残值D.除X和Y线性关系之外的随机因素对Y的影响 ?? 『正确答案』D『答案解析』本题考查一元线性回归模型。误差项是个随机变量,表示除X和Y的线性关系之外的随机因素对Y的影响,是不能由X和Y的线性关系所解释的Y的变异性。

知识点二:最小二乘法(一)最小二乘法:使得因变量的观测值yi与估计值yi^之间的离差平方和最小来估计参数β0和β1的方法。(单选)(二)最小二乘法是对回归模型进行参数估计的方法。(三)最小二乘法估计量表达式:【思路】

【例题·单选题】最小二乘法的原理是使得()最小。A.因变量的观测值与自变量的观测值之间的离差平方和B.因变量的观测值与估计值之间的离差平方和C.自变量的观测值与均值之间的离差平方和D.因变量的观测值与均值之间的离差平方和 ?? 『正确答案』B『答案解析』本题考查最小二乘法。最小二乘法就是使得因变量的观测值与估计值之间的离差平方和最小来估计参数β0和β1的方法。

【例题·单选题】线性回归模型常用的参数估计方法是()。A.最大二乘法B.最小残差和法C.最大残差和法D.最小二乘法 ?? 『正确答案』D『答案解析』本题考查最小二乘法。对回归模型进行估计的方法称为最小二乘法。

知识点三:模型的检验与预测(一)回归模型的拟合效果分析1.在使用估计的回归方程之前,需要对模型进行检验:(1)结合经济理论和经验分析回归系数的经济含义是否合理;(2)分析估计的模型对数据的拟合效果如何;(3)对模型进行假设检验。2.决定系数R2(拟合优度或判定系数):测度回归模型对样本数据的拟合程度。说明回归模型所能解释的因变量变化占因变量总变化的比例。(2020年变动)

3.决定系数的取值:在0到1之间。R2=1,说明回归直线可以解释因变量的所有变化。R2=0,说明回归直线无法解释因变量的变化,因变量的变化与自变量无关。4.拟合效果:决定系数越接近1,回归模型的拟合效果就越好,即模型解释因变量的能力越强。决定系数越接近0,回归模型的拟合效果就越差。

5.回归系数的显著性检验(t检验)(2020年新增)(1)t检验方法:验证自变量X对因变量Y是否有显著影响。(2)t检验的原理是反证法:在原假设(自变量X对因变量Y没有影响)正确的假定下,基于的抽样分布计算一次抽样情况下得到该样本或更极端样本的概率(P值),如果P<0.05,则可以在0.05的显著性水平下拒绝原假设,认为自变量X对因变量Y有显著影响,【比一比】

决定系数 0≤R2≤1 越接近1效果越好 相关系数 -1≤r≤1 0.3,0.5,0.8(无关、低度、中度、高度) 偏态系数 SK>0SK=0SK<0 0.5,1(轻度、中度、严重)

(二)模型预测:回归分析的一个重要应用就是预测,即利用估计的回归模型预估因变量数值。(三)二元回归模型(2020年新增)1.多元回归模型在实际应用中,随着自变量个数的增加,即使在有些自变量与因变量完全不相关的情况下,决定系数R2也会增大。2.估计的二元线性回归方程(1)年薪Y(元)和受教育年限e(年)为定量变量,职位p为定性变量,0表示一般职员,1表示管理者。(2)已知员工甲受教育年限为10年,在该公司为一般职员,可利用该模型预测其年薪大约为:

【例题·多选题】在某城市随机抽取1000户居民作为样本对该城市居民消费水平进行研究,对居民月消费支出Y(单位:元)和月收入X(单位:元),建立回归模型,得到估计的回归系数Y=1300+0.6X,决定系数0.96,关于该模型的说法正确的有()。A.居民月收入和月消费支出之间正相关B.回归模型的拟合效果很好C.居民月收入难以解释月消费支出的变化D.居民月收入每增长1元,月消费支出将平均增长0.6元E.居民月收入为10000元时,居民人均月消费支出大约为7300元 ?? 『正确答案』ABDE『答案解析』本题考查模型的检验和预测。由Y=1300+0.6X,可以看出X和Y同方向变化,即正相关,选项A正确;0.6表示X每增加一个单位,Y的平均增加量,选项D正确;将X=10000元代入回归方程即Y=1300+0.6×10000=7300元,选项E正确。决定系数0.96接近于1,可看出回归模型的拟合效果很好,选项B正确,选项C错误。

【例题·单选题】回归模型决定系数的取值范围是()。A.-1到1之间B.大于等于0C.0到1之间D.没有限制 ?? 『正确答案』C『答案解析』本题考查决定系数。决定系数,也称R2,取值在0到1之间。

【例题·单选题】若要定量研究边际消费倾向,并预测一定收入条件下的人均消费金额,适用的统计方法是()。A.相关分析B.回归分析C.偏态分析D.描述分析 ?? 『正确答案』B『答案解析』本题考查回归分析。回归分析的一个重要应用就是预测,即利用估计的回归模型预估因变量数值。

【例题·多选题】关于回归方程决定系数的说法,正确的有()。A.决定系数测度回归模型对样本数据的拟合程度B.决定系数取值越大,回归模型的拟合效果越差C.决定系数等于1,说明回归模型可以解释因变量的所有变化D.决定系数取值在[0,1]之间E.如果决定系数等于1,所有观测点都会落在回归直线上 ?? 『正确答案』ACDE『答案解析』本题考查模型的检验和预测。决定系数,也称为R2,可以测度回归直线对样本数据的拟合程度,决定系数的取值在0到1之间,大体上说明了回归模型所能解释的因变量变化占因变量总变化的比例。决定系数越高,模型的拟合效果就越好,即模型解释因变量的能力越强。如果所有观测点都落在回归直线上,R2=1,说明回归直线可以解释因变量的所有变化。



本章考情

年份 单选题 多选题 合计 2020年 1题1分 1题2分 3分 2019年 2题2分 1题2分 4分 2018年 0题0分 1题2分 2分 本章重点:1.时间序列的含义及其构成要素,时间序列的分类。2.发展水平,不同时间序列序时平均数的计算方法,增长量(逐期增长量、累计增长量),平均增长量的含义、计算方法。3.发展速度与增长速度的含义与计算,定基发展速度与环比发展速度之间的关系,平均发展速度与平均增长速度的含义与计算方法,速度分析中应注意的问题,增长1%绝对值的含义及其用途,增长1%绝对值的计算方法。4.平滑预测法:移动平均法,指数平滑法。

知识点一:时间序列及其分类(一)时间序列(动态数列):将某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列。(二)时间序列由两个基本因素构成:1.被研究现象所属时间;2.反映该现象在一定时间条件下数量特征的指标值。(三)分类:按照指标值的表现形式分为:绝对数时间序列、相对数时间序列、平均数时间序列。

2016 2017 2018 国内生产总值 国内生产总值第三产业占比 人均国内生产总值

1.绝对数时间序列:由绝对数指标值按时间先后顺序排列后形成的序列,依据指标值的时间特点又分为:(1)时期序列:每一指标值反映现象在一段时期内发展的结果,即“过程总量”,例如:国内生产总值、销售收入。(2)时点序列:每一指标值反映现象在一定时点上的瞬间水平,例如:年底总人口数、库存量。连续调查:一段时间的总量,如产品产量、能源的消耗等。不连续调查:总体现象在一定时点上的状态,如生产设备拥有量、耕地面积等。2.相对数时间序列:由同类相对数指标值按时间先后顺序排列后形成的序列。例如:第三产业从业人员比重、城镇人口比重。3.平均数时间序列:由同类平均数指标值按时间先后顺序排列后形成的序列。例如:人均国内生产总值。

【例题·单选题】(2020年)我国2013~2019年期间城镇单位就业人员平均工资的时间序列如下:

年份

2013

2014

2015

2016

2017

2018

2019



城镇单位就业人员平均工资(元)

51483

56360

62029

67569

74318

82413

90501



按照时间序列的分类,该时间序列属于()。A.时期序列B.平均数时间序列C.时点序列D.相对数时间序列 ?? 『正确答案』B『答案解析』平均数时间序列是由平均数指标值按时间先后顺序排列后形成的序列。

【例题·单选题】“年底总人口数”指标的时间序列属于()。A.时点序列B.平均数时间序列C.相对数时间序列D.时期序列 ?? 『正确答案』A『答案解析』本题考查时间序列及其分布。时点序列中,每一指标值反映现象在一定时点上的瞬间水平。如年底总人口数是说明在各年年末这一时点上人口数所达到的水平。 知识点二:时间序列的水平分析(一)发展水平1.发展水平:时间序列中对应于具体时间的指标数值。(1)最初水平:序列中第一项的指标值;(2)最末水平:最末项的指标值;(3)中间水平:处于二者之间的各期指标值。2.根据各期指标值在计算动态分析指标时的作用来划分:(1)基期水平:作为对比的基础时期的水平;(2)报告期水平:所要反映与研究的那一时期的水平。

(二)平均发展水平(序时平均数或动态平均数):对时间序列中各时期发展水平计算的平均数,它可以概括性描述现象在一段时期内所达到的一般水平。

绝对数时间序列平均发展水平 简单算术平均、加权算术平均两次平均、加权两次平均 相对数或平均数时间序列平均发展水平

1.绝对数时间序列:(1)时期序列计算序时平均数

【例题·单选题】该地区1990~1998年钢材年均使用量为()。

年份

1990

1991

1992

1993

1994

1995

1996

1997

1998



使用量

1316

1539

1561

1765

1726

1960

1902

2013

2446



A.1726吨B.1750.6吨C.1803.1吨D.1846.7吨 ?? 『正确答案』C『答案解析』(1316+1539+1561+1765+1726+1960+1902+2013+2446)/9=1803.1(吨)

(2)由时点序列计算序时平均数。★连续时点。分为两种情形:①资料逐日排列且每天登记,采用简单算术平均数的方法计算:

日期 6.1 6.2 6.3 6.4 6.5 6.6 库存量 49 52 39 29 43 38 ②资料登记的时间单位仍然是1天,但实际上只在指标值发生变动时才记录一次。此时需采用加权算术平均数的方法计算序时平均数,权数是每一指标值的持续天数。

【示例】某种商品6月份的库存量记录如下:

日期 1~4 5~7 8~13 14~20 21~23 24~28 29~30 库存量 49 52 39 29 43 38 51 该商品6月份的平均日库存量为:≈40(台)

★间断时点。分为两种情形:①每隔一定的时间登记一次,每次登记的间隔相等。间断相等的间断时点序列序时平均数的计算思想:“两次平均”:先求各个时间间隔内的平均数,再对这些平均数进行简单算术平均。

【例题·单选题】某企业职工人数资料(单位:人)如下:

时间

3月31日

4月30日

5月31日

6月30日



职工人数

1400

1500

1460

1420



该企业3~6月份平均职工人数为()。A.1500人B.1400人C.1445人D.1457人 ?? 『正确答案』D『答案解析』本题考查间隔相等的间断时点序列序时平均数的计算。

②每隔一定的时间登记一次,每次登记的间隔不相等。间隔不相等的间断时点序列序时平均数的计算也采用“两次平均”的思路,且第一次的平均计算与间隔相等的间断序列相同;进行第二次平均时,由于各间隔不相等,所以应当用间隔长度作为权数,计算加权算术平均数。

【例题·单选题】在序时平均数的计算过程中,与间隔相等的间断时点序列序时平均数计算思路相同的是()。A.间隔不相等的间断时点序列序时平均数B.时期序列序时平均数C.资料逐日登记且逐日排列的连续时点序列序时平均数D.只在指标值发生变动时才记录一次的连续时点序列序时平均数 ?? 『正确答案』A『答案解析』二者都采用“两次平均”的思路。

【例题·单选题】某行业2000年至2008年的职工数量(年底数)的记录如下:

年份

2000年

2003年

2005年

2008年



职工人数(万人)

1000

1200

1600

1400



则该行业2000至2008年平均每年职工人数为()万人。A.1300B.1325C.1333D.1375 ?? 『正确答案』B『答案解析』平均职工人数=[(1000+1200)÷2×3+(1200+1600)÷2×2+(1600+1400)÷2×3]÷8=1325(万人)。

2.相对数或平均数时间序列序时平均数的计算计算方法:分别求出分子指标和分母指标时间序列的序时平均数,然后进行对比。

例如,根据下表计算我国2008年至2013年第三产业从业人员数占总从业人员数比重的年平均数。我国2008~2013年从业人员数(年底数)

年份 2008 2009 2010 2011 2012 2013 从业人员数 65554 66373 67199 67947 68850 69600 其中,第三产业(万人) 12979 14071 15456 16851 17901 18375 第三产业所占比重(%) 19.80 21.20 23.00 24.80 26.00 26.40 15991.2÷67589.2=23.66%即我国2008年至2013年第三产业从业人员数占总从业人员数的年平均比重为23.66%。

(三)增长量与平均增长量1.增长量(1)增长量:报告期发展水平与基期发展水平之差,反映报告期比基期增加(减少)的绝对数量。增长量=报告期水平-基期水平(2)根据基期的不同分为:逐期增长量和累计增长量逐期增长:△i=yi-yi-1累计增长:△i=yi-y0两者关系:△i=yi-y0=Σ(yi-yi-1)累计增长量等于相应时期逐期增长量之和。

【例题·单选题】在时间序列的水平分析中,报告期水平与前一期水平的差是()。A.累计增长量B.逐期增长量C.平均增长量D.定基增长量 ?? 『正确答案』B『答案解析』逐期增长量=报告期水平-报告期前一期水平;累计增长量=报告期水平-最初水平。

2.平均增长量平均增长量:时间序列中逐期增长量的序时平均数,它表明现象在一定时段内平均每期增加(减少)的数量。式中,n表示逐期增长量个数,N表示时间序列项数。

【例题·多选题】关于增长量的说法,正确的有()。A.增长量是报告期发展水平与基期发展水平之差B.累计增长量是报告期水平与某一固定时期水平之差C.逐期增长量是报告期水平与前一期水平之差D.同一时间序列中,累计增长量等于相应时期内逐期增长量的乘积E.平均增长量是时间序列中逐期增长量的序时平均数 ?? 『正确答案』ABCE『答案解析』本题考查增长量与平均增长量。选项D错误,同一时间序列中,累计增长量等于相应时期逐期增长量之和。

【例题·单选题】平均增长量是时间序列中()的序时平均数。A.累计增长量B.报告期水平与某一固定时期水平(通常是时间序列最初水平)之差C.逐期增长量D.报告期发展水平 ?? 『正确答案』C『答案解析』平均增长量是时间序列中逐期增长量的序时平均数。

【例题·单选题】某商场2009~2013年商品销售额(单位:百万元)如下:

年份

2009

2010

2011

2012

2013



销售额

35.0

40.0

44.0

49.9

55.0



该商场2009~2013年商品销售额的平均增长量为()百万元。A.5B.4C.44D.3 ?? 『正确答案』A『答案解析』平均增长量=[(40-35)+(44-40)+(49.9-44)+(55-49.9)]/(5-1)=5

知识点三:时间序列的速度分析(一)发展速度与增长速度1.发展速度含义:报告期水平已发展到基期水平的几分之几或若干倍。由于基期选择的不同分为:(1)定基发展速度:报告期水平与某一固定时期水平(通常是最初水平)的比值。(2)环比发展速度:报告期水平与其前一期水平的比值。

(3)两者之间关系:①定基发展速度等于相应时期内各环比发展速度的连乘积:②两个相邻时期定基发展速度的比率等于相应时期的环比发展速度:

【例题·单选题】时间序列分析中,报告期水平与某一固定时期水平的比值是()。A.环比发展速度B.环比增长速度C.定基发展速度D.定基增长速度 ?? 『正确答案』C『答案解析』本题考查发展速度。定基发展速度是报告期水平与某一固定时期水平(通常是最初水平)的比值。

【例题·单选题】以2010年为基期,我国2012、2013年广义货币供应量的定基发展速度分别是137.4%和164.3%,则2013年与2012年相比的环比发展速度是()。A.16.4%B.19.6%C.26.9%D.119.6% ?? 『正确答案』D『答案解析』2013年与2012年的环比发展速度=2013年定基发展速度÷2012年定基发展速度=164.3%÷137.4%=119.6%

2.增长速度(1)含义:报告期增长量与基期水平的比值,表明报告期水平比基期增长(降低)了若干倍(百分之几)。

【例题·多选题】(2020年)关于发展速度与增长速度的说法,正确的有()。A.两个相邻时期定基发展速度的比率等于相应时期的环比发展速度B.增长速度没有定基与环比之分C.发展速度是以相对数形式表示的两个不同时期发展水平的比值D.定基发展速度等于相应时期内各环比发展速度的连乘积E.由于基期选择的不同,发展速度有定基与环比之分 ?? 『正确答案』ACDE『答案解析』发展速度是以相对数形式表示的两个不同时期发展水平的比值。由于基期选择的不同,发展速度有定基与环比之分。定基发展速度等于相应时期内各环比发展速度的连乘积。两个相邻时期定基发展速度的比率等于相应时期的环比发展速度。增长速度是报告期增长量与基期水平的比值,由于基期选择的不同,增长速度也有定基与环比之分,选项B错误,选项ACDE正确。

【例题·单选题】已知某地区2011-2015年社会消费品零售总额的环比增长速度分别为4%、6%、9%、10%,则这一时期该地区社会消费品零售总额的定基增长速度为()。A.4%×6%×9%×10%B.(4%×6%×9%×10%)+1C.(104%×106%×109%×110%)-1D.104%×106%×109%×110% ?? 『正确答案』C『答案解析』定基增长速度=定基发展速度-1=环比发展速度连乘积-1=(1+环比增长速度)连乘积-1=(104%×106%×109%×110%)-1

(二)平均发展速度与平均增长速度1.平均发展速度:一定时期内各期环比发展速度的序时平均数。各时期对比的基础不同,所以不能采用一般序时平均数的计算方法。目前计算平均发展速度通常采用几何平均法。几何平均法也称水平法。即:其中,bi=yi/yi-1,n表示环比发展速度的时期数。相应时期内各环比发展速度的连乘积等于定基发展速度。2.平均增长速度:反映现象在一定时期内逐期增长(降低)变化的一般程度。3.平均发展速度与平均增长速度的关系:平均增长速度=平均发展速度-1

【例题·单选题】我国2010-2015年人均国内生产总值分别为:3.1、3.6、4.0、4.3、4.7和5.2(单位:万元/人)。我国2010-2015年人均国内生产总值的平均增长速度算式是()。 ?? 『正确答案』B『答案解析』本题考查平均增长速度。平均增长速度=平均发展速度-1

(三)速度的分析与应用1.当时间序列中的指标值出现0或负数时,不宜计算速度。2.速度指标的数值与基数的大小有密切关系。在环比增长速度时间序列中,各期的基数不同,因此,运用这一指标反映现象增长的快慢时,往往要结合水平指标的分析才能得出正确结论。【示例】甲企业利润增长速度20%,乙企业利润增长速度40%;甲企业每增长1%增加利润额5万,乙企业每增长1%增加利润额0.6万。3.“增长1%的绝对值”:速度每增长一个百分点而增加的绝对数量。反映同样的增长速度,在不同时间条件下所包含的绝对水平。

【例题·单选题】我国国内旅游总花费2018年为51278.3亿元,2017年为45660.7亿元,则2018年国内旅游总花费的增长1%绝对值为()亿元。A.512.783B.51278.3C.456.607D.465.706 ?? 『正确答案』C『答案解析』本题考查增长1%的绝对值。45660.7÷100=456.607。

【例题·多选题】关于时间序列的说法,正确的有()。A.同一时间序列中,累计增长量等于相应时期逐期增长量之和B.定基发展速度等于相应时期内各环比发展速度的连乘积C.平均增长量等于累计增长量与逐期增长量之比D.定基增长速度等于相应时期内各环比增长速度的连乘积E.两个相邻时期定基发展速度的比率等于相应时期的环比发展速度 ?? 『正确答案』ABE『答案解析』本题考查时间序列。平均增长量是时间序列中逐期增长量的序时平均数,选项C错误。定基发展速度等于相应时期内各环比发展速度的连乘积,定基增长速度和环比增长速度的关系,需要通过定基发展速度和环比发展速度的关系来转换,选项D说法错误。

【例题·多选题】在进行时间序列的速度分析时,不宜计算速度的情况包括()。A.序列中各期指标值大小差异很大B.序列中指标值出现0C.序列中各期指标值均为绝对数D.序列中指标值出现负数E.序列中指标值存在极端值 ?? 『正确答案』BD『答案解析』在应用速度分析实际问题时,须防止误用乃至滥用的现象。应注意:首先,当时间序列中的指标值出现0或负数时,不宜计算速度。其次,速度指标的数值与基数的大小有密切关系。

知识点四:平滑预测法(一)平滑法概述

目的 消除时间序列的不规则成分所引起的随机波动 适用情形 适用于平稳时间序列的预测,即没有明显的趋势、循环和季节波动的时间序列 优点 简单易用,对数据的要求最低,通常对于近期的预测具有较高的精度 具体方法 移动平均法、指数平滑法 (二)移动平均法移动平均法:使用时间数列中最近k期数据值的平均数作为下一期的预测值。其中,就是对时间序列的Yt预测结果;k为移动间隔(1<k<t)

【示例】某纺织品公司近年棉布销售量如下表,请用一次移动平均法预测2018年的棉布销售量。(单位:万米)

年份 销量 预测销量 2015 1032 1027 2016 1015 1031 2017 1010 1022 2018 ? 2018年预测销量=(1010+1015+1032)/3=1019(万米)

(三)指数平滑法指数平滑法:利用过去时间序列值的加权平均数作为预测值,即使得第t+1期的预测值等于第t期的实际观察值与第t期预测值的加权平均值。(单选)这种方法的特点:观测值离预测时期越久远,其权重也变得越小,呈现出指数下降,因而称为指数平滑。Ft+1=αYt+(1-α)Ft其中,F为指数平滑预测值;Y为实际观测值;ɑ为平滑系数(权重),取值范围0<ɑ<1。

【示例】某种产品销售量的平滑系数为0.4,2017年实际销售量为31万件,预测销售量为33万件,则2018年预测销售量是多少?2018年预测销售量=31×0.4+33×(1-0.4)=32.2(万件)

【例题·单选题】2011年—2016年我国工业生产者出厂价格指数分别为106.0、98.3、98.1、98.1、94.8、98.6,选取移动间隔K=3,应用移动平均法预测2017年工业生产者出厂价格指数,则预测值为()。A.99.0B.98.3C.96.7D.97.2 ?? 『正确答案』D『答案解析』本题考查移动平均法。(98.1+94.8+98.6)/3=97.2。

【例题·单选题】如果以Yt表示第t期实际观测值、Ft表示第t期指数平滑预测值、α表示平滑系数,则指数平滑预测法的计算公式为()。A.Ft+1=αYt+1+(1-α)FtB.Ft+1=αYt+(1-α)FtC.Ft+1=α(Ft+Yt)D.Ft+1=αFt ?? 『正确答案』B『答案解析』本题考查指数平滑法。指数平滑法是利用过去时间序列值的加权平均数作为预测值,即使得第t+1期的预测值等于第t期的实际观察值与第t期预测值的加权平均值。其基本计算公式为:Ft+1=αYt+(1-α)Ft。





2021中级经济师

献花(0)
+1
(本文系启智职教的...原创)