配色: 字号:
统计学
2022-10-23 | 阅:  转:  |  分享 
  
判断数据类型,三者的层次关系。① 分类数据(=、≠):只能分类。EG.性别(男为0,女为1)、水果种类。② 顺序数据(>、<):可进行类别排
序,但是类别间尺度不定。顺序数据虽然有类别,但是这些类别是有序的。EG.文化程度(小学、初中、高中、大学)、获奖(一等奖、二等奖、
三等奖),身高(160—170、170—180、180—190)。③ 数值型数据(+、-):按数字尺度测量的观察值,计算两个测度之
间的差值。类别排序是根据一定的尺度来进行的。EG.身高(168、170、178、189)、年龄、收入。 ①—③是从低层次数据(包含
的信息量少)到高层次数据(包含的信息量多)。 定类数据与定序数据是品质数据(定性数据),定距数据是数量数据(定量数据)。 定类数据
包含了定序数据,定序数据包含了定距数据。所以定距数据涵盖的信息量最多。2.总体分布、样本分布、抽样(样本统计量)分布? 总体:是包
含所研究的全部个体(数据)的集合。总体中的每一个个体都是总体单位。有限总体(抽样中每次抽取后不放回)、无限总体(抽取后放回)? 样
本:从总体中抽取的一部分元素的集合。构成样本元素的数目叫样本量(样本中有几个元素)。3.参数、统计量? 参数:描述总体特征的概括性
数字度量。EG.总体平均数、总体标准差、总体比例。 ? 统计量:描述样本特征的概括性数字度量。EG.样本平均数、样本标准差。4.变
量、变量值、指标? 指标:反映统计总体数量特征的概念和数值。(指标值是由变量值综合计算得到的。) ? 变量:总体单位普遍具有的属性
和特征。(分类变量、顺序变量、数值型变量『离散型变量EG.自然数,可以一一列举;连续型变量EG.实数,不能一一列举』)? 变量值:
变量的具体取值就是变量值。5.各特点、辨别应使用的抽样方式? 概率抽样(随机抽样):1) 简单随机抽样:从总体N的样本框中随机、一
个个地抽取n个单位作为样本,每个单位的入样概率是相等的。(简单直观,计算估计量误差方便;N较大时,构建抽样框不易且抽取过程繁琐,实
施调查有困难。)(抽样框:一份名单,包含所有总体单位的信息。用以提供备选单位的名单以供抽取,是计算各个单位入样概率的依据。)2)
分层抽样:将抽样单位按一定特征或规则划分为不同的层,然后从不同的层中独立、随机地抽取。(样本结构与总体结构相似,提高精度,方便实施
调查,既可以对总体也可以对层的目标量进行估计;层间差异大,层内总体单位差异小。)3) 整群抽样:将总体中若干个单位合并为组,这样的
组叫做群。抽样时直接抽群,然后对选群中的所有单位全部实施调查。(只需要群的抽样框,不需要总体的,简化工作量。调查地点相对集中,方便
调查;误差较大。群间差异小,群内总体单位差异大。)4) 系统抽样:(需要一个完整的抽样框)将总体中的所有单位排序,然后在规定范围内
随机抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本。(操作简便、提高精度;对估计量方差的估计难以确定。)5) 多阶段
抽样:首先抽取群,然后进一步抽样,从选取的群中抽取若干单位,(然后进一步抽样??)作为最终抽样单位。群是初级抽样单位(每增加一个阶
段就会增添一份误差)。(保证样本的相对集中、不需要包含所有低阶段抽样单位的抽样框、实行再抽样,使调查单位在更广的范围内展开。)?
非概率抽样(非随机抽样)1) 方便抽样:调查员依据方便的原则自行确定入抽样本的单位。(容易实施、成本低;无法代表有明确定义的总体)
例如:在街头发调查问卷2) 判断样本:研究人员根据自己的判断和经验确定入抽样本。根据不同目的分为重点抽样(EG.全国钢铁企业生产状
况,抽取宝钢和鞍钢)、典型抽样(EG.研究青山年犯罪的问题,抽取典型犯人)、代表抽样(EG.奶粉企业欲了解消费者对奶粉成分的需求,
抽取一些年轻的母亲入样)。(判断抽样是主观的,成本低、易操作;样本没有随机的原则,所以调查结果不能用于对总体有关的参数进行估计。)
3) 自愿样本:被调查者自愿参加成为样本中的一份子,向调查人员提供有关信息。(EG.网上的调查问卷)(自愿样本与抽样的随机性无关,
样本的组成集中于某一特定的人群,可以反映某一群体的看法。)4) 滚雪球抽样:(用于对稀少群体的抽样)先选择一组调查单位,对其实施调
查之后再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。(EG.对冬泳爱好者进行调查)(属于非
概率抽样,容易找到那些属于特定群体的被调查者,成本低。适于对特定群体进行研究的资料收集。)5) 配额抽样:将总体中的所有单位按照一
定变量分为若干类,然后在每一类中采取方便抽样或者判断抽样选取样本。(操作简单、可以保证总体中不同类别的单位都包括在所抽样本中,使得
样本的结构与总体结构类似;但是在抽取具体样本的时候不是依据随机原则,所以属于非概率抽样。)6.抽样误差与非抽样误差(如何减少误差)
? 抽样误差:由抽样中的随机性引起的所有样本可能的结果与总体真值之间的(平均差异)误差。只存在于概率抽样中? 减少抽样误差的方法(
不可避免):增大样本量、减小总体的变异性(总体各单位之间的差异)。? 非抽样误差:由于其他原因引起的样本观察结果与总体真值之间的差
异。存在于概率抽样与非概率抽样中? 减少非抽样误差的方法:① 抽样框误差:构造一个好的抽样框(去掉不属于总体的因素)② 回答误差:
调查者在接受调查时给出的回答与真实情况不符(理解误差、记忆误差、有意识误差、无回答误差)③ 调查员误差:粗心导致记录调查结果的时候
出现错误、进行调查时候对被调查者的诱导④ 测量误差:测量工具的好坏、商场客流量调查时,查点顾客数的误差。7.数据分组如何分? 数据
分组:是为了观察数据的分布特征而将原始数据按照某种标准分成不同的组别,分组后的数据称为分组数据。? 分组步骤:①确定组数;②确定各
组组距;③根据分组整理成频数分布表。 “上组限不在内”:第一组140—150、第二组150—160,150归在第二组。左连续。
数据要做到“不重(重复)不漏(遗漏)”连续型直方图的柱形要连在一起,而离散性的柱形应要分开。8.众数、中位数、平均数、集中趋势
? 集中趋势:指一组数据向某一中心值靠拢的程度,反映一组数据中心点的位置所在。 ? 众数:不受极端值的影响。测度分类数据的集中趋势
。只有在数据量大的情况下,众数才有意义。(一组数据分布的最高峰值。不唯一性。)? 中位数:不受极端值的影响。测度顺序数据、数值型数
据的集中趋势,不适用于分类数据。(一组数据中间位置上的值。当一组数据的偏斜程度较大时,中位数可以被选择。) ? 平均数:受极端值影
响。一组数据的均衡点所在。只适用于数值型数据。(全部数据的算术平均。)1) 简单平均数:未分组的数据的平均数。2) 加权平均数:分
组后根据分组数据计算的平均数。各组组中值与频数(各组中总体单位的个数)的乘积之和除以各组频数之和(样本量)。对于偏态分布的数据,
最好选用众数或者中位数,平均数的代表性较差。9.异众比率、四分位差、方差、标准差、离散系数? 异众比率:指非众数组的频数占总频数的
比例。用于衡量众数对一组数据的代表程度。异众比率越大,众数的代表性越小。主要适用于测度分类数据的离散程度,对于顺序数据与数值型数据
可以计算异众比率。? 四分位差:上四分位数与下四分位数之差。反映了中间50%数据的离散程度,数值越小,说明数据越集中。不受极值影响
。主要用于测顺序数据的离散程度,数值型数据也可以计算四分位差,但是不适用于分类数据。? 方差:各变量值与其平均数离差平方的平均数。
反映数据的离散程度。总体的自由度为N,样本的自由度为n-1.? 标准差:方差的平方根。? 离散系数:一组数据的标准差与其相应的平均
数之比。用于比较不同样本数据的离散程度。离散系数大就说明数据的离散程度也大。10.经验法则:当一组数据对称分布时,经验法则表明:①
约有68%的数据在平均数±1个标准差的范围之内;② 约有95%的数据在平均数±2个标准差的范围之内;③ 约有99%的数据在平均数
±3个标准差的范围之内。11.偏态与峰态,作用、与正态分布的比较。? 偏态:数据是对称的,偏态系数为0? 峰态:数据服从标准正态分
布,峰态系数为0。与标准正态分布相比更平坦则为平峰分布,更陡峭则为尖峰分布。12.假设怎样提出(计算+小题)先确定备择假设(我们想
要的答案),然后将其对立面设为原假设。等号在原假设里(即含有=、≤、≥的基本就是原假设了)。13.两类错误? α错误(弃真错误):
原假设是真的却被我们拒绝了。小概率事件发生。? β错误(取伪错误):原假设为伪我们却没有拒绝。小概率事件没有发生。β与方差正相关
、与|μ0—μ|、α负相关。我们可以控制α错误的大小,β却不能。14.假设检验的流程、方法(反证法)P186①提出原假设与备择假设
;②确定适当的检验统计量,并计算其数值;③进行统计决策。15.抽样分布的基础:小概率原理? 小概率原理:小概率事件在一次试验中几乎
不会发生。(小概率的标准与显著性水平有关)16.、拒绝域、显著性水平? 拒绝域:落在拒绝域则拒绝原假设;落在置信区间则不拒绝原假设
。? 显著性水平:当原假设正确时却被拒绝的概率或者风险。其实就是犯弃真错误的概率α。 α越大,拒绝域越大,但是反推把握性越小;α
越小,拒绝域越小,反推把握大。所以α越小越好。17.三个问题? Q:为什么不能说“接受原假设”?A:因为我们所做的试验中小概率事件
没有发生,但可能还有许多其他的与原假设矛盾的小概率事件,我们也无法证明这些小概率事件不会发生,所以我们只能根据我们得出的结果来判定
不拒绝。? Q:为什么等号总是放在原假设中?A:因为原假设的内容总是表示参数没有差异或没有改变,或变量间没有关系等。这里首先要有一
个(假想)抽样分布的概念。你构造检验统计量时(以z分布为例),总得有个假想的中心值吧。这个中心值从哪里来?就得从原假设中来,然后再
去计算,在原假设为真的前提条件下,出现观测值(及更极端值)的机会是多少。没有这个假设值,整个假设检验就无法进行。把等于号放在原假设
的第一个作用,就是为了给出这个假想的中心值,以便确立一个假想的抽样分布。? Q:为什么单侧检验的原假设可以写成“原假设H0:μ=μ
0”?A:“代表最坏情况”的问题。假设你的假设是:H0: u=10; H1: u =10; H1: u 10的原假设;反之不然。1
8.P值(计算得出的真实显著性水平)是什么?? P值:当原假设为真时所得到的样本观察结果或更极端结果出现的概率。(如果P很小而出现
了,根据小概率原理,我们就有理由拒绝原假设;P越小,拒绝原假设的理由就越充分)? P值的大小取决于:①样本数据与原假设之间的差异;
②样本量;③被假设参数的总体分布。19.单侧检验与双侧检验? 单侧检验:1个拒绝域,1个临界值,每个拒绝域的面积为α.如果原假设为
“H0:μ≥/≤μ0”则为单侧检验。? 双侧检验:两个拒绝域,两个临界值,每个拒绝域的面积为α/2.如果原假设为“H0:μ=μ0”
则为双侧检验。20.独立样本与配对样本的T检验? 独立样本:指我们得到的样本总体之间是相互独立的,比如我们要研究一个地区百姓的生活
水平,要同时考察家庭的子女数x,父母的教育水平y。? 配对样本:指我们得到的样本总体之间是存在相关关系的,比如我们要研究药效y与药
物用量x的关系,则(x,y)配对样本. (配对样本实质上起到了控制观测变量影响因素的作用,可以得到更加准确的推断结果)21.相关关
系、相关系数的特点、含义、计算方法? 相关关系:大体上表现为线性相关(变量之间的关系相近地表现为一条直线)、非线性相关(变量之间的
关系表现为一条曲线)、完全相关(一个变量的取值完全依赖于另一个变量,每个观测点精确地落在一条直线上,即函数关系)、不相关(观测点很
分散,无任何规律,即没有相关关系)。? 相关系数:(总体相关系数为ρ,样本相关系数为r)a. 含义:根据样本数据计算的度量两个变量
之间线性关系强度的统计量。b. 特点:①取值范围『-1,1』,相关系数的绝对值越趋近于1表明关系越密切,趋近于0表明关系越不密切;
等于1则是完全正相关,等于-1则是完全负相关。相关系数为0不代表x,y不相关,只是不线性相关而已!②相关系数有对称性,rxy=ry
x。③相关系数的大小与x,y的原点及尺度无关。④相关系数表示x,y之间线性关系的度量,不意味着x,y一定有因果关系,且不能用于描述
非线性关系。c. 算法:ρ=cov(x,y)/√(D(X)D(Y))22.相关关系的显著性检验,结果会判断,能推出H0与H1 P2
7023.什么是自变量与应变量? 自变量:X 用来预测或解释因变量的一个或多个变量。? 应变量:Y 被预测或被解释的变量。24.相
关关系分析与线性回归分析的区别? 相关关系:只能得出相关系数的大小,得知x,y是正/负相关。? 线性回归:能计算出具体的变量之间的
关系,即x变化一单位时,y相应变化多少。25.一元线性回归方程的估计:最小二乘法(怎么做的)? 最小二乘法思路:找一条线来拟合,用
于更好地反映x与y之间的关系。实际值(真实的点)—估计值(拟合后线上的点对应的值)=残差,令残差最小,因为有正负之分,所以加上平方
。即令所有残差的平方和最小。26.对回归表格的解读? Ad(R^2)表示所有x共同解释了多少y的变动。? f检验(一下子检验但是不
知道究竟是哪个x不为0)(检验x,y之间的线性关系是否显著),原假设所有的变量系数都等于0,备择假设是至少有一个不为0。? 写出公
式根据表中的数据可以写出y关于x的拟合函数。? 进行t检验(x逐个检验)(检验xi对y的影响是否显著),原假设xi的系数为0,备择
假设xi的系数不为0。看p值是不是比0.01小,看是不是比0.05小,比0.1小,判断是否拒绝愿假设。(当自变量只有一个时,F检验
与t检验的原假设和备择假设是一样的,但是意义即检验目的依旧不同)27.时间序列的构成、要素、增长率、平均增长率(几何平均法)怎么算
?? 时间序列:在不同时间上的相继观察值排列而成的序列。有平稳序列(波动是随机的)和非平稳序列(包含趋势、季节性、周期性的序列,可
以分为有趋势的序列、有趋势和季节性的序列、几种成分混合的复合型序列)? 构成要素:时间(时期数据EG.人口变化量、时点数据EG.人
口总量)、统计指标值(绝对值总EG. 总人口、平均值复合指标EG.平均GDP、相对值复合指标EG. 燃煤占总燃料的百分比)? 增长
率:是时间序列中报告期观察值与基期观察值之比减1后的结果。a. 环比增长率:报告期观察值与前一时期观察值之比减1b. 定基增长率:
报告期观察值与某一固定时期观察值之比减1? 平均增长率:时间序列中逐期环比值的几何平均数减1后的结果。28.移动平均法,移动几项?
P333奇数移一次,偶数移两次;移动次数与季节性周期性相符? 移动平均法:通过对时间序列逐期递移求得平均数作为预测值。? 简单
移动平均法:将最近k期的数据加以平均,作为第k+1期的预测值。只使用最近k期的数据,在每次计算移动平均时,移动间隔都为k。适用于对
较为平稳的时间序列进行预测。29.线性趋势预测指现象随着时间的推移而呈现出稳定增长或下降的线性变化。当现象的发展按线性趋势变化时,
可以用线性趋势方程来描述。而方程中的斜率和截距可以用最小二乘法来确定。通过趋势方程可以计算出各期的预测值,并通过预测值来分析序列的
变化趋势以及模型。趋势预测的误差可以用线性回归中的估计标准误差来衡量。30.季节指数如何计算(计算步骤、计算移动平均值)P344?
季节指数:刻画了序列在一个年度内各月或各季度的典型季节特征。? 计算步骤:①计算移动平均值;②计算移动平均的比值,也称季节比率;
③季节指数调整。31.指数概念、分类、作用? 指数含义:用于测定多个项目在不同场合下综合变动的一种特殊相对数。? 指数分类:a.
按内容分:数量指数、质量指数b. 按项目多少分:个体指数、总体指数c. 按表现形式分:综合指数、平均指数d. 按采用基期分:定基指
数、环比指数? 指数作用a. 综合分析事物变动方向和程度b. 分析多因素影响现象的总变动中,各个因素的影响大小和影响程度c. 研究
事物在长时间内的变动趋势31.综合指数与平均指数 P360? 先对比后综合——平均指数:没有考虑每一种物品在总体中的比重(EG.手
机和水果在消费结构中的占比肯定不一样啊!两者不能相提并论啊!要加权的嘛)? 先综合后对比——综合指数:价格的直接加总无经济学意义,
而且计量单位不同。 ? 于是衍生了加权平均指数与加权综合指数来免去前面两者的缺点。? 加权综合指数与加权平均指数的异同:两者只是计
算形式上相同,但是本质还是不一样的。如果是全面资料,应采用加权综合指数。计算生产量指数一般属于这种情况,因为生产量指数要包含所有产
品的生产情况。如果是样本资料,应采用加权平均指数。计算价格指数时,市场商品的项目成千上万,只能采取选样方法,挑选代表规格品。在这样
的情况下,若采用加权综合指数,其结果仅仅是计算了代表规格品的价格变化。而价格指数要反应市场所有商品的价格变化,代表规格品是样本,其
中每一项都代表了一类商品,每一项代表规格品都要有自己的权数。32.拉氏指数与帕氏指数 P360? 拉氏指数:a. 优点:消除权数变
动对指数的影响(以基期的变量值作为权数)b. 缺点:物价水平不能很好地被反应。因为价格会影响销售量? 帕氏指数:a. 优点:可以同
时反应价格和消费结构的变化,具有经济意义。b. 缺点:以报告期变量值为权数,不可以消除权数变动对指数的影响。同一资料下,帕氏指数
>拉氏指数33.指数体系(拉氏+帕氏)? 指数体系:由总量指数以及若干个因素指数构成的数量关系式。? 在加权综合/平均指数体系中,
为使总量指数等于各因素指数的乘积,两个因素指数一个为质量指数,一个为数量指数。而且各因素指数中权数必须是不同时期的。常用的是基期加
权的数量指数(拉氏指数)与报告期加权的质量指数(帕氏指数),形成的体系。34.CPI的计算公式与股票价格指数的计算公式(一个拉氏,一个帕氏)35.回归系数(拟合函数的斜率)与相关系数的区别与计算。相关系数和回归系数的联系和区别如下:1、首先,相关系数与回归系数的方向,即符号相同。回归系数与相关系数的正负号都有两变量离均差积之和的符号业决定,所以同一资料的b与其r的符号相同。回归系数有单位,形式为(应变量单位/自变量单位)相关系数没有单位。相关系数的范围在-1~+1之间,而回归系数没有这种限制2、在回归中,应变量即Y是随x的改变而改变,而相关则是xy相互独立,可以做x与y的相关和y与x的相关是一致的,回归就不能这样做。相关表示两变量间的相互关系,是双方向的。而回归则表示Y随X而变化,这种关系是单方向的。医学资料中的有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。另有些资料用相关和回归都适宜,此时须视研究需要而定。就一般计算程序来说,是先求出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。3、一般来说,相关和回归的假设检验的结果是一致的。回归系数b乘以X和Y变量的标准差之比结果为相关系数r.即bσx/σy=r
献花(0)
+1
(本文系知识资料圈原创)