
本篇归纳统计学基础知识,包括一些基础理论、概念、方法等,作为数据分析的前置知识。 概述统计学的概念什么是统计学? 数据分析方法可分为描述统计方法和推断统计方法。 统计分析方法应用于各行各业和各个领域。 统计数据的类型1.按照所采用的计量尺度不同,统计数据可以分为分类数据、顺序数据和数值型数据。 分类数据: 只能归于某一类别的非数字型数据; 顺序数据: 只能归于某一有序类别的非数字型数据; 数值型数据: 按数字尺度测量的观测值。
其中: 2.按照统计数据收集方法,可分为观测数据和实验数据。 观测数据:通过调查或观测而收集到的数据; 实验数据:在实验中控制实验对象而收集到的数据。
3.按照被描述的现象与时间的关系,统计数据分为截面数据和时间序列数据。 截面数据:在相同或近似相同的时间点上收集的数据: 时间序列数据:在不同时间上收集到的数据。
区分数据的类型十分重要,因为不同类型数据,需要采用不同的统计方法来处理和分析。 统计中的几个基本概念总体: 统计所研究事物的全体。 样本: 从总体中抽取的一部分元素的集合。 参数: 用来描述总体特征的概括性数字度量。 统计量: 用来描述样本特征的概括性数字度量。 是根据样本数据计算出来的一个量,它是样本的函数。 通常关心的统计量有样本平均数、样本标准差、样本比例等。 样本统计量通常用英文字母来表示。如x-(x bar)、S、P 等。 抽样的目的就是要根据样本统计量去估计总体参数。 除了以上的统计量外,还有一些是为统计分析的需要而构造出来的统计量,比如用于统计检验的 Z 统计量、t 统计量、F 统计量等。
变量: 说明现象某种特征的名称。分为:
数值型变量根据取值不同,可分为离散型变量和连续型变量。 多数情况下,所说的变量主要是指数值型变量,大多数统计方法所处理的也都是数值型变量。 数据收集数据来源数据的间接来源: 从使用者角度看,来源于别人调查或实验的数据,也称为第二手数据。 主要是公开出版或公开报道的数据 主要来源于报刊、杂志、图书、广播、电视和网络等。
数据的直接来源: 从使用者角度看,来源于直接的调查和科学实验的数据,也称为第一手数据。 抽样调查: 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。 普查: 为特定目的而专门组织的全面调查。 统计报表: 按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的调查方式。
调查方案的结构在收集数据之前,需要制定出一个收集数据的计划,这个计划称为调 查方案。调查方案的结构大体包括: 调查目的。 调查对象和调查单位。 调查对象是根据调查目的确定的调查研究的总体或调查范围。 调查单位是构成调查对象中的每一个单位,它是调查项目和调查内容的承担者或载体,也是我们收集数据、分析数据的基本单位。 调查对象和调查单位所解决的是“向谁调查”,由谁来提供所需数据。
调查项目和调查表。 调查项目要解决的问题是“调查什么”,也就是调查的具体内容。 在大多数统计调查中, 调查项目通常以表格的形式来表现,称为调查表 就是用于登记调查数据的一种表格,一般由表头、表体和表外附加三部分组成。
在一般的市场调查中,调查的内容则主要是通过问卷调查完成。除上面的几项以外,调查方案还应明确调查方式、方法,调查时间、调查组织实施和具体细则等。 数据质量为确保数据的质量,在数据的收集、整理、分析等各环节都应尽可能减少误差。 数据误差。通常是指统计数据与客观现实之间的差异,其类型主要有抽样误差和非抽样误差两类。 抽样误差主要是指在用样本数据进行推断时所产生的随机误差。 这类误差通常是无法消除的,但事先可以进行控制或计算。 非抽样误差是调查过程中由于调查者或被调查者的人为因素所造成的误差。 这类误差理论上讲是可以消除的。
数据质量要求。一般概括为6个方面: (1) 精度 (2) 准确性 (3) 关联性 (4) 及时性 (5) 一致性 (6) 经济性,即最低成本。
数据的图表展示数据的预处理数据的预处理是数据整理和分析的先前步骤,它是在数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。 数据审核。 审核就是检查数据是否有错误。 对于原始数据主要从完整性和准确性两个方面去审核 对于二手数据应着重审核数据的适用性和时效性。
数据筛选。筛选包括两方面内容: 数据排序。
分类数据的整理与图示频数与频数分布表、累积频数和累积频率表(顺序数据) 条形图、柱形图、对比条形图、饼图、累积频数分布图、环形图等
数值型数据的整理与展示变量分组。分为单变量分组和组距分组。组距分组的相关概念、原则、步骤、次数分布表 直方图、茎叶图、箱线图、线性图、散点图、气泡图、雷达图等
合理使用图表鉴别图形优劣的准则:一个好的图形应当具备(五个准则) (1)精心设计、反映实质 (2)简明、高效 (3)信息充足 (4)美观、多維 (5)真实、确切
统计表形式结构:
|