分享

一文了解统计学基础知识,让数据分析不再困扰

 blackhappy 2023-03-13 发布于陕西

统计学是数据分析的基础,很多人只会用平均数去分析这往往是粗糙的,不准确的。如果掌握了统计学,那么我们就能以更多更科学的维度去分析数据。本文将围绕统计学的几大特性进行简单介绍,希望对大家的工作有所帮助。

文章图片1

统计量的描述方式

集中性

1.平均数:Mean

是表示一组数据集中趋势量数,是指在一组数据中所有数据之和再除以这组数据的个数。

2.众数:Mode

是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。

3.中位数:Median

把所有数据按顺序进行排列,分布在最中间的值。

样本总数为奇数时,中位数为第(n+1)/2个位置对应的值;

样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数。

4.四分位数:Quartile

把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。

第一四分位数 (Q1),指该样本中所有数值由小到大排列后第25%的数字;

第二四分位数 (Q2),又称“中位数”,指该样本中所有数值由小到大排列后第50%的数字;

第三四分位数 (Q3),指该样本中所有数值由小到大排列后第75%的数字。

文章图片2

四分位数

离散性

1.四分位距 :Interquartile range

第三四分位数与第一四分位数的差距称四分位距,IQR=Q3-Q1。

文章图片3

四分位距

2.异常值:Outlier

小于Q1-1.5(IQR)或者大于Q3+1.5(IQR)的值,处理数据环节我们需要将异常值剔除

3.极差:Range

一组数据中最大值与最小值之间的差值,R=Xmax-Xmin。

4.方差:Variance

每个样本值与全体样本值的平均数之差的平方值的平均数

5.标准差:Standard Deviation

总体各单位标准值与其平均数离差平方算术平均数平方根。它反映组内个体间的离散程度。

分布形态

1.概率分布:Probability distribution

用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。

2.置信区间:Confidence interval

指由样本统计量所构造的总体参数的估计区间,置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,一般较为常用的是95%的置信区间。

3.正态分布:Normal distribution

随机变量X服从一个数学期望为μ,方差为σ²的正态分布,记为N(μ,σ²;)

随机取一个样本,有68.26%的概率位于距离均值μ有1个标准差σ内;

95.45%的概率位于距离均值μ有2个标准差σ内;

99.73%的概率位于距离均值μ有3个标准差σ内。

文章图片4

正态分布概率分布图

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多