【原】18个常见的数据分析面试题-概率统计类

进击的可乐 2021-12-15

展开全文

大概率每天早8点25更新

哈喽，大家好，我是可乐

总结了一些常见的概率与统计类的数据分析面试题，不定期更新……

随机变量的含义

一个随机事件的所有可能的值X，且每个可能值X都有确定的概率P，X就是P(X)的随机变量。比如掷骰子中出现的点数

随机变量和随机试验间有什么关系

随机试验：相同条件下对某随机现象进行的大量重复观测的试验，如掷硬币100次统计正面朝上的次数
随机变量：是用来描述随机试验结果的。

划分连续型随机变量和离散型随机变量的依据

离散型随机变量：随机变量X能被一一列举出来，如一批产品中次品的数量，某地区人口的出生数等。
连续型随机变量：随机变量X不能被一一列举出来，如一批电子元器件的寿命，身高、体重等。

所以划分二者的依据是随机变量是否可数

变量独立和不相关的区别

若X和Y不相关，通常认为X和Y之间是没有线性关系，但不排除没有其他关系

若X和Y独立，是没有关系，互不干扰

因此，“不相关”是一个比“独立”要弱的概念

常见分布的分布函数/概率密度函数，以及分布的特性。

分别从离散型和连续型两方面说：

离散型随机变量的分布

二项分布
进行一系列独立试验 -> 每一次试验都存在成功和失败的可能，且成功的概率相同 -> 试验次数有限。

二项分布记做X~B(n,p)，X表示n次试验中的成功次数,我们要求的是成功的次数

伯努利分布
0-1分布，每次试验的结果只有2种，是n=1的二项分布的特殊情况

如掷硬币，只有正面朝上或反面朝上两种情况

几何分布
独立试验->拿到一种卡片的概率相同->为了集齐卡片要进行多少次试验
泊松分布
单独事件在给定区间内随机、独立地发生（给定区间可以是时间或空间） -> 已知该区间内的事件平均发生次数，且为有限数值。

如某加油站，平均每小时来加油的车辆为10辆，泊松分布求的这个加油站每小时前来加油的车辆次数的概率

关于离散型随机变量分布可参考：

离散型随机变量的概率分布

连续型随机变量的分布

正态分布
又叫高斯分布，正态分布通过参数平均值和方差确定
均匀分布
也叫矩形分布，概率密度函数的结果是一个固定的数值

均匀分布在自然情况下极为罕见，它的概率密度函数为：

指数分布
指数分布是描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程。如旅客进机场的时间间隔，还有许多电子产品的寿命分布一般服从指数分布。

其概率密度函数为：

指数分布具有无记忆的关键性质。这表示如果一个随机变量呈指数分布，当s,t>0时有P(T>t+s|T>t)=P(T>s)。即，如果T是某一元件的寿命，已知元件使用了t小时，它总共使用至少s+t小时的条件概率，与从开始使用时算起它使用至少s小时的概率相等。

关于连续型随机变量的分布，可参考：

终于搞清楚正态分布、指数分布到底是啥了！

协方差和相关系数的区别

协方差

只表示相关的方向

衡量两个变量的总体误差，方差是协方差的特殊情况，即当两个变量是相同的情况。

如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值（你变大，我也变大，协方差就是正的）。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

也就是说，协方差为正，表示两个变量同变化，为负，不同变化

并且协方差的绝对值不反映线性相关的程度（其绝对值与变量的取值范围有关系）

但是嘞协方差为0的两个随机变量是不相关的

相关系数

不仅表示线性相关的方向，还能衡量其相关程度

研究变量之间线性相关程度的量，取值范围是[-1,1]。

相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差。

中位数是否等于期望

标准正态分布中位数等于期望
右偏（正偏）态时，中位数小于期望
左偏（负偏）态时，中位数大于期望

正态分布的基本特征是什么

正态分布又叫高斯分布，是一个钟形曲线，曲线对称，中央部分的概率密度最大，越往两边，概率密度越小。μ决定了曲线的中央位置，σ决定了曲线的分散性，σ越大，曲线越平缓，σ越小，曲线越陡峭。

很多实际问题都是符合正态分布的，如身高、体重等。正态分布在质量管理中也应用的非常广泛，“3σ原则”就是在正态分布的原理上建立的。
3σ原则是：

数值分布在（μ—σ,μ+σ)中的概率为0.6826
数值分布在（μ—2σ,μ+2σ)中的概率为0.9544
数值分布在（μ—3σ,μ+3σ)中的概率为0.9974
因此可以认为,Y 的取值几乎全部集中在（μ—3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%，这是一个小概率事件，通常在一次试验中是不会发生的，一旦发生就可以认为质量出现了异常。