分类数据描述统计频数统计:
数值数据描述统计
分位数分位数(英语:Quantile),亦称分位点,是指用分割点(cut point)将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。 分割点的数量比划分出的区间少1,例如3个分割点能分出4个区间。 常用的有中位数(即二分位数)、四分位数(quartile)、十分位数(decile )、百分位数等。q-quantile是指将有限值集分为q个接近相同尺寸的子集。 分位数指的就是连续分布函数中的一个点,这个点对应概率p。 四分位数(英语:Quartile)是统计学中分位数的一种,即把所有数值由小到大排列,然后按照总数量分成四等份,即每份中的数值的数量相同,处于三个分割点位置的数值就是四分位数。 这3个数叫做:
pandas.DataFrame.quantile()和numpy.percentile()计算结果一样。 pandas中有describe方法显示四分位数。 例子: >>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12]) >>> ps.describe() 0 count 12.000000 mean 6.500000 std 3.605551 min 1.000000 25% 3.750000 #分割点 50% 6.500000 75% 9.250000 max 12.000000 >>> ps.quantile(0.25) 0 3.75 >>> ps.quantile(0.5) 0 6.5 >>> np.percentile(ps, 50) 6.5 分析方法中的二八法则,结合分位数来使用。 标准差,方差描述数据离散程度。数据的波动性。
例子: a=[10,10,10,11,12,12,12] b=[3,5,7,11,15,17,19] a和b的中位数和平均数都11,但他们的方差不一样,a的方差<b的方差。a数据集的离散程度小于b数据集。 均值 /-标准差,这个范围的数据占了整个数据集的大部分,可以说数值大部分在这个范围内波动。 阐述:数据集的平均值是m, 大部分在m /-方差的范围内波动。 例子: #还是👆的数据 >>> ps.std() 0 3.605551 权重统计--数据标准化Z-Score来源:https://www./content-4-658401.html |
|