分享

Excel应用大全 |借助直方图观察数据特征

 hercules028 2022-02-09
北京和天津是相邻的直辖市,如果需要研究两个城市的个人收入情况有何差异,通常的做法是在每个城市各选取相同数量具有代表性的家庭,在每年的固定时间,统计这些家庭一年内的收入情况。假设每个城市选取 5 万个家庭,每年就会有 10 万个家庭的收入数据,这些数据必须用某种方式加以概括,否则谁都无法在 10 万个数据中看出什么结果。为了概括数据,统计学家经常使用一种叫做直方图的图表。直方图与大多数图像不同的是,它没有纵向的刻度,只考虑水平刻度即可。
Image

直方图

某学校学生的体重数据如图 7-4 所示。

Image

7-4学生体重数据单位kg

如果将这些数据绘制成散点图,其中每个点代表一个学生的体重,如图 7-5 所示。

Image

7-5学生体重分布图单位kg

从散点图中可以看出,体重在 55kg 65kg 的学生最多。如果将体重分成若干组,组距是取值范围,每个组距包含 5个值,如第一组 30~34,包含 30313233 34 5 个值;组中值是组距的中间值,第一组的组中值是 32 ;频数是每组的学生人数,如图 7-6 所示。

Image

7-6频数分布表

该频数分布表也可以用柱形图表示,如图 7-7 所示。

7-7 中的柱形图是以每组的组中值为中心,组距为宽度,频数为高度的图形,这样的图被称为直方图。

Image

7-7频数柱形图
在Excel中生成直方图
Image
ENJOY THE SUMMER

制作直方图最重要的环节是确定分组的数量和组距,每组的组距可以相同也可以不同,常用的是等组距分组。做数据分析时常用的分组数量是 5 20 个,这是比较容易得出分析结果的分组方式。如果一组数据的最小值是 20,最大值是 150,需要分成 10 个组,组距就是(150-20/10=13
示例 7-1 制作直方图判断贷款人资质
B 渠道向 A 银行推荐了一批贷款客户,共 40 人,A 银行用芝麻分判断贷款人资质,如果这批客户的芝麻分分布和 A 银行的客户芝麻分分布接近即可接收。A 银行全部用户的芝麻分分布直方图如图 7-8 所示。
6-31将数据透视
Image
7-8 A银行全部客户的芝麻分分布直方图
B 渠道推荐的这批客户的芝麻分信息如图 7-9 所示。
Image
图7-9 40 个客户芝麻分信息
由图 7-8 可知 A 银行全部客户的分布是按照最小值 570、最大值 720、组距为 10 的方法分组,为了方便对比,将 B 渠道推荐客户也按照同样的方法分组,分组节点如图 7-10所示。
Image
7-10芝麻分分段点
按照以下步骤,在 Excel 中生成 B 渠道客户的芝麻分频数分布直方图。
步 骤 1依次单击【数据】→【数据分析】按钮,在打开的【数据分析】对话框中的【分析工具】列表框中选择【直方图】选项,单击【确定】按钮关闭【数据分析】对话框打开【直方图】对话框。
步 骤 2在【直方图】对话框中设置参数。
1)单击【输入区域】编辑框右侧的折叠按钮,选择芝麻分数据所在的 B2:B41 单元格区域。
2)单击【接收区域】编辑框右侧的折叠按钮,选择组距分组点所在的 D2:D15 单元格区域。
3)在【输出选项】区域下单击【输出区域】编辑框右侧的折叠按钮,选择输出结果的存放起始位置 F1 单元格。
4)选中【图表输出】复选框。
5)最后单击【确定】按钮关闭对话框,如图 7-11 所示。
Image
7-11设置直方图参数
此时在工作表中将生成频数统计表和直方图,如图 7-12 所示。
Image
7-12直方图输出结果
将图 7-12 的直方图调整至图 7-9 相同的形式。首先,按照如下步骤调整坐标轴范围。
步 骤 1选中直方图,在【图表工具】的【设计】选项卡中单击【选择数据】按钮,打开【选择数据源】对话框。
步 骤 2单击【选择数据源】对话框右侧“水平(分类)轴标签”下的【编辑】按钮,打开【轴标签】对话框,设置轴标签区域为 A2:A16 单元格区域。
步 骤 3单击【确定】按钮关闭对话框,为横坐标重新设置标签,如图 7-13 所示。
Image
7-13B 渠道客户直方图的坐标轴与 A 银行统一
其次,按照如下步骤操作对柱形图的样式做调整。
步 骤 1双击直方图,打开【设置数据系列格式】窗格,切换到【填充与线条】选项卡,选中【无填充】单选按钮。
步 骤2切换到【系列选项】选项卡,在【间隙宽度】文本框中输入“0%”,完成样式设计,如图 7-14 所示。
Image
图7-14B 渠道客户直方图的样式与 A 银行统一
经过调整后的 B 渠道推荐客户直方图样式如图 7-15 所示。
Image
7-15B 渠道推荐客户与 A 银行已放贷款客户对比图
由图 7-15 可以看出,A 银行的客户是以 650 660 分为中心的分布,B 渠道推荐客户在 610 620 分最多,其直方图的整体分布相比 A 银行客户向左偏移(芝麻分较低),这说明 B 渠道推荐的客户要比 A 银行的整体客户资质差,A 银行由此决定拒绝这批客户的贷款申请。
Image
END
Image

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多