俗话说:“字不如表,表不如图”,可见统计图在资料整理与分析中有重要的地位。统计图可以使复杂的统计数字简单化、通俗化、形象化,使人一目了然,便于理解和比较。SAS中绘制统计图的过程非常多,如PROC PLOT、PROC CHART、PROC GPLOT、PROC GCHART。我将主要介绍ODS DESIGNER(ODS图形设计器)、PROC SGPLOT和图形的输出。各种统计图的选择详见图7-1。 “ODS图形设计器”是在SAS9.3以后版本新增的绘图工具,可以通过菜单方式非常轻松地绘制常见的统计图,免去了编程的麻烦。在ODS图形设计器的图库包括了6个部分:基本、分组、分析、自定义、矩阵和面板。每一部分对应了不同类型的统计图。 条图(bar chart)是一种用于分类变量或者包含分类变量的描述,它是用矩形的高来表示频数、相对频数或百分数,并且各矩形之间留有间隔以表示测量尺度的不明确性或不连续性。条图种类多样,包括:单式条图、复式图、百分条图,其中复式条图也包括一些衍生图(如堆叠式、镜面式等)。
用矩形直条的长度表示100%,用其中分割的各段表示各构成部分的百分比。 直方图(histogram)是一种用于连续数据的条形图,与条图不同的是,直方图用矩形的面积或高度来表示频数、相对频数,各矩形是相连,形成一个连续结构,各矩形面积总和代表频数的总和。直方图主要用于表示连续数据频数分布情况。绘制直方图应注意:纵轴的刻度必须从“0”开始,横轴的刻度按实际的范围确定。图7-10 ODS图形设计器绘制直方图 箱式图(box plot)用于比较两组或多组数据的平均水平和变异程度,各组数据均可呈现其平均水平、四分位数间距、最小值和最大值,主要适用于描述偏态分布的资料。箱式图中间的横线表示中位数,中间线若在箱体中心位置,表示数据分布对称,其偏离箱体正中心越远,表示数据分布越不对称。箱体的长度表示四分位数间距,两端分别是上四分位数和下四分位数,箱体越长表示数据的离散程度越大。箱式图两端连线有两种表示方法:一种是表示最大值和最小值,另一种是删除异常值(或离群值)后的最大值和最小值,异常值另作标记。绘制箱式图,其纵轴起点不一定从“0”开始。 线图(line chart)是通过线段的上升或下降来表示变量的连续变化过,适用于描述一个变量随另一个变量变化的趋势和波动情况。通常纵坐标是统计指标,横坐标是时间变量。绘制线图时,横轴和纵轴的刻度可以不从“0”开始,用短线将相邻各点连接即得线图,不应将折线描成光滑曲线。 散点图(scatter plot)是用点的密集和变化趋势表示两变量之间的直线或曲线关系。绘制散点图时应注意:横轴和纵轴各代表一个变量,一般横轴代表自变量,纵轴代表因变量;纵轴和横轴的起点可根据实际数据来确定。 下次我们介绍用PROC GSPLOT过程步绘制各种统计图,以及统计图的ODS导入。 [1] 谷鸿秋. SAS编程演义[M]. 北京:清华大学出版社,2017.[2] 高惠璇. SAS系统Base SAS软件使用手册[M]. 北京:中国统计出版社,1997.[3] https://support./en/software/base-sas-support.html.[4] 夏庄坤, 徐唯, 潘红莲, 等. 深入解析SAS——数据处理、分析优化与商业应用[M]. 北京: 机械工业出版社,2014.
|