配色: 字号:
《R语言数据挖掘》第三章 R的数据可视化
2023-05-25 | 阅:  转:  |  分享 
  
第三章R的数据可视化学习目标理论方面,理解各种图形的统计含义、适用范围以及绘制原理。实践方面,掌握绘制各类图形的R函数,能够依据实际数据选
择恰当的可视化工具绘图基础数据的直观印象通常来自于关于数据的各种图形,即通过数据可视化,利用各种图形直观展示数据的分布特点。包括单
个数值型变量或分类型变量的统计分布特征,多个变量的联合分布特征,以及变量间的相关性等等方面。这是获得数据直观印象的思路和主体脉络,
也是数据挖掘的重要方面R的数据可视化平台是什么图形设备和图形文件R的图形组成和图形参数R的图形边界和布局如何修改R的图形参数单变量
分布的可视化核密度图核密度图用于展示单个数值型变量的分布或多个数值型变量的联合分布特征绘制核密度图的首要任务是核密度估计。核密度估
计是一种仅从样本数据自身出发估计其密度函数并准确刻画其分布特征的非参数统计方法x0处密度的估计:核密度估计的R函数:density
单变量分布的可视化案例涉及的R函数hist(数值型向量,freq=TRUE/FALSE)lines(x=横坐标向量,y=纵坐标向量
)plot(数值型向量或矩阵,type=线的类型名)rug(向量,side=1/3)jitter(数值型向量,factor=1)单
变量分布的可视化小提琴图:小提琴图是箱线图和核密度图的结合,因形状酷似小提琴而得名小提琴图的R函数vioplot(数值型向量, h
orizontal=TRUE/FALSE)vioplot(数值型向量名列表,names=横坐标轴标题向量)案例涉及的R函数titl
e(main=图标题,sub=副标题,xlab=横坐标标题,ylab=纵坐标标题)text(x=横坐标向量,y=纵坐标向量,lab
els=文字内容,srt=旋转度数)单变量分布的可视化克利夫兰点图:用于直观展示数据中可能的异常点。横坐标为变量值,纵坐标为各观测
编号(观测编号越小纵坐标值越大)克利夫兰点图的R函数dotchar(数值型向量)案例涉及的R函数legend(图例位置常量,tit
le=图例标题,图例说明文字向量,pch=图例符号说明向量,bg=图例区域背景色,horiz=TRUE/FALSE)多变量联合分布
特征的可视化曲面图和等高线图的R函数persp(x,y,z, theta=n1, phi=n2,expand=n3,shade =
n4)contour(x,y,z, nlevels=n)案例涉及的R函数mvrnorm(n=样本量,mu=均值向量,Sigma=协
方差阵,empirical =TRUE/ FALSE)densityMclust(data=矩阵或数据框)多变量联合分布特征的可视
化雷达图:雷达图能够刻画不同观测在多个变量上的取值差异性。它从一个点出发,用多条射线依次对应多个变量。将不同观测在多个变量上的取值
点连线,便形成雷达图雷达图的R函数radarchart(df=数据框,axistype=n1,seg=n2,maxmin=TRUE
/FALSE,vlabels=标签,title=图标题)变量间相关性的可视化马赛克图:用于展示两或三个分类型变量的相关性。因图中格
子的排列形似马赛克而得名马赛克图的R函数mosaic(~分类型域名1+分类型域名2+…,data=数据框名,shade=TRUE/
FALSE,legend=TRUE/FALSE)变量间相关性的可视化散点图:散点图将观测数据以点的形式绘制在一个二维平面中,通过数
据点分布的形状展示两个或多个数值型变量间的相关性特点。散点图分为简单散点图、气泡图、矩阵散点图等简单散点图的R函数plot(x=数
值型向量1,y=数值型向量2)plot(域名2~域名1,data=数据框名)变量间相关性的可视化案例涉及的R函数lm(被解释变量名
~解释变量名,data=数据框名)loess(被解释变量名~解释变量名,data=数据框名)abline(数值型向量),或,abl
ine(h=纵坐标值),或,abline(v=横坐标值)高密度散点图的处理smoothScatter(x=横坐标向量,y=纵坐标向
量)hexbin(数值型向量1,数值型向量2,xbins=箱数)变量间相关性的可视化三维散点图和气泡图展示两数值型变量相关性的同时
,还希望体现第三个变量的取值状况三维散点图的R函数scatterplot3d(数值型向量1, 数值型向量2, 数值型向量3)气泡图
的R函数symbols(向量1,向量2, circle=向量名3,inches=计量单位,fg=绘图颜色,bg=填充色)变量间相关
性的可视化矩阵散点图:用于在一副图上同时展示多对数值型变量的相关性矩阵散点图的R函数pairs(~域名1+域名2+…+域名n,da
ta=数据框名)scatterplotMatrix(~域名1+域名2+…+域名n,data=数据框名,lty.smooth=2,s
pread=FALSE)变量间相关性的可视化分组散点图:若要展示两个数值型变量之间的相关性在不同样本组上的差异,需要绘制分组散点图
,也称协同图分组散点图的R函数coplot(域名1~域名2|分组域名, number=分组数,data=数据框名)变量间相关性的可
视化相关系数图:由下三角区域、上三角区域、对角区域三个部分组成。区域在这里称为面板,三个区域也分别称为下面板,上面板和对角面板。除
对角面板外,上下面板以不同形式直观展示一对变量的相关性强弱相关系数图的R函数corrgram(矩阵或数据框列,lower.pane
l=面板样式,upper.panel=面板样式,text.panel=面板样式,diag.panel=面板样式)GIS数据的可视化
GIS数据,简单讲就是与地理位置有关的一系列数据,包括地理遥感数据、地理统计资料、地理实测数据、地理多媒体数据以及地理文本数据等等
GIS数据是一种典型的空间数据,有两种描述方式栅格方式:将物体表面划分为大小均匀、紧密相邻的网格阵列。每个网格多视为一个像素矢量方
式:通过坐标记录的方式精确地表示点、线和多边形等地理实体,包括:空间数据,即描述地物所在位置的数据属性数据,即描述地物特征的定性或
定量数据GIS数据的可视化绘制世界地图和美国地图涉及的R函数map(database=数据集,fill=TRUE/FALSE)ma
p.text(database=数据集,region=区域, add=TRUE/FALSE)rainbow(n=m, start=
0, alpha=a)GIS数据的可视化绘制中国行政区划地图常见的矢量型GIS数据格式是美国ESRI的Shape files格式涉
及的R函数readShapeSpatial(fn=Shape file文件名)slot(object=空间多边形数据框名,name
=槽名)plot(空间多边形数据框名,panel.first = grid())pointLabel(坐标,labels=文字,d
oPlot=TRUE)GIS数据的可视化依据地图绘制热力图:不同省市的淘宝女装成交指数有差异吗?文本词频的可视化词云图:以字号的大小表示词频的高低词云图的R函数:wordcloud(words=词向量,freq=词频向量,min.freq=n,max.words=m, random.order=TRUE/FALSE)
献花(0)
+1
(本文系大高老师首藏)