RStudyNote3

争子俱乐部 2013-04-08

展开全文

##############描述分析#############

#####彻底清除#####

rm(list=ls())

#####描述统计量####

x<-c(1:12);dim(x)<-c(3,4);x

mean<-sum(x)/length(x);mean

mean(x) #总均值

apply(x,1,mean) #各行均值

apply(x,2,mean) #各列均值

#均值和求和

w<-rnorm(15,mean=50,sd=20);w

w[1]<-1000;w

w.mean<-mean(w);w.mean

w.mean<-mean(w,trim=0.1);w.mean #减少输入误差对结果影响（trim取值0至0.5。计算均值前去掉异常值比例）

w[2]<-NA;w

w.mean<-mean(w,trim=0.1,na=TRUE);w.mean #缺失数据处理

#顺序

x<-sample(1:100,20);x

sort(x)

sort(x,decreasing=TRUE)

x[1]<-NA;x

sort(x,na.last=TRUE);sort(x,na.last=FALSE)

#中位数#百分位数

x<-sample(1:100,20);sort(x)

median(x)

quantile(x)

#大汇总

DescriptiveStatistics<-function(x){

n<-length(x)

m<-mean(x)

v<-var(x)

s<-sd(x)

me<-median(x)

cv<-100*s/n #变异系数

css<-sum((x-m)^2) #样本校正平方和

uss<-sum(x^2) #样本未校正平方和

r<-max(x)-min(x) #样本极差

r1<-quantile(x,3/4)-quantile(x,1/4) #四分位差

sm<-s/sqrt(n) #样本标准误

g1<-n/((n-1)*(n-2)*(s^3))*sum((x-m)^3) #样本偏度系数

data.frame("样本量"=n,"样本均值"=m,"样本方差"=v,"样本标准差"=s,"样本中位数"=me,"变异系数"=cv, "样本校正平方和"=css, "样本未校正平方和"=uss,"样本极差"=r,"四分位差"=r1,"样本标准误"=sm,"样本偏度系数"=g1,row.names=1)

}

x<-rnorm(20,mean=20,sd=10)

DescriptiveStatistics(x)

#####数据的分布####

#正态分布

dnorm(x, mean=0, sd=1, log = FALSE) #概率密度函数

pnorm(q, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) #分布函数

qnorm(p, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) #给定概率p的下分位点

rnorm(n, mean=0, sd=1) #n个正态分布随机数

rpois(n,lambda) #泊松分布

#直方图

n<-rnorm(20, mean=20, sd=5)

w<-n

hist(w,freq=FALSE)

lines(density(w),col="blue")

x<-10:29

lines(x,dnorm(x,mean(w),sd(w)),col="red")

#经验分布

plot(ecdf(w),verticals=TRUE,do.p=FALSE)

x<-10:29

lines(x,pnorm(x,mean(w),sd(w)),col="red")

#QQ图

qqnorm(w)

qqline(w)

#茎叶图

x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75,

78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86,

87, 89, 89, 89, 90, 91, 91, 92, 100)

stem(x)

stem(x,scale=2)

stem(x,scale=.5)

#箱型图

boxplot(x)

a<-rnorm(15,mean=5,sd=1)

b<-rpois(10,5)

boxplot(a,b,notch=T,names=c("a","b"),col=c(2,4))

boxplot(count~spray,data=InsectSprays,col="lightgray")

boxplot(count~spray,data=InsectSprays,notch=TRUE,col=c(2:7),add=TRUE)

#五数总括

fivenum(x)

#####正态性检验与分布拟合检验####

#正态性W检验

w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,

66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)

shapiro.test(w)

shapiro.test(runif(100,min=5,max=99))

#经验分布K-S检验

x<-rt(100,5) #x来自t（5）的随机数

ks.test(x,"pf",2,5) #检验x是否来自总体为F(2,5)分布

#####绘图初步####

df<-data.frame(

Age=c(13, 13, 14, 12, 12, 15, 11, 15, 14, 14, 14,

15, 12, 13, 12, 16, 12, 11, 15 ),

Height=c(56.5, 65.3, 64.3, 56.3, 59.8, 66.5, 51.3,

62.5, 62.8, 69.0, 63.5, 67.0, 57.3, 62.5,

59.0, 72.0, 64.8, 57.5, 66.5),

Weight=c( 84.0, 98.0, 90.0, 77.0, 84.5, 112.0,

50.5, 112.5, 102.5, 112.5, 102.5, 133.0,

83.0, 84.0, 99.5, 150.0, 128.0, 85.0,

112.0))

#plot()

plot(df)

attach(df)

plot(Age~Height)

plot(~Age+Height)

plot(Weight~Age+Height)

#显示多变量数据

pairs(df)

coplot(Weight~Age|Height)

#显示图形

dotchart(VADeaths,main="弗吉尼亚人口死亡率-1940")

dotchart(t(VADeaths),main="弗吉尼亚人口死亡率-1940")

#三维图形

x<-seq(0,2800,400);y<-seq(0,2400,400);z<-scan()

Z<-matrix(z,nrow=8)

contour(x,y,Z,levels=seq(min(z),max(z),by=80)) #等值线图

persp(x,y,Z) #三维曲面

x<-seq(0,2800, 400); y<-seq(0,2400,400)

z<-scan()

1180 1320 1450 1420 1400 1300 700 900

1230 1390 1500 1500 1400 900 1100 1060

1270 1500 1200 1100 1350 1450 1200 1150

1370 1500 1200 1100 1550 1600 1550 1380

1460 1500 1550 1600 1550 1600 1600 1600

1450 1480 1500 1550 1510 1430 1300 1200

1430 1450 1470 1320 1280 1200 1080 940

Z<-matrix(z, nrow=8)

image(x, y, Z)

contour(x, y, Z, levels = seq(min(z), max(z), by = 80))

persp(x, y, Z)

#z = sin(x)*sin(y)

x<-y<-seq(-2*pi,2*pi,pi/15)

f<-function(x,y){sin(x)*sin(y)}

z<-outer(x,y,f)

contour(x,y,z,col="blue") #等值线图

persp(x,y,z,theta=30,phi=30,expand=0.7,col="lightblue")#三维曲面图

#outer函数 #?????????

x <- 1:9; names(x) <- x

# Multiplication & Power Tables

x %o% x

y <- 2:8; names(y) <- paste(y,":",sep="")

outer(y, x, "^")

#绘图命令

add = TRUE #原图上加图

axes = FALSE #去除坐标轴

log="x";log="xy" #对x/xy轴取对数

type="p" #散点图

type="l" #实线图

type="b" #所有点被实线连接

type="o" #实线通过所有点

type="h" #点到x轴的竖线

type="s" #“S”or阶梯型曲线

type="n" #不画任何点和图线

xlab="" #x轴说明

main="" #图说明

sub="" #子图说明

#低水平绘图

points() #加点

lines() #加线

text(x,y,lables=) #在点处加标记

plot(x,y,type="n");text(x,y)

abline() #在图上加直线

abline(a,b);abline(h=y);abline(v=x);abline(lm.obj)

lm.sol=lm(Height~Age,data=df)

attach(df)

plot(Height~Age);abline(lm.sol)

polygon(x,y) #绘制多边形

title(main="Main Title",sub="Sub Title") #图上加题目

axis(side=) #/坐标轴加标记（side=1图的底部，side=2。。。。。）

#####多元数据特征与相关分析####

#二元数据数字特征及相关系数

ore<-function(x,y){

mx<-mean(x);my<-mean(y);s<-cov(x,y);r<-cor(x,y)

cbind(mx,my,s,r)}

A<-round(rnorm(15,mean=2,sd=1),2)

B<-rpois(15,lambda=2)

ore(A,B)

oref<-cbind(A,B);oref ####!!!???如何将A，B转换为数据框格式？？？

ore.m<-mean(oref);ore.s<-cov(oref);ore.r<-cor(oref)

ore.m

ore.s

ore.r

#鲁宾区间估计（相关系数）

ruben.test<-function(n,r,alpha=0.05){

r_star<-r/sqrt(1-r^2)

u<-qnorm(1-alpha/2)

a<-2*n-3-u^2

b<-r_star*sqrt((2*n-3)*(2*n-5))

c<-(2*n-5-u^2)*r_star^2-2*u^2

y1<-(b-sqrt(b^2-a*c))/a

y2<-(b+sqrt(b^2-a*c))/a

data.frame(n=n,r=r,conf=1-alpha,

L=y1/sqrt(1+y1^2), ###??!!“=”与“<-”不一样！！！

U=y2/sqrt(1+y2^2))

}

ruben.test(15,0.5)

#相关性检验

cor.test(x, y,

alternative = c("two.sided", "less", "greater"),

method = c("pearson", "kendall", "spearman"),

exact = NULL, conf.level = 0.95, ...)

cor.test(A,B)

#多元数据特征与相关分析

rubber<-read.table("E:/Study/研究生/R语言/统计建模与Ｒ软件/R原程序/Ch03/rubber.data")

rubber

colMeans(rubber) ###!!!mean(<data.frame>) is deprecated.

cor(rubber)

cor.test(~X1+X2,data=rubber)

cor.test(~X1+X3,data=rubber)

cor.test(~X2+X3,data=rubber)

#以上：X1，X2，X3两两之间均不相关

#基于相关系数的变量分类

rt<-read.table("E:/Study/研究生/R语言/统计建模与Ｒ软件/R原程序/Ch03/applicant.data")

head(rt)

AVG<-apply(rt,1,mean)

sort(AVG,decreasing=TRUE)

#####多元数据的图表示方法####

#轮廓图

outline<-function(x, txt=TRUE){

if(is.data.frame(x)==TRUE)

x<-as.matrix(x)

m<-nrow(x);n<-ncol(x)

plot(c(1,n),c(min(x),max(x)),type="n",

main="The outline Graph of Data",

xlab="Number",ylab="Value"

)

for(i in 1:m){

lines(x[i,],col=i)

if(txt==TRUE){

k<-dimnames(x)[[1]][i]

text(1+(i-1)%%n,x[i,1+(i-1)%%n],k)

}

outline.jian<-function(x, txt=TRUE){ #txt？

if(is.data.frame(x)==TRUE) #判断+转换数据格式

x<-as.matrix(x)

m<-nrow(x);n<-ncol(x) #画图准备，矩阵维度

plot(c(1,n),c(min(x),max(x)),type="n", #画坐标轴

main="The outline Graph of Data",

xlab="Number",ylab="Value"

)

for(i in 1:m){ #画图

lines(x[i,],col=i)

}

X<-read.table("E:/Study/研究生/R语言/统计建模与Ｒ软件/R原程序/Ch03/course.data")

outline(X)

outline.jian(X)

#星图

X<-read.table("E:/Study/研究生/R语言/统计建模与Ｒ软件/R原程序/Ch03/course.data")

stars(X)

stars(X,full=FALSE,draw.segments=TRUE, #半圆，一段一段弧，

key.loc=c(5,0.5),mar=c(2,0,0,0)) #标准星位置，

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：争子俱乐部 > 《R语言》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

争子俱乐部

关注对话

TA的最新馆藏

[转] 一战和二战的各重大事件时间表
[转] 丘吉尔二战励志经典演讲：热血、汗水和眼泪
[转] 中国光大集团股份公司2017年度拟接收毕业生情况公示--中国光大集团股份公司
SQL经典50题 | 附答案
身为数据分析师，要学会保护自己鸭～
中国的银行体系

喜欢该文的人也喜欢更多

热门阅读换一换