分享

RStudyNote3

 争子俱乐部 2013-04-08
##############描述分析#############

#####彻底清除#####
rm(list=ls())

#####描述统计量####
x<-c(1:12);dim(x)<-c(3,4);x
mean<-sum(x)/length(x);mean
mean(x)             #总均值
apply(x,1,mean)     #各行均值
apply(x,2,mean)     #各列均值

#均值和求和
w<-rnorm(15,mean=50,sd=20);w
w[1]<-1000;w
w.mean<-mean(w);w.mean
w.mean<-mean(w,trim=0.1);w.mean     #减少输入误差对结果影响(trim取值0至0.5。计算均值前去掉异常值比例)
w[2]<-NA;w
w.mean<-mean(w,trim=0.1,na=TRUE);w.mean    #缺失数据处理

#顺序
x<-sample(1:100,20);x
sort(x)
sort(x,decreasing=TRUE)
x[1]<-NA;x
sort(x,na.last=TRUE);sort(x,na.last=FALSE)

#中位数#百分位数
x<-sample(1:100,20);sort(x)
median(x)
quantile(x)

#大汇总
DescriptiveStatistics<-function(x){
n<-length(x)
m<-mean(x)
v<-var(x)
s<-sd(x)
me<-median(x)
cv<-100*s/n     #变异系数
css<-sum((x-m)^2)    #样本校正平方和
uss<-sum(x^2)     #样本未校正平方和
r<-max(x)-min(x)     #样本极差
r1<-quantile(x,3/4)-quantile(x,1/4)    #四分位差
sm<-s/sqrt(n)     #样本标准误
g1<-n/((n-1)*(n-2)*(s^3))*sum((x-m)^3)     #样本偏度系数
data.frame("样本量"=n,"样本均值"=m,"样本方差"=v,"样本标准差"=s,"样本中位数"=me,"变异系数"=cv, "样本校正平方和"=css, "样本未校正平方和"=uss,"样本极差"=r,"四分位差"=r1,"样本标准误"=sm,"样本偏度系数"=g1,row.names=1)
}

x<-rnorm(20,mean=20,sd=10)
DescriptiveStatistics(x)




#####数据的分布####
#正态分布
dnorm(x, mean=0, sd=1, log = FALSE)     #概率密度函数
pnorm(q, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE)     #分布函数
qnorm(p, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE)     #给定概率p的下分位点
rnorm(n, mean=0, sd=1)     #n个正态分布随机数

rpois(n,lambda)     #泊松分布

#直方图
n<-rnorm(20, mean=20, sd=5)
w<-n
hist(w,freq=FALSE)
lines(density(w),col="blue")
x<-10:29
lines(x,dnorm(x,mean(w),sd(w)),col="red")


#经验分布
w
plot(ecdf(w),verticals=TRUE,do.p=FALSE)
x<-10:29
lines(x,pnorm(x,mean(w),sd(w)),col="red")


#QQ图
w
qqnorm(w)
qqline(w)


#茎叶图
x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75,
78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86,
87, 89, 89, 89, 90, 91, 91, 92, 100)
stem(x)
stem(x,scale=2)
stem(x,scale=.5)


#箱型图
boxplot(x)
a<-rnorm(15,mean=5,sd=1)
b<-rpois(10,5)
boxplot(a,b,notch=T,names=c("a","b"),col=c(2,4))

boxplot(count~spray,data=InsectSprays,col="lightgray")
boxplot(count~spray,data=InsectSprays,notch=TRUE,col=c(2:7),add=TRUE)


#五数总括
fivenum(x)



#####正态性检验与分布拟合检验####
#正态性W检验
w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,
66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
shapiro.test(w)
shapiro.test(runif(100,min=5,max=99))

#经验分布K-S检验
x<-rt(100,5)     #x来自t(5)的随机数
ks.test(x,"pf",2,5)     #检验x是否来自总体为F(2,5)分布




#####绘图初步####

df<-data.frame(
Age=c(13, 13, 14, 12, 12, 15, 11, 15, 14, 14, 14,
      15, 12, 13, 12, 16, 12, 11, 15 ),
Height=c(56.5, 65.3, 64.3, 56.3, 59.8, 66.5, 51.3,
         62.5, 62.8, 69.0, 63.5, 67.0, 57.3, 62.5,
         59.0, 72.0, 64.8, 57.5, 66.5),
Weight=c( 84.0,  98.0,  90.0,  77.0,  84.5, 112.0,
          50.5, 112.5, 102.5, 112.5, 102.5, 133.0,
          83.0,  84.0,  99.5, 150.0, 128.0,  85.0,
          112.0))

#plot()
plot(df)
attach(df)
plot(Age~Height)
plot(~Age+Height)
plot(Weight~Age+Height)

#显示多变量数据
pairs(df)
coplot(Weight~Age|Height)

#显示图形
dotchart(VADeaths,main="弗吉尼亚人口死亡率-1940")
dotchart(t(VADeaths),main="弗吉尼亚人口死亡率-1940")

#三维图形
x<-seq(0,2800,400);y<-seq(0,2400,400);z<-scan()
Z<-matrix(z,nrow=8)
contour(x,y,Z,levels=seq(min(z),max(z),by=80))    #等值线图
persp(x,y,Z)     #三维曲面

x<-seq(0,2800, 400); y<-seq(0,2400,400)
z<-scan()
1180 1320 1450 1420 1400 1300  700  900
1230 1390 1500 1500 1400  900 1100 1060
1270 1500 1200 1100 1350 1450 1200 1150
1370 1500 1200 1100 1550 1600 1550 1380
1460 1500 1550 1600 1550 1600 1600 1600
1450 1480 1500 1550 1510 1430 1300 1200
1430 1450 1470 1320 1280 1200 1080  940
Z<-matrix(z, nrow=8)
image(x, y, Z)
contour(x, y, Z, levels = seq(min(z), max(z), by = 80))
persp(x, y, Z)

#z = sin(x)*sin(y)
x<-y<-seq(-2*pi,2*pi,pi/15)
f<-function(x,y){sin(x)*sin(y)}
z<-outer(x,y,f)
contour(x,y,z,col="blue")     #等值线图
persp(x,y,z,theta=30,phi=30,expand=0.7,col="lightblue")#三维曲面图


#outer函数     #?????????
x <- 1:9; names(x) <- x
# Multiplication & Power Tables
x %o% x
y <- 2:8; names(y) <- paste(y,":",sep="")
outer(y, x, "^")


#绘图命令
add = TRUE     #原图上加图
axes = FALSE     #去除坐标轴
log="x";log="xy"     #对x/xy轴取对数
type="p"     #散点图
type="l"     #实线图
type="b"     #所有点被实线连接
type="o"     #实线通过所有点
type="h"     #点到x轴的竖线
type="s"     #“S”or阶梯型曲线
type="n"     #不画任何点和图线
xlab=""     #x轴说明
main=""     #图说明
sub=""    #子图说明


#低水平绘图
points()     #加点
lines()     #加线
text(x,y,lables=)      #在点处加标记
plot(x,y,type="n");text(x,y)
abline()     #在图上加直线
abline(a,b);abline(h=y);abline(v=x);abline(lm.obj)

lm.sol=lm(Height~Age,data=df)
attach(df)
plot(Height~Age);abline(lm.sol)

polygon(x,y)     #绘制多边形
title(main="Main Title",sub="Sub Title")     #图上加题目
axis(side=)     #/坐标轴加标记(side=1图的底部,side=2。。。。。)



#####多元数据特征与相关分析####
#二元数据数字特征及相关系数
ore<-function(x,y){
mx<-mean(x);my<-mean(y);s<-cov(x,y);r<-cor(x,y)
cbind(mx,my,s,r)}
A<-round(rnorm(15,mean=2,sd=1),2)
B<-rpois(15,lambda=2)
ore(A,B)

oref<-cbind(A,B);oref     ####!!!???如何将A,B转换为数据框格式???
ore.m<-mean(oref);ore.s<-cov(oref);ore.r<-cor(oref)
ore.m
ore.s
ore.r



#鲁宾区间估计(相关系数)
ruben.test<-function(n,r,alpha=0.05){
r_star<-r/sqrt(1-r^2)
u<-qnorm(1-alpha/2)
a<-2*n-3-u^2
b<-r_star*sqrt((2*n-3)*(2*n-5))
c<-(2*n-5-u^2)*r_star^2-2*u^2
y1<-(b-sqrt(b^2-a*c))/a
y2<-(b+sqrt(b^2-a*c))/a

data.frame(n=n,r=r,conf=1-alpha,
L=y1/sqrt(1+y1^2),       ###??!!“=”与“<-”不一样!!!
U=y2/sqrt(1+y2^2))
}

ruben.test(15,0.5)


#相关性检验
cor.test(x, y,
alternative = c("two.sided", "less", "greater"),
method = c("pearson", "kendall", "spearman"),
exact = NULL, conf.level = 0.95, ...)

cor.test(A,B)


#多元数据特征与相关分析
rubber<-read.table("E:/Study/研究生/R语言/统计建模与R软件/R原程序/Ch03/rubber.data")
rubber
colMeans(rubber)     ###!!!mean(<data.frame>) is deprecated.
cor(rubber)
cor.test(~X1+X2,data=rubber)
cor.test(~X1+X3,data=rubber)
cor.test(~X2+X3,data=rubber)
#以上:X1,X2,X3两两之间均不相关


#基于相关系数的变量分类
rt<-read.table("E:/Study/研究生/R语言/统计建模与R软件/R原程序/Ch03/applicant.data")
head(rt)
AVG<-apply(rt,1,mean)
sort(AVG,decreasing=TRUE)


#####多元数据的图表示方法####
#轮廓图
outline<-function(x, txt=TRUE){
if(is.data.frame(x)==TRUE)
   x<-as.matrix(x)
m<-nrow(x);n<-ncol(x)
plot(c(1,n),c(min(x),max(x)),type="n",
     main="The outline Graph of Data",
     xlab="Number",ylab="Value"
     )
for(i in 1:m){
    lines(x[i,],col=i)
    if(txt==TRUE){
       k<-dimnames(x)[[1]][i]
       text(1+(i-1)%%n,x[i,1+(i-1)%%n],k)
   }
  }
}


outline.jian<-function(x, txt=TRUE){     #txt?
if(is.data.frame(x)==TRUE)     #判断+转换数据格式
   x<-as.matrix(x)
m<-nrow(x);n<-ncol(x)     #画图准备,矩阵维度
plot(c(1,n),c(min(x),max(x)),type="n",     #画坐标轴
     main="The outline Graph of Data",
     xlab="Number",ylab="Value"
     )
for(i in 1:m){          #画图
    lines(x[i,],col=i)
   }
  }

X<-read.table("E:/Study/研究生/R语言/统计建模与R软件/R原程序/Ch03/course.data")
outline(X)
outline.jian(X)


#星图
X<-read.table("E:/Study/研究生/R语言/统计建模与R软件/R原程序/Ch03/course.data")
stars(X)
stars(X,full=FALSE,draw.segments=TRUE,     #半圆,一段一段弧,
key.loc=c(5,0.5),mar=c(2,0,0,0))           #标准星位置,

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多