书上看到一个很好玩的例子 
#call up and explore the data data(anscombe) attach(anscombe) anscombe cor(x1, y1) #correlation of x1 and y1 cor(x2, y1) #correlation of x2 and y2 par(mfrow = c(2,2)) #create a 2x2 grid for plotting plot(x1, y1, main = "Plot 1") plot(x2, y2, main = "Plot 2") plot(x3, y3, main = "Plot 3") plot(x4, y4, main = "Plot 4") 出图丑爆了,但是能说明问题了,如下: 
可以看到这4个数据集的X,Y都是有关系的,其中第一个看起来是线下相关,第二个应该是曲线,第三个有离群点,第四个呢,完全就跑偏了,那么它们的线性回归如何呢? 
是不是很有趣,大家的相关系数,居然都是0.82,大家都知道,相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下: 当r>0时,表示两变量正相关,r<0时,两变量为负相关。 当|r|=1时,表示两变量为完全线性相关,即为函数关系。 当r=0时,表示两变量间无线性相关关系。 当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性
关系越密切;|r|越接近于0,表示两变量的线性相关越弱。 一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。 亲爱的读者朋友们,你怎么看呢? 来自于: 【好书共享】机器学习入门
|