分享

初高中一条线,理解线性回归

 酒戒斋 2018-08-14




01

从折线图谈平均数

折线图,

是反映数据变化规律

最常见的一种图形。

因为只是反映一种数据的变化,

所以描点时

点的横坐标就是点的个数1,2,3...

纵坐标是数据本身。

就象这一组数据

3,2,5,1,4,2,4 ,

其折线图就是下面这个样子

从左向右,

每相邻两点间的水平距离均为1.

从这个角度看,

点的排列还是有规律的。


都知道,

折线图主要反映这组数据的

波动幅度

但波动,

就得有个参照标准

就象上面这个图中,

这组数据就总是在一条直线

上下波动,

但这条直线,

好像又难已确定,

但又相信,

总会有一条最合适的!


还记得初中老师常说的

平均数是反映

一组数据一般水平


既然是一般水平

不大也不小

这组数据

应该也是在

平均数的附近波动的


其实

一直有种预感

作为一个特殊的数字

平均数

就是所有数据

偏离它的波动幅度

最小的那个量

这也算是

折线图中隐藏着的

最大秘密

又称

平均数的几何意义

1

用几何意义求平均数

说到

波动幅度

很自然的会联想到“距离

一组数据整体的波动幅度

可以考虑用距离之和

就象上一组数据

偏离某个值x0的整体波动幅度

就可以表示为

只是不知x0怎样时

这个波动幅度才会最小

但如果

只是为了

求出最合适的那个x0

我们可以利用

|x-x0|和|x-x0|2变化的同步性

将波动幅度调整为

就省却了绝对值的烦恼

也恰恰

体现了数学人的

智慧和气度

当然

我更想

幅度真的如我所期望



那……

最小值是啥呢?


解密

理性认识平均数和方差

彭老师

数学一线教书匠

从直方图看特征数字


02

从平均数谈回归直线

我们知道

任何一个变量

总是在平均数的附近波动

偏离平均数的波动幅度

也总是最小的

所以平均数

总是生活最基本的期望

但生活中

事物总是相互关联和影响

不然

一只南美洲的蝴蝶

怎会引起

德克萨斯州的的震荡

就象谈到体重

总会说到身高一样

只因它们之间

密不可分

所以

变量相关性的思索

必须且必要

任意两个变量间的关系

一般可以分为两种

确定性关系和不确定性关系

确定性关系

大多可以用函数关系去描述

而不确定性关系

因为规律的不确定

我们只能说

它们具有相关性

在此基础上

可以再研究它们相关性的

强与弱

但在生活中

具有相关关系的变量

我们确实想知道

一个量的改变

具体会

引起另一个量什么样的改变

最起码

要知道一个大概变化

就象下面这个例子


“相关关系”的意义

显然

体重与身高

具有不可忽略的关系

单独做出身高和体重的折线图

毫无意义

因为它们总是成对出现

因此

以身高和体重作为一个数组

并在坐标系内

描出数组相应的点

只因横坐标不再规律

折线图中自左向右的等距性

已被打乱

得到的只能算是

散点图

只是真的

好散

……




“散点图”的五种形式

直线型正相关

直线型负相关

散点图

是一个比较直观的东西

从图形上可以看出

相关性

会有不同的形式

比如

直线型和曲线性

当然

也有相关性很弱的

我们忽略为

不相关

曲线型相关

曲线型相关


  不 相 关     

散成了这个程度,

杂乱无章的,

可能真的没规律性了……

就算具备相关性,

估计相关性也应该是很弱的,

我们估且说它们不相关

“直线型相关”研究



寻找那条“平均线

如果两个变量间符合直线性相关

所有的点都在某一条直线的附近波动着

那我们一定想找到那条

波动幅度最小的直线

不妨朴素地称它

平均线

其实

这条直线和折线图中的那条

意义基本相同

表示横坐标取某值时

正常情况下

纵坐标的一般取值

请原谅

我的不愿照本宣科

因为我更愿意

用最朴素的形式表达自己意愿

这条直线

我更愿写成

它还有一个贴切的名字

“回归”直线

“波动幅度”的表示

幅度


和折线图一样

波动幅度用点到直线的距离表示


“波动幅度”近似处理


近似


和折线图中一样

还用平方近似替代绝对值

从而整体波动幅度最终确定为

“回归直线”求法

只需求出参数a,b,

使得下式取最小值,即可求得“回归直线”。


这就是我们说的“回归分析”,

这种求“回归直线”的方法叫“最小二乘法”。



01

相关关系的判断


当然

如果我们能确定

两个变量间具备了

相关关系

我们才能用一定的方法

去寻找隐约的规律性

但根据散点图

观察是否具备这种相关关系

还只是纯感性的认知

我们还需要通过

理性判断

才能更加放心

如果两个变量之间

没有相关关系

那一定是两者之间

相互独立

独立和相关

互相对立

非此即彼


因此

相关性的判断

近似为

独立性判断

这种判断相关性的方法

称为

独立性检测

它是检验两分类变量是否有关的

一种统计方法




独立性检测原理

1


如下表

两个分类变量的频数表

我们一般称为列联表

下表就是一个

假设吸烟和患肺癌没有关系

这就产生了一个问题,既然有误差,那误差允许在什么范围内呢?


彭老师

数学一线教书匠


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多