分享

Excel应用大全 | 什么是回归线

 hercules028 2021-06-25
一本书教会你分分钟搞定数据分析!



回归是一种统计方法,这种方法可以用来建立数学模型,从而根据一个或多个变量来预测另一个变量的值。回归分析的本质是如何确定两个或多个变量之间的相关关系,并依据估计结论做推测的过程。


图片

估计的概念

图片
图片

图片
估计是基于已有数据集(如含有两个变量X和Y的数据集,其中X是自变量,Y是因变量),计算X和Y之间的相关性(求出相关系数r),然后用已知的X数据和r估计Y。例如,收集1000个成年人的身高和体重数据,计算出身高和体重之间的相关系数,再取新的若干个成年人的身高,使用估计方法可以估计每个人的体重,这就是估计的基本流程。在这个过程中,用到的估计方法称为线性回归。
图片

用最小二乘法确定回归线

图片
图片

图片
设身高为X,体重为Y,则(xi,yi)是成年人i的身高和体重,用样本数据绘制的散点图如图12-1所示,在该图中身高和体重具有一定程度的正相关属性,为这个杂乱的散点图拟合一条适当的直线,即回归线。

图片

12-1 身高体重散点图

为了说明一条直线的拟合过程,在此先简化数据集,只保留10个点的数据,具体数值如表12-1所示。

12-1 缩减到 10 个数据

图片


根据以上数据绘制的散点图如图12-2所示。

图片

图 12-2 缩减后的数据

如果数据点较少并且相关性很强,几乎可以通过目测来画一条接近所有数据点的直线,从而看出趋势。但是在图12-2所展示的数据中,很难用目测的方式得到一条直线来估计和每一个数据点的距离。尝试几条直线,都只能得到近似结果,如图12-3所示。

图片
 图 12-3 目测方法得到多条近似拟合直线

实际上只有一条直线能最佳地拟合数据趋势,所有数据点距离该直线的垂直方向距离的平方和最小,这和计算方差、相关系数的逻辑相同,都是计算某一个标准的距离平方和的最小值。
每个数据点都有一个垂直于X轴的到拟合线的距离,如图12-4所示。

图片

12-4 数据点与拟合线的垂直方向的距离

如果某一条拟合线距离所有数据点的距离平方和最小,那么这条拟合线就是最优拟合线,也称为回归线。
以上用“最小距离”寻找回归线的方法即是最小二乘法。用最小二乘法找到的回归线,其实际意义是,尽量减少估计值相对于实际值的总变动。从回归线中,可以得到以下结论。

1. 这是变量 Y 对 X 的回归,也就是说 Y(体重)将依据 X(身高)的值被估计出来。

2. 这条回归线可以进行比较准确的预测。例如,如果身高是 180cm,那么体重大概是 78kg。

3. 每一个数据点和回归线的距离就是估计误差,是两个变量之间相关的直接反映,如果是完全估计,所有估计的数据刚好落在回归线上,从这个意义上讲,回归线也是最小误差平方和的直线。

给定回归线之后,可以估计所有的未来值,这正是回归分析的目的,建立回归线然后进行估计。

图片

在 Excel 中生成回归线

图片
图片

图片
在Excel中按照如下步骤操作添加生成回归线。

步骤1:单击选中散点图图表,单击【图表元素】按钮,在弹出的【图表元素】快捷菜单中选中【趋势线】复选框。

步骤2:单击【趋势线】复选框右侧的展开按钮,在弹出的快捷菜单中选择【线性】选项,如图12-5所示。

图片

12-5 生成回归线

知道什么是回归线了吗?

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多