分享

【数据分析1】 Excel进行线性回归分析预测

 F2967527 2022-05-23 发布于北京

     又是n久没更新,这次打算开启一个新的系列——数据分析。这个系列推文将会收录/总结有关本人做数据分析的经验,大概会涉及数据分析、挖掘、预测等等方面的知识。大家一起来学习吧,如有不同见解,欢迎探讨。

01   前言

        线性回归分析是一种很常见的数据分析方法。用于分析因变量是如何受到一个或多个自变量影响的。常用来分析或者预测某个产品的销量与产品的价格、质量、市场活动等等因素之间的关系。

        线性回归根据自变量的多少,分为一元线性回归和多元线性回归。当然在实际工作生活中,我们往往都是面对着多元线性回归。

02 案例介绍

        在本案例中,我们有这样的一份数据。已知汽车的产地、类型、型号等等基本属性(A-J列),同时也知道它的价格(K列)。

        现在我们需要找出价格(因变量)与这些基本属性(自变量)之间的关系,找出是否存在一个模型(方程),从而来判断新生产的汽车,它对应的价格应该定价在哪比较合适。

图片

03 操作分析

1)打开Excel加载项:文件-选项-加载项-转到,勾上“数据分析库”,点击确定。

2)点击Excel菜单栏 '数据'- '数据分析', 选择“回归”,Y值区域选择K列范围,X值区域选择所有自变量因素。点击确定。

图片

(注意,在此模型中,我们需要先对“产地”,“类型”进行数值转换,比如0,1代替)

3)回归方程建立之后,我们求出Ru,然后根据t-Stat(影响度)进行排序,去除影响度最低的因子,反复求出Ru值,直到最后一个因子。

图片

4)求出10个Ru值,根据Ru值可以看到,最优的回归方程是Ru值最大的,即10个因子。

图片

5)因此我们的回归方程即可出来(Y= 常量+a*x1+b*x2+....)

同时也可以求出误差率,对预测值的误差有个整体判断。

图片

04 回归方程的解读

图片

回归分析的计算结果一共包括三个模块:
     第一个模块为回归统计表,其中主要包含MultipleR、RSquare、AdjustedRSquare、标准误差和观测值。

        MultipleR为复相关系数,也就是前面说的相关系数,用来衡量x和y之间的相关程度大小。R Square为复测定系数R2,其用来说明自变量解释因变量变差的程度,从而测量同因变量y的拟合效果Adjusted R Square为调整后的复测定系数R2,标准误差衡量拟合程度大小,值越小,说明拟合程度越好,观测值指的是用于估计回归方程数据的观测值个数。

        例如,从上面结果可以看出,MultipleR为0.900393,表明是有很强的正相关性;R Square为0.810708表明用自变量可解释因变量变差的81.07%;AdjustedRSquare为0.797654,说明自变量能说明因变量的79.76%,因变量剩余的21%则由其他因素来解释。

        第二个模块为方差分析表。其主要作用是通过假设检验中的F-检验来判断回归模型的回归效果。

        第三个模块是回归参数表。第一列表示截距;第二列表示对应模型的回归系数,包括了截距和斜率,可以根据这个建立回归模型;第三列为回归系数的标准误差,值越小,表明参数的精确度越高;第四列对应的是回归系数/标准误差,对于一元线性回归,F值与t值都与相关系数R代表差不多的意思,但是,对于多元线性回归,t检验是有必要的。第五列为各个回归系数的P值,当P<0.05时,可以认为模型在α=0.05的水平上显著,或置信度达到了95%。最后几列为回归系数置信区间的上限和下限。

05 最后

        当然,预测是代表着有一定的不确定性。这些不确定性包括无法解释的原因以及不能预测的波动性。因此预测不可避免的会产生误差。

图片

        因此线性回归预测方程实际是:

图片

        并且,建立线性回归模型也必须满足一定的条件:例如方差齐性,独立性,正态分布等等。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多