分享

数据科学简化:简单线性回归模型

 东西二王 2019-12-08

我们在之前已经讲解了简单的机器学习中统计学习和假设检验的概念。在本文中,我们将深入研究机器学习中的线性回归模型。

在我们深入研究之前,让我们回顾一下统计学习的一些重要方面。

自变量和因变量:

在统计学习的背景下,有两种类型的数据:

  • 自变量:可以直接控制的数据。
  • 因变量:无法直接控制的数据。

无法控制的数据,即因变量需要预测或估计。

模型:

模型是一种转换引擎,可帮助我们将因变量表示为自变量的函数。

参数:

参数是添加到模型中用于估计输出的成分。

概念

线性回归模型为监督学习提供了一种简单的方法。它们简单而有效。

线性表示因变量和自变量之间的关系可以用直线表示。

回想一下几何课程中一条线的等式是什么?

y = mx c

线性回归只不过是这个简单方程的一种表现。

  • y是因变量,即需要估计和预测的变量。
  • x是自变量,即可控的变量,这是输入。
  • m是斜率,它决定了线的角度,参数表示为β。
  • c是截距,一个常数,它决定了x = 0时y的值。

英国着名统计学家乔治·博克曾说过:

“All models are wrong;some are useful。“

线性回归模型并不完美。它试图在直线上近似因变量和自变量之间的关系,近似会导致误差,有些误差可以减少,有些误差是问题的本质所固有的,这些误差无法消除。它们被称为不可约的错误,是真实关系中的噪声项,不能被任何模型从根本上减少。

同一直线方程可以改写为:

数据科学简化:简单线性回归模型

β0和β1是两个未知常数代表截距和斜率。它们是参数。

ε是误差项。

系统阐述

让我们通过一个例子来解释线性回归模型的术语和工作原理。

费尔南多是一名数据科学家,他想买一辆车,他想估计或预测他将要支付的汽车价格,他在一家汽车经销公司有一位朋友,他询问了其他各种汽车的价格以及汽车的一些特征,他的朋友向他提供了一些信息。

数据科学简化:简单线性回归模型

以下是提供给他的数据:

  • make:汽车制造商。
  • fuelType:汽车使用的燃料类型。
  • nDoors:门的数量。
  • engineSize:汽车发动机的尺寸( 虽然现代社会中的发动机排量通常以升为单位测量,但较旧的发动机主要使用立方英寸来描述发动机尺寸 )。
  • price:汽车的价格。

首先,费尔南多想要评估他是否能根据发动机尺寸预测汽车价格。第一组分析寻求以下问题的答案:

  • 汽车价格与发动机尺寸有关吗?
  • 关系有多强?
  • 这种关系是线性的吗?
  • 我们可以根据发动机尺寸预测/估算汽车价格吗?

费尔南多做了相关性分析。相关性是衡量两个变量相关程度的指标。它通过称为相关系数的度量来衡量。它的值介于0和1之间。

如果相关系数很大(> 0.7) ve,则意味着当一个变量增加时,另一个变量也会增加。一个大的-ve数表示当一个变量增加时,另一个变量减少。

他进行了相关分析,他描绘了价格和发动机尺寸之间的关系。

他将数据分成训练集和测试集,75%的数据用于训练,其他的用于测试。

他构建了一个线性回归模型,他使用统计软件包来创建模型,该模型创建了一个线性方程,表示汽车价格发动机尺寸的关系。

数据科学简化:简单线性回归模型

以下是问题的答案:

  • 汽车价格与发动机尺寸有关吗?
  • 是的,有关系。
  • 关系有多强?
  • 相关系数为0.872 =>有很强的关系。
  • 这种关系是线性的吗?
  • 直线可以拟合=>可以使用发动机尺寸进行合适的价格预测。
  • 我们可以根据发动机尺寸预测/估算汽车价格吗?
  • 是的,可以根据发动机尺寸估算汽车价格。

费尔南多现在想建立一个线性回归模型,该模型将根据发动机尺寸估算汽车价格。将这个等式叠加到汽车价格问题上,费尔南多为价格预测制定了以下等式。

价格=β0 β1*发动机尺寸

模型构建与解释

模型

回想一下前面的讨论,关于如何将数据分成训练集测试集。训练数据用于了解数据,训练数据用于创建模型,测试数据用于评估模型性能。

费尔南多构建了一个线性回归模型,该模型产生一个线性方程,表示汽车价格发动机尺寸的函数关系

数据科学简化:简单线性回归模型

他将数据分成75%的训练数据集和25%的测试数据集。

他构建了一个线性回归模型。他使用统计软件包来创建模型。该模型创建了一个线性方程,表示汽车价格发动机尺寸的关系。

数据科学简化:简单线性回归模型

模型估计参数:

  • β0估计为-6870.1
  • β1估计为156.9

线性方程估计如下:

价格= -6870.1 156.9 * 发动机尺寸

解释

数据科学简化:简单线性回归模型

该模型为特定发动机尺寸下的汽车平均价格预测提供了方程。该等式表示以下内容:

发动机尺寸每增加一个单位将使汽车的平均价格提高156.9个单位。

评估

该模型已经建成。需要评估模型的稳健性。我们怎样才能确定这个模型能够预测出令人满意的价格?该评估分两部分完成。首先,测试以建立模型的稳健性。其次,测试评估模型的准确性。

费尔南多首先根据训练数据评估模型。他得到以下统计数据。

数据科学简化:简单线性回归模型

里面有很多统计数据,让我们专注于关键的(标记为红色方框)。回想一下关于假设检验的讨论,使用假设检验评估模型的稳健性。

需要定义H0和Ha,它们的定义如下:

  • H0(零假设):x和y之间没有关系,即价格和发动机尺寸之间没有关系。
  • Ha(备择假设):x和y之间存在某种关系,即价格和发动机尺寸之间存在关系。

β1:β1的值决定价格与发动机尺寸之间的关系。如果β1=0则没有关系。在这种情况下,β1是正的,这意味着价格和发动机尺寸之间存在某种关系。

t-stat: t-stat的值是多少个标准差系数估计(β1)远离零。此外,价格和发动机尺寸之间的关系远离零,在这种情况下,t-stat是21.09。他离零已经足够远了。

p-value: p-value是概率值。它表示在零假设为真的情况下看到给定t统计量的概率。如果p值很小,例如<0.0001,则意味着这是偶然的并且没有关系的概率非常低。在这种情况下,p值很小,这意味着价格和发动机之间的关系不是偶然的。

通过这些指标,我们可以拒绝零假设并接受备择假设。 价格与发动机尺寸之间存在稳固的关系

建立了这种关系,准确性怎么样?模型的准确度如何?为了了解模型准确性,一个名为R平方或决定系数的指标非常重要。

R平方或决定系数:要理解这些指标,让我们将其分解为其组成部分。

数据科学简化:简单线性回归模型

  • 误差(e)是实际y和预测y之间的差。预测的y表示为ŷ。针对每个观测值评估该误差。这些误差也称为残差。
  • 然后将所有残差值平方并相加。该术语称为残差平方和(RSS)。RSS越低越好。
  • 这是R2方程的另一部分,为了获得另一部分,首先,计算实际目标的平均值,即估计汽车价格的平均值。然后计算平均值和实际值之间的差异。然后平方并添加这些差异。它是总平方和(TSS)。
  • R平方的确定系数计算为1- RSS/TSS。这个度量标准解释了模型预测的值与实际平均值之间的方差百分比,而不是实际的平均值。这个值介于0和1之间。值越高,模型可以越好地解释方差。

我们来看一个例子。

数据科学简化:简单线性回归模型

在上面的示例中,RSS是基于三辆车的预测价格计算的。RSS值为41450201.63。实际价格的平均值是11,021。TSS计算为44,444,546。R平方计算为6.737%。对于这三个特定的数据点,该模型只能解释6.73%的变化。

然而,对于费尔南多的模型,这是一个不同的故事。训练集的R平方为0.7503,即75.03%。这意味着该模型可以解释更多75%的变化。

结论

费尔南多现在有一个很好的模型。它在训练数据上表现令人满意。但是,有25%的数据无法解释。还有改进的余地。如何添加更多自变量来预测价格?当添加多个自变量来预测因变量时,会创建一个多变量回归模型,即多个变量。后续我们会继续进行机器学习其他领域的讲解。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多