我们在之前已经讲解了简单的机器学习中统计学习和假设检验的概念。在本文中,我们将深入研究机器学习中的线性回归模型。在我们深入研究之前,让我们回顾一下统计学习的一些重要方面。 自变量和因变量: 在统计学习的背景下,有两种类型的数据:
无法控制的数据,即因变量需要预测或估计。 模型: 模型是一种转换引擎,可帮助我们将因变量表示为自变量的函数。 参数: 参数是添加到模型中用于估计输出的成分。 概念线性回归模型为监督学习提供了一种简单的方法。它们简单而有效。 线性表示因变量和自变量之间的关系可以用直线表示。 回想一下几何课程中一条线的等式是什么? y = mx c 线性回归只不过是这个简单方程的一种表现。
英国着名统计学家乔治·博克曾说过:
线性回归模型并不完美。它试图在直线上近似因变量和自变量之间的关系,近似会导致误差,有些误差可以减少,有些误差是问题的本质所固有的,这些误差无法消除。它们被称为不可约的错误,是真实关系中的噪声项,不能被任何模型从根本上减少。 同一直线方程可以改写为: β0和β1是两个未知常数代表截距和斜率。它们是参数。 ε是误差项。 系统阐述 让我们通过一个例子来解释线性回归模型的术语和工作原理。 费尔南多是一名数据科学家,他想买一辆车,他想估计或预测他将要支付的汽车价格,他在一家汽车经销公司有一位朋友,他询问了其他各种汽车的价格以及汽车的一些特征,他的朋友向他提供了一些信息。 以下是提供给他的数据:
首先,费尔南多想要评估他是否能根据发动机尺寸预测汽车价格。第一组分析寻求以下问题的答案:
费尔南多做了相关性分析。相关性是衡量两个变量相关程度的指标。它通过称为相关系数的度量来衡量。它的值介于0和1之间。 如果相关系数很大(> 0.7) ve,则意味着当一个变量增加时,另一个变量也会增加。一个大的-ve数表示当一个变量增加时,另一个变量减少。 他进行了相关分析,他描绘了价格和发动机尺寸之间的关系。 他将数据分成训练集和测试集,75%的数据用于训练,其他的用于测试。 他构建了一个线性回归模型,他使用统计软件包来创建模型,该模型创建了一个线性方程,表示汽车价格与发动机尺寸的关系。 以下是问题的答案:
费尔南多现在想建立一个线性回归模型,该模型将根据发动机尺寸估算汽车价格。将这个等式叠加到汽车价格问题上,费尔南多为价格预测制定了以下等式。 价格=β0 β1*发动机尺寸 模型构建与解释模型 回想一下前面的讨论,关于如何将数据分成训练集和测试集。训练数据用于了解数据,训练数据用于创建模型,测试数据用于评估模型性能。 费尔南多构建了一个线性回归模型,该模型产生一个线性方程,表示汽车价格与发动机尺寸的函数关系。 他将数据分成75%的训练数据集和25%的测试数据集。 他构建了一个线性回归模型。他使用统计软件包来创建模型。该模型创建了一个线性方程,表示汽车价格与发动机尺寸的关系。 模型估计参数:
线性方程估计如下: 价格= -6870.1 156.9 * 发动机尺寸 解释该模型为特定发动机尺寸下的汽车平均价格预测提供了方程。该等式表示以下内容: 发动机尺寸每增加一个单位将使汽车的平均价格提高156.9个单位。 评估该模型已经建成。需要评估模型的稳健性。我们怎样才能确定这个模型能够预测出令人满意的价格?该评估分两部分完成。首先,测试以建立模型的稳健性。其次,测试评估模型的准确性。 费尔南多首先根据训练数据评估模型。他得到以下统计数据。 里面有很多统计数据,让我们专注于关键的(标记为红色方框)。回想一下关于假设检验的讨论,使用假设检验评估模型的稳健性。 需要定义H0和Ha,它们的定义如下:
β1:β1的值决定价格与发动机尺寸之间的关系。如果β1=0则没有关系。在这种情况下,β1是正的,这意味着价格和发动机尺寸之间存在某种关系。 t-stat: t-stat的值是多少个标准差系数估计(β1)远离零。此外,价格和发动机尺寸之间的关系远离零,在这种情况下,t-stat是21.09。他离零已经足够远了。 p-value: p-value是概率值。它表示在零假设为真的情况下看到给定t统计量的概率。如果p值很小,例如<0.0001,则意味着这是偶然的并且没有关系的概率非常低。在这种情况下,p值很小,这意味着价格和发动机之间的关系不是偶然的。 通过这些指标,我们可以拒绝零假设并接受备择假设。 价格与发动机尺寸之间存在稳固的关系 建立了这种关系,准确性怎么样?模型的准确度如何?为了了解模型的准确性,一个名为R平方或决定系数的指标非常重要。 R平方或决定系数:要理解这些指标,让我们将其分解为其组成部分。
我们来看一个例子。 在上面的示例中,RSS是基于三辆车的预测价格计算的。RSS值为41450201.63。实际价格的平均值是11,021。TSS计算为44,444,546。R平方计算为6.737%。对于这三个特定的数据点,该模型只能解释6.73%的变化。 然而,对于费尔南多的模型,这是一个不同的故事。训练集的R平方为0.7503,即75.03%。这意味着该模型可以解释更多75%的变化。 结论费尔南多现在有一个很好的模型。它在训练数据上表现令人满意。但是,有25%的数据无法解释。还有改进的余地。如何添加更多自变量来预测价格?当添加多个自变量来预测因变量时,会创建一个多变量回归模型,即多个变量。后续我们会继续进行机器学习其他领域的讲解。 |
|