复杂的世界，人工智能将如何描述事物的关系

timtxu 2019-08-27

展开全文

描述变量关系

现实世界中很多问题的模型都可以通过若干个变量来描述，并且这些变量组成的方程式中因变量和自变量都为连续变量，这类问题在机器学习领域被称为回归问题。所以可以说回归就是用方程来描述若干变量之间的因果关系，是对客观数据的近似描述的一种思想，方程的参数由某些最优化策略来确定。也就是说，因变量的推导由若干自变量共同来决定，而每个自变量都有各自的影响权重（系数），这些权重则由指定的优化策略来确定。

假设某事物及其相关因子具有某种关系，回归的目的就是尝试使用某方程Y=F(x1,x2,…,xn)来表示该事物，一旦我们拥有了该方程则意味着我们拥有了预测的能力。

线性回归

举个例子

为了更好地理解回归问题，我们现在举一个通过回归来预测收入的例子。假设想要建立一个模型来预测某个人的收入，首先我们分析影响个人收入的因素，然后尝试定义一个方程来描述收入多少与影响因素之间的关系。这里仅仅以受教育时长作为因素，则可以将收入方程定义为 y=β0+β1*x1，其中y为收入，x1是受教育年数，β0和β1为系数。

如果我们能确定两个系数的值，那么整个方程就确定了。比如β0为3000、β1为1000，则方程为y=3000+1000*x1，β0可以认为是没有受过任何教育的人的基本收入为3000，而β1则表示一年教育能让收入增多1000。我们认为输入和输出都是连续变量，属于回归问题，虽然实际上很少有说受教育1.35年的，但这个问题的核心还是寻找回归那条直线方程。

回归例子

回归的原理

回归的原理是什么？或者说回归是如何生效呢？回归的核心就是确定好方程的形式并且找到适合的方程系数来描述事物，假如方程的形式已经确定，那么剩下的工作就是确定方程的系数。实际上，对于绝大多数问题我们都无法直接通过经验来设置方程的系数，人类并没办法开启上帝视角。那么有没有其他办法呢？答案就是通过收集数据样本来确定系数，通过客观事实数据加以统计处理来确定系数。

比如下图，收集到6个数据样本，实际情况会需要更多数据样本，数据样本需要覆盖现实客观情况，且符合实际分布。根据这些数据样本我们希望确定方程的系数，并且这个方程最能代表客观情况。核心策略就是让该方程的总误差最小，εi表示第i个点的误差，所有点的误差之和即为总误差。

方程误差

线性回归

线性回归是最经典的回归模型，这是一个简约又强大的模型。说它简约是因为我们可以通过二维平面的一元线性方程来了解线性回归的基本思想，而说它强大则是因为通过多元线性方程能够实现非线性模型。一元线性方程即是自变量X到因变量Y的映射，多元线性方程则是两个以上自变量到因变量的映射，比如X1、X2、X3、X4、X5到Y的映射。

一元/多元线性回归

我们经常会以三维空间的视角误将线性回归与直线对等起来，其实线性回归并不仅仅包括二维平面的直线方程，在多元线性方程中将对应着n维空间的超平面。我们以二元线性方程为例，此时的方程刚好对应三维空间的一个超平面。

多元线性超平面

此外，在线性回归中经常使用均方误差（MSE）作为误差的描述，即真实数据与预测数据对应点误差的平方和的均值，MSE = 1/n Σᵢ(ᵢ - (ᵢ))² 。下图中绿色的点为真实数据点，红色的点为预测数据，直线为回归方程，虚线为残差（真实值与预测值之差）。六个点的残差的平方之和再除以6，得到的就是均方误差。线性回归中最常用的优化方法为最小二乘法，它的核心思想就是最小化均方误差。

数据误差

欠拟合与过拟合

当我们使用回归来对事物建模时，可能会遇到欠拟合与过拟合现象。欠拟合是指模型不能很好地捕捉到数据样本的特征，导致线性方程无法很好地拟合数据。而过拟合则是模型将数据样本学习得太彻底了，以至于将噪声数据的特征也学习到了，这将会导致对未知数据预测时效果很差。

左上图中使用y = θ₀+θ₁x 来拟合数据，无法捕捉数据的特征，可以通过增加特征或模型的复杂性来解决这个问题。右上图将模型变为y = θ₀+θ₁x+θ₁x²，此时则能很好地拟合数据样本，这个模型就已经非常好了。如果我们再继续增加模型的复杂度的话，情况则可能变为下图所示，此时变成了过拟合。过拟合的原因主要有三个：数据样本包含了噪声、样本数太少以及模型太复杂。

欠拟合与过拟合

总结

本节主要介绍了人工智能对连续变量预测的建模方法，现实世界中关于量的预测需要通过回归来建模。也就是说在机器学习中，当我们要实现的功能是预测是否为某个类别时使用分类方法，而当我们要实现的功能是预测某个事物量的大小时则要使用回归方法。我们也探讨了回归的原理，并介绍了最经典且强大的线性回归方法，以及回归中可能遇到的欠拟合与过拟合现象。当我们了解了回归及其原理后，我们就能够在更高层面上理解人工智能实现预测的原理。