支持向量机

复杂网络621 2015-11-26

展开全文

结构风险最小化原则

经验风险：在训练样本上的误判，也就是损失函数了。

结构风险：由2部分组成，经验风险和VC置信范围VC Confidence。VC置信范围又跟训练样本数量和VC维有关，样本越多VC置信范围越小，VC维越大VC置信范围越大。VC维反映了函数集的学习能力，算法模型越复杂VC维越大。结构风险是模型在未知样本上的期望误判的上界，所以结构风险越小越好。结构风险最小化原则就是在兼顾经验风险最小的同时，还要尽量降低VC维（即降低模型复杂度，这跟奥卡姆剃刀原则是一致的）以减小VC置信范围。

当训练样本有限时如果只考虑经验风险，那么模型容易偏复杂，出现过拟合的现象。即训练样本有限时经验风险和真实风险差距较大。比如人工神经网络优化的就是经验风险，易陷入局部最优，训练结果不太稳定，一般需要大样本。而支持向量机优化的是结构风险，泛化能办强，算法具有全局最优性，是针对小样本统计的理论。

SVM中的最优化问题

图1.结构风险最小化图2.经验风险最小化

对于线性可分的二分类问题，正样本xi在wTx+b=1的上侧，即wTxi+b≥1，负样本xj在wTx+b=1的下侧，即wTxj+b≤1，令正样本的分类标签yi=1，负样本的分类标签yj=1，可以得到对正负样本都有yi(wTxi+b)≥1。

根据结构风险最小化的原则，SVM的优化目标是使两个分类平面之间的间隔（即h）最大，即得到图1所示的分类器，此时的分类决策函数是wTx+b=0。图2所示的分类器在训练训练样本上的误差为0，即满足经验风险最小化。对于待预测的数据点x4来说，图1所示的分类器会把它分负样本里面去，而图2所示的分类器会把它分到正样本里面去，所以SVM采用的是图1所示的分类器。

设x1和x2分别是wTx+b=1和wTx+b=1上的点，两式相减得wT(x1x2)=2，这里w和x都是向量，下面我们要把向量的内积转换为代数乘积。w与分界面垂直，x1x2在w方向上的投影长度为h，所以wT(x1x2)=||w||h=2，所以h=2||w||，SVM训练的目标是求maxh时的w和b。

SVM转换为一个优化问题：

mins.t.f(w,b)=12||w||2g(w,b)=yi(wTxi+b)1≥0

构造拉格朗日函数L(w,b,a)=12||w||2+∑Ni=1ai[1yi(wTx+b)]，其中ai≥0

根据我的另一篇博文KKT条件我们知道：

L(w,b,a)=12||w||2+∑Ni=1ai[1yi(wTx+b)]ai≥01yi(wTx+b)≤0=>minw,bf(w,b)=minw,bmaxaL(w,b,a)=maxaminw,bL(w,b,a)=f(w,b)ai[1yi(wTx+b)]=0L(w,b,a)w=0L(w,b,a)b=0

ai[1yi(wTx+b)]=0(1)

L(w,b,a)w=0(2)

L(w,b,a)b=0(3)

由(2)得

w∑i=1Naiyixi=0(4)

由(3)得

∑i=1Naiyi=0(5)

由(4)和(5)得L(w,b,a)=∑Ni=1ai12∑Ni=1∑Nj=1aiajyiyjxTixj

∴

f(w,b)=maxaminw,bL(w,b,a)=maxa∑i=1N∑j=1NaiajyiyjxTi,xj(6)

其中xTi,x表示xTi和x的内积。

此时SVM的优化问题已转化为(6)，待求参数是ai，这个优化问题如何求解留到文章最后一部分讲解。

我们把落在分类平面上的点（即满足yi(wTxi+b)=0）称为支持向量，由(1)得当xi不是支持向量时ai=0

由(4)得到分类决策函数

f(w,b)=wTx+b=(∑i=1Naiyixi)T+b=∑i=1NaiyixTi,x+b(7)

其中xi是支持向量，因为对于非支持向量ai=0，即∑Ni=1aiyixTi,x=0。

核技巧

图3.线性不可分

考虑图3线性不可分的情况，两个正样本分别是(1,1)和(2,2)，两个负样本分别是(1,2)和(2,1)。这种情况下分类平面是个如图3所示的曲面。

但是采用某种方法把2维空间中的点映射到5维空间后，就变得线性可分，关键看选用什么样的映射函数。比如我们采用下面的映射函数：

(x1,x2)→(x1,x21,x2,x22,x1x2)

这样

(1,1)→(1,1,1,1,1)

(2,2)→(4,4,4,4,4)

(1,2)→(1,1,2,4,2)

(2,1)→(2,4,1,1,2)

令A=(1,1,1,0.50.5)，我们采用分类函数f(X)=(AX)2

这样

f(1,1,1,1,1)=0

f(4,4,4,4,4)=0

f(1,1,2,4,2)=9

f(2,4,1,1,2)=12.25

我们取f(x)=4就可以将正负样本分开。

这里解释一下我们为什么把f(X)=(AX)2叫做线性分类器，这不明明是带了个平方吗？有个约定：如果g(x)是线性分类器，那么我们把f(g(x))称为广义线性分类器。比如Logitic分类器就是广义线性分类器，其分类函数是g(x)=11+eθTx

回过头来看SVM的分类决策函数∑Ni=1aiyixTi,x+b，当样本点线性不可分时通过映射函数将其映射到高维空间，∑Ni=1aiyi(xTi),(x)+b。但是映射到高维后参数ai也变成高维的，增加了计算量，这可怎么办呢？其实核函数K还有一个性质，就是K(xTi,x)=(xTi),(x)=(xTi,x)，即两个数据映射到高维空间后再做内积等价于这两个数据先在低维空间做内积然后再把内积映射到高维空间。