【原】【原创】大结局！scikit-learn 支持向量机算法库使用小结

新用户8173JS52 2020-10-27

展开全文

公众号后台回复“python“，立刻领取100本机器学习必备Python电子书

之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结，本文从实践的角度对scikit-learn SVM算法库的使用做一个小结。scikit-learn SVM算法库封装了libsvm 和 liblinear 的实现，仅仅重写了算法了接口部分。

1. scikit-learn SVM算法库使用概述

scikit-learn中SVM的算法库分为两类，一类是分类的算法库，包括SVC， NuSVC，和LinearSVC 3个类。另一类是回归算法库，包括SVR， NuSVR，和LinearSVR 3个类。相关的类都包裹在sklearn.svm模块之中。

对于SVC， NuSVC，和LinearSVC 3个分类的类，SVC和 NuSVC差不多，区别仅仅在于对损失的度量方式不同，而LinearSVC从名字就可以看出，他是线性分类，也就是不支持各种低维到高维的核函数，仅仅支持线性核函数，对线性不可分的数据不能使用。

同样的，对于SVR， NuSVR，和LinearSVR 3个回归的类， SVR和NuSVR差不多，区别也仅仅在于对损失的度量方式不同。LinearSVR是线性回归，只能使用线性核函数。

我们使用这些类的时候，如果有经验知道数据是线性可以拟合的，那么使用LinearSVC去分类或者LinearSVR去回归，它们不需要我们去慢慢的调参去选择各种核函数以及对应参数，速度也快。如果我们对数据分布没有什么经验，一般使用SVC去分类或者SVR去回归，这就需要我们选择核函数以及对核函数调参了。

什么特殊场景需要使用NuSVC分类和 NuSVR 回归呢？如果我们对训练集训练的错误率或者说支持向量的百分比有要求的时候，可以选择NuSVC分类和 NuSVR 。它们有一个参数来控制这个百分比。

这些类的详细使用方法我们在下面再详细讲述。

2. 回顾SVM分类算法和回归算法

我们先简要回顾下SVM分类算法和回归算法，因为这里面有些参数对应于算法库的参数，如果不先复习下，下面对参数的讲述可能会有些难以理解。

对于SVM分类算法，其原始形式是：

其中m为样本个数，我们的样本为。是我们的分离超平面的系数,为第i个样本的松弛系数， C为惩罚系数。为低维到高维的映射函数。

通过拉格朗日函数以及对偶化后的形式为：

其中和原始形式不同的为拉格朗日系数向量。为我们要使用的核函数。

3. SVM核函数概述

在scikit-learn中，内置的核函数一共有4种，当然如果你认为线性核函数不算核函数的话，那就只有三种。

1）线性核函数（Linear Kernel）表达式为：，就是普通的内积，LinearSVC 和 LinearSVR 只能使用它。

2) 多项式核函数（Polynomial Kernel）是线性不可分SVM常用的核函数之一，表达式为：，其中，都需要自己调参定义,比较麻烦。

3）高斯核函数（Gaussian Kernel），在SVM中也称为径向基核函数（Radial Basis Function,RBF），它是libsvm默认的核函数，当然也是scikit-learn默认的核函数。表达式为：，其中，大于0，需要自己调参定义。

4）Sigmoid核函数（Sigmoid Kernel）也是线性不可分SVM常用的核函数之一，表达式为：，其中，都需要自己调参定义。

一般情况下，对非线性数据使用默认的高斯核函数会有比较好的效果，如果你不是SVM调参高手的话，建议使用高斯核来做数据分析。

4. SVM分类算法库参数小结

这里我们对SVM分类算法库的重要参数做一个详细的解释，重点讲述调参的一些注意点。

5. SVM回归算法库参数小结

SVM回归算法库的重要参数巨大部分和分类算法库类似，因此这里重点讲述和分类算法库不同的部分，对于相同的部分可以参考上一节对应参数。

6. SVM算法库其他调参要点

上面已经对scikit-learn中类库的参数做了总结，这里对其他的调参要点做一个小结。

1）一般推荐在做训练之前对数据进行归一化，当然测试集中的数据也需要归一化。。

2）在特征数非常多的情况下，或者样本数远小于特征数的时候，使用线性核，效果已经很好，并且只需要选择惩罚系数C即可。

3）在选择核函数时，如果线性拟合不好，一般推荐使用默认的高斯核'rbf'。这时我们主要需要对惩罚系数C和核函数参数进行艰苦的调参，通过多轮的交叉验证选择合适的惩罚系数C和核函数参数。

4）理论上高斯核不会比线性核差，但是这个理论却建立在要花费更多的时间来调参上。所以实际上能用线性核解决问题我们尽量使用线性核。

1.【原创】支持向量机原理(一) 线性支持向量机

2.【原创】支持向量机原理(二) 线性支持向量机的软间隔最大化模型

3.【原创】支持向量机原理(三)线性不可分支持向量机与核函数

记得把公号加星标，会第一时间收到通知。

创作不易，如果觉得有点用，希望可以随手转发或者”在看“，拜谢各位老铁

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：新用户8173JS52 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

新用户8173JS52

关注对话

TA的最新馆藏

神经网络基本原理及Python编程实现
结构最清晰的Yolov3 head和loss实现完全解析
猫狗大战分类TensorFlow实战分享
周末重温——TensorFlow之参数初始化
女友半夜加班发自拍，IT男友用30行python代码发现惊天秘密
【留言送书】轻量级骨架首选：MobileNetV3完全解析

喜欢该文的人也喜欢更多

热门阅读换一换