配色: 字号:
《R语言数据挖掘》第七章 R的支持向量机:数据预测
2023-05-25 | 阅:  转:  |  分享 
  
第七章R的支持向量机:数据预测学习目标理论方面,理解支持向量分类和支持向量回归的基本原理,适用性和方法特点实践方面,掌握R的支持向量预测、
应用以及结果解读,能够正确运用支持向量法实现数据的分类预测支持向量分类概述支持向量机倾向给出把握程度更高的预测结果。支持向量机(S
VM)是在统计学习理论基础上发展起来的一种数据挖掘方法,支持向量机分为支持向量分类机:用于研究输入变量与二分类型输出变量的关系及新
数据预测,简称为支持向量分类(SVC)支持向量回归机:用于研究输入变量与数值型输出变量的关系及新数据预测,简称为支持向量回归(SV
R)支持向量分类的基本思路设支持向量分类的分析对象是包含n个观测的训练样本,每个观测有p个输入(特征)变量和一个输出变量可将训练样
本中的n个观测看成p维特征空间上的n个点,以点的不同形状(或颜色)代表输出变量的不同类别取值。支持向量分类的建模目的,就是以训练样
本为研究对象,在p维特征空间中找到一个超平面,能将两类样本有效分开支持向量分类的基本思路超平面定义:可以有多条能够将红色方块和黄色
圆点分开的直线支持向量分类的基本思路最大边界超平面是支持向量分类的超平面。最大边界超平面,是距两个类别(-1类和1类)的边界观测点
最远的超平面支持向量分类的基本思路最大边界超平面的特点:第一,它不仅是距训练样本集中的边界观测点最远的,也是距测试样本集中的边界观
测点最远的第二,最大边界超平面仅取决于两类别的边界观测点支持向量分类的三种情况线性可分样本:样本观测点可被超平面线性分开样本完全线
性可分样本无法完全线性可分支持向量分类的三种情况线性不可分样本:样本观测点无法被超平面线性分开线性可分下的支持向量分类如何求解超平
面分别将两类的最“外围”样本观测点连线,形成两个多边形,它是关于各类样本点集的凸包,即为最小凸多边形,各自类的样本观测点均在多边形
内或边上以一类的凸包边界为基准线,找到另一类凸包边界上的点,过该点做基准线的平行线,得到一对平行线可以有多条这样的基准线和对应的平
行线,找到能正确分割两类且相距最远的一对平行线并做平行线的垂线。最大边界超平面(线)即是该垂线的垂直平分线线性可分下的支持向量分类
如何求解超平面对于任意观测观测Xi:超平面参数求解的目标是使d最大,且需满足上式(约束条件):线性可分下的支持向量分类如何求解超平
面线性可分下的支持向量分类如何求解超平面线性可分下的支持向量分类如何求解超平面构造拉格朗日函数对参数求偏导,且令偏导数为0因为ai
?0,超平面系数向量是训练样本中,所有ai>0的观测的输入和输出变量的线性组合ai=0的观测对超平面没有作用,只有ai>0的观测点
才对超平面的系数向量产生影响,这样的观测点即为支持向量。最大边界超平面完全由支持向量决定线性可分下的支持向量分类如何求解超平面上述
问题的对偶问题需满足的KKT条件KKT条件使得:ai>0的观测点(即支持向量),均落在类边界线上线性可分下的支持向量分类如何利用超
平面进行分类预测决策函数:广义线性可分下的支持向量分类如何求解超平面采用“宽松”策略,引入松弛变量?i广义线性可分下的支持向量分类
如何求解超平面采用“宽松”策略,引入松弛变量?i广义线性可分下的支持向量分类如何求解超平面可调参数:可调参数C是一个损失惩罚参数,
用于平衡模型复杂度和预测误差线性不可分下的支持向量分类线性不可分的一般解决途径:特征空间的非线性转换核心思想认为:低维空间中的线性
不可分问题,通过非线性转换,可转化为高维空间中的线性可分问题。即一切线性不可分问题都可通过适当的非线性空间转换变成线性可分问题线性
不可分下的支持向量分类维灾难:随着特征空间维度的不断升高,超平面被估参数个数的增长惊人对于p 维特征空间产生d阶交乘时,需估的模型
参数个数为:线性不可分下的支持向量分类支持向量分类克服维灾难的途径因:参数和决策结果取决于变换处理后的观测内积K()一般为核函数线
性不可分下的支持向量分类常见的核函数一旦核函数确定下来,参数估计和预测时就不必事先进行特征空间的映射变换处理,更无须关心非线性映射
函数?()的具体形式,只需计算相应的核函数,便可完成所有计算多分类的支持向量分类可采用1对1(one-versus-one)策略或
1对多(one-versus-all)策略,将二分类支持向量分类拓展到多分类预测问题中支持向量回归支持向量回归以训练样本集为数据对
象,通过分析输入变量和数值型输出变量之间的数量关系,对新观测的输出变量值进行预测支持向量回归与一般线性回归支持向量回归支持向量回归
的基本思路支持向量回归遵循损失函数最小原则下的超平面参数估计为降低过拟合风险采用?-不敏感损失函数:当观测X输出变量的实际值与其预
测值的绝对偏差不大于事先给定的?时,认为该观测不对损失函数贡献“损失”,损失函数对此呈不敏感“反应”支持向量回归?-不敏感损失函数
?-带落入? -带中的样本对超平面没有影响,未落入? 带中的观测将决定超平面,是支持向量在多输入变量的情况下,?-带会演变为一个柱
形“管道”,其内样本的误差将被忽略,支持向量是位于其外的样本,其拉格朗日乘子ai不等于0支持向量回归?-带落入? -带中的样本对超
平面没有影响,未落入? 带中的观测将决定超平面,是支持向量在多输入变量的情况下,?-带会演变为一个柱形“管道”,其内样本的误差将被
忽略,支持向量是位于其外的样本,其拉格朗日乘子ai不等于0“管道”半径?很重要支持向量回归支持向量回归的目标函数约束条件?i是支持
向量回归引入松弛变量,是样本观测点距管道的竖直方向上的距离?i也可定义为:约束条件为:支持向量回归的R函数svm函数svm(for
mula=R公式,data=数据框名,scale=TRUE/FALSE,type=支持向量机类型,kernel=核函数名, gam
ma=g,degree=d, cost=C, epsilon=0.1, na.action= na.omit/na.fail)tu
ne.svm函数tune.svm(formula=R公式,data=数据框名,scale=TRUE/FALSE,type=支持向量
机类型,kernel=核函数名, gamma=参数向量,degree=参数向量, cost=参数向量, na.action= na
.omit/na.fail)支持向量回归的R实现利用R模拟线性可分下的支持向量分类在线性可分的原则下,随机生成训练样本集和测试样本
集采用线性核函数,比较当损失惩罚参数较大和较小下的支持向量个数和最大边界超平面利用10折交叉验证找到预测误差最小下的损失惩罚参数利
用最优模型对测试样本集做预测支持向量回归的R实现利用R模拟线性不可分下的支持向量分类在线性不可分的原则下,随机生成训练样本集和测试
样本集采用径向基核函数,利用10折交叉验证找到预测误差最小下的最优参数和最优模型利用最优模型对测试样本集做预测支持向量回归的R实现
利用R模多分类的支持向量分类在线性不可分的原则下,随机生成训练样本集。其中的输入变量有2个,输出变量类别为0,1和2采用径向基核函数,利用10折交叉验证找到预测误差最小下的最优参数和最优模型利用最优模型对训练样本做预测。观测多类别预测的依据支持向量回归的R实现支持向量分类应用:天猫成交顾客的预测据利用支持向量分类分析顾客前3个月的消费行为规律,并预测未来下一个月是否会有订单成交
献花(0)
+1
(本文系大高老师首藏)