配色: 字号:
基于RBF核函数的支持向量机参数选择
2012-04-09 | 阅:  转:  |  分享 
  
第35卷第2期浙江212业大学学报V01.35No.2

2007年4月JOURNALOFZHEJIANGUNIVERSITYOFTECHNOLOGYApr·2007

基于RBF核函数的支持向量机参数选择

林升梁1。刘志2

(1.浙江工业大学信息工程学院,浙江杭州310032;

2.浙江工业大学软件学院,浙江杭州310032)

摘要:由于SVM在各个领域中得到越来越广泛的应用,而决定SVM性能的因素是核函数的选取.

其中,RBF核函数是应用最广泛的核函数,且有两个参数:惩罚因子C和核参数y.因此,希望能找



到最优化参数组(c,y)使SVM具有最好推广性.首先提出了用E一詈代替留一法来评估SVM的

,‘

推广性,它的优点是速度快、准确性高;然后,分析参数C和y对SVM性能的影响,由此将问题归

结在一个小的“好区”内选取最优参数组(C,7);最后,分别用穷举法和下文所提出的方法进行比

较,得出在“好区”内用C7=C(常数)来确定最优化参数同样能得到很好的推广性,而且速度上比穷

举法快的多.此方法,具有一定的实际应用价值.

关键词:支持向量机;RBF核参数;惩罚因子c;推广识别率

中图分类号:TPl81文献标识码:久文章编号:1006—4303(2007)02—0163—05

ParameterselectioninSVMwithRBFkernelfunction

LINSheng—lian91,LIUZhi2

(1.CollegeofInformationEngineering,ZhejiangUniversityofTechnology,Hangzhou,310032,China;

2.CollegeofSoftware,ZhejiangUniversityofTechnology,Hangzhou,310032,China)

Abstract:Supportvectormachines(SVM)ismoreandmoreappliedinthevariousfieldsinrecent

years.SelectionofkernelfunctionisapivotalfactorwhichdecidesperformanceofSVM.The

RBFkernelrunetionismostwidelyusedinSVM.Therearetwoparametersinthisfunction:the

penaltyparameterCandthekernelparameter7.Theoptimizationparameters(C,y)willmake



theSVMhavethebestperformance.Firstly,theE一生methodisproposedtobeusedtoassess

,t

theperformanceofSVMinsteadofusingexhaustalgorithm.Thisalgorithmisofhighspeedand

highaccuracy.Thenthroughanalyzingtheinfluenceoftheparameterscand),totheperformance

ofSVM,itisreducedtotheproblemthattheoptimizationparametersshouldbeselectedina

small“good—area”;Finally,throughcomparingtheexhaustalgorithmandthemethodmentioned

inthispaperseparately,wecouldobtainthatusingCy=C(constant)todefinetheoptimization

parameterswillgetgoodperformanceofSVM.Thismethodisofgoodpracticaluse.

Keywords:supportvectormachine(SVM);parameterofRBFkernel;penaltyfactor;.general

izedrecognitionrate

收稿日期:2006—09—25

作者简介:林升粱(1980一),男,浙江温州人,硕士研究生,从事图像处理、模式识别的研究

万方数据

浙江工业大学学报第35卷

0引言

机器学习是继专家系统之后人工智能应用的又

一重要研究领域,也是人工智能和神经计算的核心

研究课题之一.在模式识别、回归分析和特征提取等

方面得到了越来越广泛的应用.目前,在统计学习理

论的基础上,发展出来一种新的机器学习方法——

支持向量机[1j(Supportvectormachines,SVM).它

基于结构风险最小化n3(StructuralRishMinimiza—

tion,SRM)原则,即是由有限训练样本得到的决策

规则对独立的测试集仍能得到小的误差.尽量提高

学习机的泛化能力,具有良好的推,1性能和较好的

分类精确性,能有效的解决过学习问题,现已成为感

知器、神经网络的替代性方法.

支持向量机(SVM)是20世纪90年代由Vap—

nik[31等人提出的一种新的机器学习方法,与传统的

机器学习相比,有较好的推广能力.但是和其他学习

算法一样,其性能是依赖参数的选择,到目前还没有

一个很好的方法解决这个问题.笔者就是基于SVM

推广能力的估计人手,来研究这个问题,并用UCI

基准库[73上的数据来说明.

1支持向量机的介绍

支持向量机(SVM)理论[11主要是针对二类模

式识别问题提出的.对于二类模式识别问题,设给定

的训练集为{(z。,Y,),(z。,Y:)….,(z。,Y。)},其中

置∈R“为输入向量,输出向量为Y。∈{一1,1},如果

该训练集可被一个超平面线性划分,则该超平面为

W·X+b一0,其中W和b是决定了超平面的位置,

W·X为两个向量的内积.为了得到最优化的划分,

则该问题就转化为求最优化超平面的问题

min≠(W,e)一可1||w|l2+c∑8,f≥0

_{‘ci乩2,...∽’。1(1)

【S.tY。[(W·x。)+6]≥1—8,8≥0

其中:W是特征空间中分类超平面的系数向量;6是

分类面的阈值;&是考虑分类误差而引入的松弛因

子;C是对于错分样本的惩罚因子.这样的话所构造

出来的最优化超平面为:.厂(z)=W·X+b

式(1)优化问题可以转化为其对偶问题口3

min专∑∑y,y,口:以』(xi·x,)一

4。

i一1J一1

∑8,(i一1,2,…,竹)(2)

i=I

s.t.∑粥。一0,0≤n:≤C

对于大多数样本来讲,a;一0,对应a。≠0的样本称

为支持向量(SupportVector,SV).解出式(2)的最

优化函数为

,(x)一sign[∑以:y。(x。,x)+b’],

i=1

其中b+一y;一∑ya,(x:·x)

i=1

上式求和实际上由支持向量,即ai≠0的样本决定.

从这一点可以得出支持向量决定超平面(图1所示)

的划分.

支持向量



图1最优化超平面示意图

Fig.1Thesketchofoptimizationhyperplane

对于非线性可分的情况,可以通过一个映射函数

(在SVM称核函数),将低维的输入空间R映射到高

维的特征空间H使线性可分(图2所示),则低维的

线性不可分问题就变成高维空间的线性可分问题.

图2核函数原理图

Fig.2Theelementarydiagramofthekernelfunction

这样问题就可以表述为:输入向量X通过映射

驴:R”一H影射到高维空问H中,则核函数

K(X。,Xj)一≯(Xi)·驴(Xj),则优化问题转化为



nnn

rain可1∑∑Y。Y肌n,K(x:,x,)一∑口,4“’1’。l”1

.《(i一1,2,…,咒)(3)



ls_∑歹霸一o,0≤拉。≤C

万方数据

第2期林升梁,等:基于RBF核函数的支持向量机参数选择

解出式(3)的最优化函数为:

厂(x)一sign[∑aiy。K(x。,X,)+b+]

i一1

从式(3)的最小化问题可以看出,不需要知道

H和妒,只需要选择合适的核函数K(·)和C就可以

确定SVM.

现在,应用较常见的核函数有以下四种:

线性核:K(X:,X,)一X,·X,;

多项式核:K(X:,X,)一(X:·X,+1)4;

径向基(RBF)核:K(X:,X,)一

exp(一yl|X。一X,I{)2;

Sigmoid核:K(Xi,xi)一tanh[c1(x。,x,)4-C2].

在这四种核函数中,应用最广泛的是RBF核,

无论是低维、高维、小样本、大样本等情况,RBF核

函数均适用,具有较宽的收敛域,是较为理想的分类

依据函数‘引.下面就是基于RBF核函数的SVM来

讨论各个参数(C,y)对其推广能力的影响,寻求优

化参数选择的方法.

2以RBF核为核函数的支持向量机

RBF核为:K(xj,x,)=exp(一),IIxi—x,jI)2,

则对应式(3)的最优化问题就转化就下面最小化问题

一n””

111in告∑∑Yiy胁口,exp(一yIIx—K|I)2一∑嘶,~i

l=1J41i=I

其中s.t.>:Ym一0,0≤ni≤C(4)

i=1

这样求式(4)的最小值就取决于参数(C,y)的选择.

这样选择最佳的参数就可以使SVM分类器性能最

好,即推广能力最强.

2.1SVM推广能力的估计

一个SVM分类器的好坏,主要看它的推广性

和学习机器的复杂性,即对未知数据进行测试时的

准确性.而估计SVM推广能力的方法很多,都是基

于SRM原则,在每一组参数组合上均能求得对实

际风险的估计,通过比较不同的参数组合就可以找

到最好的SVM,此时的推广能力也最好.

留一法(Leave-One-Out)[4],首先从训练集中去

掉一个样本,再在其他样本上训练判决准则,并利用

该判决准则对去掉的样本进行分类,如果分类错误则

产生了一个留一法错误.尸令表示去掉第个样本后

在剩余样本上得到的分类准则,,(X。)表示使用该规

则对样本X进行分类,P(,(X,),K)表示分类结果,

用这个结果和去掉的第样本进行比较,如果分类正确

取0,反之取1.则最后得到的推广能力估计为

LOO=i1骞w镪:),y:)

从上式可以看出LOO越小,则推广能力越强,

即识别错误率越低.而且已经证明用留一法对测试

错误率的估计是无偏估计的口],作为估计性能的评

估标准.但该算法估计效率却很低,对他个样本需要

进行咒次学习和分类判决,其复杂度为o(n2),所以

随着样本的增加,估计所需要的运算量也急剧增加,

显然不适合大样本的推广能力估计.

支持向量记数法D],从留一法的原理得知,对于

非支持向量(口i一0的样本),在留一法测试时不会

产生错误.所以LOO≤垫,其中l。是支持向量的个

数,竹是总样本数.该式E=堑计算方便,只要训练

好一个SVM,就可以马上得到支持向量(SV)的个

数,特别是对于大样本SVM准确度比较高,从而可

以作为推广能力的估计.

下面通过选取UCI基准库的breast—cancer-

wisconsin(BCW),WisconsinDiagnosticBreast

Cancer(WDBC),pima—indians—diabetes(PID),iono—

sphere,tic—tac—toe样本数据比较对同一参数用两种

方法得到的识别错误率(表1)以及E和LOO变化

趋势(图3)

表1分别用LOO和支持向量记数法得到的错误率

lhble1Theerrorrateb{蜉edOilL00andSVMseparately

样本名称BCWWDBCPIDionospheretic-tac—toe

80

70

60

50

40

30

20

lO

0

图3LOO错误率和E错误率的变化趋势

Fig.3ThechangetrendofLOOErrorrateandEerrorrate

从以上表1和图3实验结果得知,用支持向量

记数法得到的错误率和留一法得到的错误很接近,

也比较准确的反映了SVM的推广能力;并且它的

逞醉=蔷}靶

万方数据

浙江工业大学学报第35卷

变化趋势与留一法的变化趋势很相似,当L00很

小时,E也很小.由于该方法计算简单,实现方便,运

行速度快,所以本文用E来估计SVM的推广能力,

并最终用I。00检验.

2.2参数(C,y)对SVM的影响

从式(3)中可以看出,C的作用是在确定的数据子

空间中调节学习机器置信区间范围,不同数据子空间

中最优化的C不同.而核参数7的改变实际上是隐含

地改变映射函数从而改变样本数据子空间分布的复

杂程度,即线性分类面的最大VC维u],也就决定了

线性分类达到最小误差.Vapnike等人的研究表明了,

核参数y和误差惩罚因子C是影响SVM性能的关

键因素口].下面通过实验,分别表示核参数y(图4(a)

所示)和惩罚因子C(图4(b)所示)对SVM的影响.

。q0.7

{0.6

|0.5\

o.4

00.3k

0.2协

■—●-◆



橥衄

..8..6-4.2024

lg(C)

U.O

h0,7-/叶

∑雾W等

.8—6-4-2024

l甙y)

(a)错误率随C的变化趋势(b)错误率随’,的变化趋

图4错误率随C和y的变化趋势

Fig.4ThechangetrendoferrorratewithparameterCand),

从以上两个图4(a)可以得知,当C较小时推厂_

错误率的估计值比较高;当c增加时急剧降低,即

性能得到迅速的提高;当继续增大时性能的变化就

不明显了,而且增加到一定值后,错误率不再变化

了,即此时推广能力对C的变化不敏感.也就是说

此时的C变化几乎不影响SVM的推广能力,所以

在这个区域中,就通过核参数的变化来近一步得到

SVM的最优化值.从图4(b)中还可以看出7的变

化,错误率有大到小,然后再从小到大的过程,也就

是说取一定的了就可以得裂SVM的最优值.所以,

希望通过对参数(C,y)的变化,选取最优参数组合

来得到最终SVM的最优值,即此时的错误率最低.

2.3参数(C。),)最优化选择

对于一个基于RBF核函数的SVM,其性能是

由参数(C,),)决定,选取不同的C和y就会得到不

同的SVM.我们的目的是为了寻找最佳的参数组合

使该SVM的性能最好,即推广错误率最低.

最简单的方法是分别选取不同的参数组合,得

出不同的错误率;分别比较这些错误率选取其中错

误率最小的参数组合作为最优化选择,这种方法也

叫做“穷举法”.参数C和y分别取N个值和M个

值,对N×M个(C,y)的组合分别训练不同的

SVM,再估计其推广错误率,从而在N×M个组合

中得到错误率最低的一个组合作为最优参数,如图

5所示参数(1000,0.00001)为最优化参数,此时的

错误率最低.虽然用这种方法最终能找出最优化参

数,但是其复杂度为D(N2),显然运算量非常大,花

费时间很大,特别对大样本数据来讲是不切实际的.

霉5“穷举法”得到不同参数(C,),)不同的错误率

Fig.5Theerrorratewithdifferentparameters(C,7)

basedontheexhaustalgorithm

从以上图5分析知道,对于在一定区域内的

(C,y)组合得到错误率都非常低,即SVM推广识别

能力都非常高.对这个区域叫“好区”[8],如图6(a)

所示。为了确定“好区”内最优化参数组合,该文的思

想如图6(b)所示,通过对曲线Cy=C上的点(C,y)

来估计最优化参数,则用该曲线得到的最优化参数

为(Co,Yo),作为SVM的最优化参数组合,其中C

是常数,用该思想得到复杂度为o(N).而且,从3.2

节中已经得知当C取得一定值时,使SVM最优化,

此时用线性SVM来得到最优化参数,把该参数作

为常数C,以此来确定睦线C7=C,使错误率最低的

参数组合集中出现在“好区”中该曲线的附近,并通

过以下实验证明。

(a)识别能力高的参数区彭(b)最优化曲线

c

图6识别能力高的参数区域内的最优化曲线

Fig.6Theoptimizationcurveoftheparameterdistrict

withthehighidentificationability

静嗤船∞

万方数据

第2期林升梁,等:基于RBF核函数的支持向量机参数选择

基于该思想得出本文优化参数(C,y)的算法步骤:

(1)用线性SVM求解最优化参数C,使之该参

数的SVM推广识别错误率最低;

(2)对RBF的SVM,固定C,取满足Cy=C的

(C,y),训练SVM,根据对推广识别错误率的估计,

取错误率最低的参数(C。,7)。,把该参数作为SVM

的最优化参数.其中错误率用第2.1节中的表示,最

后用LOO检验。

2.4仿真实验

本文实验所有数据来源于UCI基准库[7j,用

Matlab7.0进行编程,分别用“穷举法”和本文方法

得到以下实验结果如表2和表3所示.其中用“穷举

法”实验时,lg(C)为[一10,10]而lg(7)为[一5,5].

表2用“穷举法”得到最优化参数

Table2Theoptimizationparametersbasedontheexhaustal-

gorithm

表3用本文方法得到的最优化参数

Table3Theoptimizationparameterbasedonthemethod

mentionedinthispaper

从以上实验可以得知,用本文方法大大减少了

训练量的情况下,同样可以达到与“穷举法”的推广

识别率,甚至比“穷举法”得到的更低.

另外,在本文算法的基础上,可以引入一个修正

量艿,使曲线Cy=C成为Cy=3C,其中o<艿<1,通

过这样的修正量可使曲线更加接近“好区”中最优化

参数组合.

3总结

笔者重点对以RBF核为核函数的SVM性质分

析,用实验证明了用支持向量记数法来代替留一法在

本文中的可用性,并分别得出参数C和7对SVM的

推广能力的影响.基于此提出了本文优化参数的算

法.实验证明,该算法比“穷举法”复杂度要低,并且同

样达到“穷举法”得出的SVM推广识别准确率,使用

该文方法优化参数来构造SVM分类有一定意义.对

于修正量艿的选取可以更深入的研究

参考文献:

[11邓乃扬,田英杰。数据挖掘中的新方法:支持向量机[M].北京:

科学出版社,2004.

[21李盼池,许少华.支持向量在模式识别中的核函数特性分析

[J].计算机工程与设计,2005,26(2):302—304.

[3]VAPINKVN.Thenatureofstatisticallearningtheory[M].

NewYork:SpringerVerlag,2000.

[4]LUNTSA,BRAILOVSKIYV.Evaluationofattributesob—

tainedinStatisticalDecisionRules[J].EngineeringCybemet—

ics,1967(3):98-109.

[5]CHAPELLEO,VAPINKVN.Choosingmultipleparameters

forsupportvectormachines[J1.MachineLearning,2002,46:

13l一159.

[63LUNTSA,BRAILOVSKIYV.Evaluationofattribtesob—

tainedinstatisticaldecisionrules[J].EngineeringCybernet—

ies,1967,3(1):982—1009.

[71MURPHYPM,AHAIRVINEDW.CA:Universityofcali—

fornia,departmentofinformationandcomputerscience[EB/

0I。].http://www.ics.uci.edu/mlearn/MLRepository.

html,1994.

[8]KEERTHIS,CHIHJ.Asymptoticbehaviorofsupportvector

machineswithgaussiankernel[J].NeuralComputation,

2003,15:i667—1689.

(责任编辑:翁爱湘)

万方数据

基于RBF核函数的支持向量机参数选择

作者:林升梁,刘志,LINSheng-liang,LIUZhi

作者单位:林升梁,LINSheng-liang(浙江工业大学,信息工程学院,浙江,杭州,310032),刘志,LIU

Zhi(浙江工业大学,软件学院,浙江,杭州,310032)

刊名:浙江工业大学学报

英文刊名:JOURNALOFZHEJIANGUNIVERSITYOFTECHNOLOGY

年,卷(期):2007,35(2)

被引用次数:23次



参考文献(8条)

1.KEERTHIS;CHIHJAsymptoticbehaviorofsupportvectormachineswithgaussiankernel[外文期刊]

2003(7)

2.MURPHYPM;AHAIRVINEDWCA:Universityofcalifornia,departmentofinformationandcomputer

science1994

3.LUNTSA;BRAILOVSKIYVEvaluationofattribtesobtainedinstatisticaldecisionrules1967(01)

4.CHAPELLEO;VAPINKVNChoosingmultipleparametersforsupportvectormachines[外文期刊]2002

5.LUNTSA;BRAILOVSKIYVEvaluationofattributesobtainedinStatisticalDecisionRules1967(03)

6.VAPINKVNThenatureofstatisticallearningtheory2000

7.李盼池;许少华支持向量在模式识别中的核函数特性分析[期刊论文]-计算机工程与设计2005(02)

8.邓乃扬;田英杰数据挖掘中的新方法:支持向量机2004



引证文献(23条)

1.阿尔达克.塔西甫拉提·特依拜.张飞SAR图像盐渍地分类研究[期刊论文]-遥感信息2011(4)

2.李京华.张聪颖.倪宁基于参数优化的支持向量机战场多目标声识别[期刊论文]-探测与控制学报2010(1)

3.郭佳忱基于SVM方法的长白山森林植被信息提取的研究[期刊论文]-吉林林业科技2010(1)

4.肖莎丽.方康玲.刘斌支持向量机分类与回归算法浅析[期刊论文]-中国科技博览2010(14)

5.付元元.任东支持向量机中核函数及其参数选择研究[期刊论文]-科技创新导报2010(9)

6.李玲娟.翟双灿.郭立玮.潘永兰用支持向量机预测中药水提液膜分离过程[期刊论文]-计算机与应用化学

2010(2)

7.李玲娟.翟双灿.郭立玮.潘永兰用支持向量机预测中药水提液膜分离过程[期刊论文]-计算机与应用化学

2010(2)

8.慕晓茜.何佳.倪旭敏.段雨墨.陆昊.张作泉基于SVR的石油期货价格短期预测[期刊论文]-科学技术与工程

2010(18)

9.李志永.陈立潮.张英俊基于特征空间聚类的二叉树支持向量机分类算法[期刊论文]-计算机与数字工程2010(6)

10.靳召东.陈虹.张钲浩基于自适应遗传算法LS-SVM的网络流量预测[期刊论文]-计算机应用与软件2010(11)

11.吴冬梅.朱俊.庄新田.杨霖基于支持向量机的财务危机预警模型[期刊论文]-东北大学学报(自然科学版)

2010(4)

12.董国君.哈力木拉提·买买提.余辉基于RBF核的SVM核参数优化算法[期刊论文]-新疆大学学报(自然科学版)

2009(3)

13.叶蔚.王时龙.雷松支持向量机刀具磨损预测模型及MATLAB仿真[期刊论文]-工具技术2009(10)

14.邓超.吴军.万紫娟基于支持向量机工具的性能劣化建模方法[期刊论文]-计算机集成制造系统2009(4)

15.刘海涛.黄敏.朱启兵一种新的二叉树SVM多分类算法[期刊论文]-江南大学学报(自然科学版)2009(2)

16.刘东辉.卞建鹏.付平.刘智青支持向量机最优参数选择的研究[期刊论文]-河北科技大学学报2009(1)

17.沈丽民.李军显基于支持向量机的雷达高分辨距离像识别[期刊论文]-弹箭与制导学报2009(2)

18.张飞.塔西甫拉提特依拜.丁建丽.田源.依力亚斯江·努尔麦麦提.哈学萍结合光谱与纹理信息的SVM遥感土壤盐

渍化信息提取研究[期刊论文]-测绘科学2009(3)

19.马京华.王怀彬一种基于支持向量机和主成分分析的多光谱图像的分类方法[期刊论文]-天津理工大学学报

2008(6)

20.薛贵生.丁维明.程力基于支持向量机的煤灰结渣特性判别[期刊论文]-能源研究与利用2008(6)

21.戴波.赵晶.周炎超声波管道内检测腐蚀缺陷分类识别研究[期刊论文]-机床与液压2008(7)

22.戴波.赵晶.周炎基于支持向量机的管道腐蚀超声波内检测[期刊论文]-化工学报2008(7)

23.刘彪.王立德.申萍.王苏敬.肖强支持向量机在内燃机车燃油系统故障诊断中的应用[期刊论文]-机车电传动

2008(2)





本文链接:http://d.g.wanfangdata.com.cn/Periodical_zjgydxxb200702010.aspx

献花(0)
+1
(本文系zhenxin608首藏)