基于RBF核函数的支持向量机参数选择

来自：zhenxin608 > 馆藏分类

配色：

字号：大中小

基于RBF核函数的支持向量机参数选择

2012-04-09 | 阅：转： | 分享

第35卷第2期浙江212业大学学报V01．35No．2

2007年4月JOURNALOFZHEJIANGUNIVERSITYOFTECHNOLOGYApr·2007

基于RBF核函数的支持向量机参数选择

林升梁1。刘志2

(1．浙江工业大学信息工程学院，浙江杭州310032；

2．浙江工业大学软件学院，浙江杭州310032)

摘要：由于SVM在各个领域中得到越来越广泛的应用，而决定SVM性能的因素是核函数的选取．

其中，RBF核函数是应用最广泛的核函数，且有两个参数：惩罚因子C和核参数y．因此，希望能找

，

到最优化参数组(c，y)使SVM具有最好推广性．首先提出了用E一詈代替留一法来评估SVM的

，‘

推广性，它的优点是速度快、准确性高；然后，分析参数C和y对SVM性能的影响，由此将问题归

结在一个小的“好区”内选取最优参数组(C，7)；最后，分别用穷举法和下文所提出的方法进行比

较，得出在“好区”内用C7=C(常数)来确定最优化参数同样能得到很好的推广性，而且速度上比穷

举法快的多．此方法，具有一定的实际应用价值．

关键词：支持向量机；RBF核参数；惩罚因子c；推广识别率

中图分类号：TPl81文献标识码：久文章编号：1006—4303(2007)02—0163—05

ParameterselectioninSVMwithRBFkernelfunction

LINSheng—lian91，LIUZhi2

(1．CollegeofInformationEngineering，ZhejiangUniversityofTechnology，Hangzhou，310032，China；

2．CollegeofSoftware，ZhejiangUniversityofTechnology，Hangzhou,310032，China)

Abstract：Supportvectormachines(SVM)ismoreandmoreappliedinthevariousfieldsinrecent

years．SelectionofkernelfunctionisapivotalfactorwhichdecidesperformanceofSVM．The

RBFkernelrunetionismostwidelyusedinSVM．Therearetwoparametersinthisfunction：the

penaltyparameterCandthekernelparameter7．Theoptimizationparameters(C，y)willmake

，

theSVMhavethebestperformance．Firstly，theE一生methodisproposedtobeusedtoassess

，t

theperformanceofSVMinsteadofusingexhaustalgorithm．Thisalgorithmisofhighspeedand

highaccuracy．Thenthroughanalyzingtheinfluenceoftheparameterscand)，totheperformance

ofSVM，itisreducedtotheproblemthattheoptimizationparametersshouldbeselectedina

small“good—area”；Finally，throughcomparingtheexhaustalgorithmandthemethodmentioned

inthispaperseparately，wecouldobtainthatusingCy=C(constant)todefinetheoptimization

parameterswillgetgoodperformanceofSVM．Thismethodisofgoodpracticaluse．

Keywords：supportvectormachine(SVM)；parameterofRBFkernel；penaltyfactor；．general

izedrecognitionrate

收稿日期：2006—09—25

作者简介：林升粱(1980一)，男，浙江温州人，硕士研究生，从事图像处理、模式识别的研究

万方数据

浙江工业大学学报第35卷

0引言

机器学习是继专家系统之后人工智能应用的又

一重要研究领域，也是人工智能和神经计算的核心

研究课题之一．在模式识别、回归分析和特征提取等

方面得到了越来越广泛的应用．目前，在统计学习理

论的基础上，发展出来一种新的机器学习方法——

支持向量机[1j(Supportvectormachines，SVM)．它

基于结构风险最小化n3(StructuralRishMinimiza—

tion，SRM)原则，即是由有限训练样本得到的决策

规则对独立的测试集仍能得到小的误差．尽量提高

学习机的泛化能力，具有良好的推，1性能和较好的

分类精确性，能有效的解决过学习问题，现已成为感

知器、神经网络的替代性方法．

支持向量机(SVM)是20世纪90年代由Vap—

nik[31等人提出的一种新的机器学习方法，与传统的

机器学习相比，有较好的推广能力．但是和其他学习

算法一样，其性能是依赖参数的选择，到目前还没有

一个很好的方法解决这个问题．笔者就是基于SVM

推广能力的估计人手，来研究这个问题，并用UCI

基准库[73上的数据来说明．

1支持向量机的介绍

支持向量机(SVM)理论[11主要是针对二类模

式识别问题提出的．对于二类模式识别问题，设给定

的训练集为{(z。，Y，)，(z。，Y：)…．，(z。，Y。)}，其中

置∈R“为输入向量，输出向量为Y。∈{一1，1}，如果

该训练集可被一个超平面线性划分，则该超平面为

W·X+b一0，其中W和b是决定了超平面的位置，

W·X为两个向量的内积．为了得到最优化的划分，

则该问题就转化为求最优化超平面的问题

min≠(W，e)一可1||w|l2+c∑8，f≥0

_{‘ci乩2，．．．∽’。1(1)

【S．tY。[(W·x。)+6]≥1—8，8≥0

其中：W是特征空间中分类超平面的系数向量；6是

分类面的阈值；&是考虑分类误差而引入的松弛因

子；C是对于错分样本的惩罚因子．这样的话所构造

出来的最优化超平面为：．厂(z)=W·X+b

式(1)优化问题可以转化为其对偶问题口3

min专∑∑y，y，口：以』(xi·x，)一

4。

i一1J一1

∑8，(i一1，2，…，竹)(2)

i=I

s．t．∑粥。一0，0≤n：≤C

对于大多数样本来讲，a；一0，对应a。≠0的样本称

为支持向量(SupportVector，SV)．解出式(2)的最

优化函数为

，(x)一sign[∑以：y。(x。，x)+b’]，

i=1

其中b+一y；一∑ya，(x：·x)

i=1

上式求和实际上由支持向量，即ai≠0的样本决定．

从这一点可以得出支持向量决定超平面(图1所示)

的划分．

支持向量

面

图1最优化超平面示意图

Fig．1Thesketchofoptimizationhyperplane

对于非线性可分的情况，可以通过一个映射函数

(在SVM称核函数)，将低维的输入空间R映射到高

维的特征空间H使线性可分(图2所示)，则低维的

线性不可分问题就变成高维空间的线性可分问题．

图2核函数原理图

Fig．2Theelementarydiagramofthekernelfunction

这样问题就可以表述为：输入向量X通过映射

驴：R”一H影射到高维空问H中，则核函数

K(X。，Xj)一≯(Xi)·驴(Xj)，则优化问题转化为

一

nnn

rain可1∑∑Y。Y肌n，K(x：，x，)一∑口，4“’1’。l”1

．《(i一1，2，…，咒)(3)

。

ls_∑歹霸一o，0≤拉。≤C

万方数据

第2期林升梁，等：基于RBF核函数的支持向量机参数选择

解出式(3)的最优化函数为：

厂(x)一sign[∑aiy。K(x。，X，)+b+]

i一1

从式(3)的最小化问题可以看出，不需要知道

H和妒，只需要选择合适的核函数K(·)和C就可以

确定SVM．

现在，应用较常见的核函数有以下四种：

线性核：K(X：，X，)一X，·X，；

多项式核：K(X：，X，)一(X：·X，+1)4；

径向基(RBF)核：K(X：，X，)一

exp(一yl|X。一X，I{)2；

Sigmoid核：K(Xi，xi)一tanh[c1(x。，x，)4-C2]．

在这四种核函数中，应用最广泛的是RBF核，

无论是低维、高维、小样本、大样本等情况，RBF核

函数均适用，具有较宽的收敛域，是较为理想的分类

依据函数‘引．下面就是基于RBF核函数的SVM来

讨论各个参数(C，y)对其推广能力的影响，寻求优

化参数选择的方法．

2以RBF核为核函数的支持向量机

RBF核为：K(xj，x，)=exp(一)，IIxi—x，jI)2，

则对应式(3)的最优化问题就转化就下面最小化问题

一n””

111in告∑∑Yiy胁口，exp(一yIIx—K|I)2一∑嘶，～i

l=1J41i=I

其中s．t．>：Ym一0，0≤ni≤C(4)

i=1

这样求式(4)的最小值就取决于参数(C，y)的选择．

这样选择最佳的参数就可以使SVM分类器性能最

好，即推广能力最强．

2．1SVM推广能力的估计

一个SVM分类器的好坏，主要看它的推广性

和学习机器的复杂性，即对未知数据进行测试时的

准确性．而估计SVM推广能力的方法很多，都是基

于SRM原则，在每一组参数组合上均能求得对实

际风险的估计，通过比较不同的参数组合就可以找

到最好的SVM，此时的推广能力也最好．

留一法(Leave-One-Out)[4]，首先从训练集中去

掉一个样本，再在其他样本上训练判决准则，并利用

该判决准则对去掉的样本进行分类，如果分类错误则

产生了一个留一法错误．尸令表示去掉第个样本后

在剩余样本上得到的分类准则，，(X。)表示使用该规

则对样本X进行分类，P(，(X，)，K)表示分类结果，

用这个结果和去掉的第样本进行比较，如果分类正确

取0，反之取1．则最后得到的推广能力估计为

LOO=i1骞w镪：)，y：)

从上式可以看出LOO越小，则推广能力越强，

即识别错误率越低．而且已经证明用留一法对测试

错误率的估计是无偏估计的口]，作为估计性能的评

估标准．但该算法估计效率却很低，对他个样本需要

进行咒次学习和分类判决，其复杂度为o(n2)，所以

随着样本的增加，估计所需要的运算量也急剧增加，

显然不适合大样本的推广能力估计．

支持向量记数法D]，从留一法的原理得知，对于

非支持向量(口i一0的样本)，在留一法测试时不会

产生错误．所以LOO≤垫，其中l。是支持向量的个

数，竹是总样本数．该式E=堑计算方便，只要训练

好一个SVM，就可以马上得到支持向量(SV)的个

数，特别是对于大样本SVM准确度比较高，从而可

以作为推广能力的估计．

下面通过选取UCI基准库的breast—cancer-

wisconsin(BCW)，WisconsinDiagnosticBreast

Cancer(WDBC)，pima—indians—diabetes(PID)，iono—

sphere，tic—tac—toe样本数据比较对同一参数用两种

方法得到的识别错误率(表1)以及E和LOO变化

趋势(图3)

表1分别用LOO和支持向量记数法得到的错误率

lhble1Theerrorrateb{蜉edOilL00andSVMseparately

样本名称BCWWDBCPIDionospheretic-tac—toe

80

70

60

50

40

30

20

lO

0

图3LOO错误率和E错误率的变化趋势

Fig．3ThechangetrendofLOOErrorrateandEerrorrate

从以上表1和图3实验结果得知，用支持向量

记数法得到的错误率和留一法得到的错误很接近，

也比较准确的反映了SVM的推广能力；并且它的

逞醉=蔷}靶

万方数据

浙江工业大学学报第35卷

变化趋势与留一法的变化趋势很相似，当L00很

小时，E也很小．由于该方法计算简单，实现方便，运

行速度快，所以本文用E来估计SVM的推广能力，

并最终用I。00检验．

2．2参数(C，y)对SVM的影响

从式(3)中可以看出，C的作用是在确定的数据子

空间中调节学习机器置信区间范围，不同数据子空间

中最优化的C不同．而核参数7的改变实际上是隐含

地改变映射函数从而改变样本数据子空间分布的复

杂程度，即线性分类面的最大VC维u]，也就决定了

线性分类达到最小误差．Vapnike等人的研究表明了，

核参数y和误差惩罚因子C是影响SVM性能的关

键因素口]．下面通过实验，分别表示核参数y(图4(a)

所示)和惩罚因子C(图4(b)所示)对SVM的影响．

。q0．7

{0．6

|0．5＼

o．4

00．3k

0．2协

■—●-◆

瓣

橥衄

．．8．．6-4．2024

lg(C)

U．O

h0,7-／叶

∑雾W等

．8—6-4-2024

l甙y)

(a)错误率随C的变化趋势(b)错误率随’，的变化趋

图4错误率随C和y的变化趋势

Fig．4ThechangetrendoferrorratewithparameterCand)，

从以上两个图4(a)可以得知，当C较小时推厂_

错误率的估计值比较高；当c增加时急剧降低，即

性能得到迅速的提高；当继续增大时性能的变化就

不明显了，而且增加到一定值后，错误率不再变化

了，即此时推广能力对C的变化不敏感．也就是说

此时的C变化几乎不影响SVM的推广能力，所以

在这个区域中，就通过核参数的变化来近一步得到

SVM的最优化值．从图4(b)中还可以看出7的变

化，错误率有大到小，然后再从小到大的过程，也就

是说取一定的了就可以得裂SVM的最优值．所以，

希望通过对参数(C，y)的变化，选取最优参数组合

来得到最终SVM的最优值，即此时的错误率最低．

2．3参数(C。)，)最优化选择

对于一个基于RBF核函数的SVM，其性能是

由参数(C，)，)决定，选取不同的C和y就会得到不

同的SVM．我们的目的是为了寻找最佳的参数组合

使该SVM的性能最好，即推广错误率最低．

最简单的方法是分别选取不同的参数组合，得

出不同的错误率；分别比较这些错误率选取其中错

误率最小的参数组合作为最优化选择，这种方法也

叫做“穷举法”．参数C和y分别取N个值和M个

值，对N×M个(C，y)的组合分别训练不同的

SVM，再估计其推广错误率，从而在N×M个组合

中得到错误率最低的一个组合作为最优参数，如图

5所示参数(1000，0．00001)为最优化参数，此时的

错误率最低．虽然用这种方法最终能找出最优化参

数，但是其复杂度为D(N2)，显然运算量非常大，花

费时间很大，特别对大样本数据来讲是不切实际的．

霉5“穷举法”得到不同参数(C，)，)不同的错误率

Fig．5Theerrorratewithdifferentparameters(C，7)

basedontheexhaustalgorithm

从以上图5分析知道，对于在一定区域内的

(C，y)组合得到错误率都非常低，即SVM推广识别

能力都非常高．对这个区域叫“好区”[8]，如图6(a)

所示。为了确定“好区”内最优化参数组合，该文的思

想如图6(b)所示，通过对曲线Cy=C上的点(C，y)

来估计最优化参数，则用该曲线得到的最优化参数

为(Co，Yo)，作为SVM的最优化参数组合，其中C

是常数，用该思想得到复杂度为o(N)．而且，从3．2

节中已经得知当C取得一定值时，使SVM最优化，

此时用线性SVM来得到最优化参数，把该参数作

为常数C，以此来确定睦线C7=C，使错误率最低的

参数组合集中出现在“好区”中该曲线的附近，并通

过以下实验证明。

(a)识别能力高的参数区彭(b)最优化曲线

c

图6识别能力高的参数区域内的最优化曲线

Fig．6Theoptimizationcurveoftheparameterdistrict

withthehighidentificationability

静嗤船∞

万方数据

第2期林升梁，等：基于RBF核函数的支持向量机参数选择

基于该思想得出本文优化参数(C，y)的算法步骤：

(1)用线性SVM求解最优化参数C，使之该参

数的SVM推广识别错误率最低；

(2)对RBF的SVM，固定C，取满足Cy=C的

(C，y)，训练SVM，根据对推广识别错误率的估计，

取错误率最低的参数(C。，7)。，把该参数作为SVM

的最优化参数．其中错误率用第2．1节中的表示，最

后用LOO检验。

2．4仿真实验

本文实验所有数据来源于UCI基准库[7j，用

Matlab7．0进行编程，分别用“穷举法”和本文方法

得到以下实验结果如表2和表3所示．其中用“穷举

法”实验时，lg(C)为[一10，10]而lg(7)为[一5，5]．

表2用“穷举法”得到最优化参数

Table2Theoptimizationparametersbasedontheexhaustal-

gorithm

表3用本文方法得到的最优化参数

Table3Theoptimizationparameterbasedonthemethod

mentionedinthispaper

从以上实验可以得知，用本文方法大大减少了

训练量的情况下，同样可以达到与“穷举法”的推广

识别率，甚至比“穷举法”得到的更低．

另外，在本文算法的基础上，可以引入一个修正

量艿，使曲线Cy=C成为Cy=3C，其中o<艿<1，通

过这样的修正量可使曲线更加接近“好区”中最优化

参数组合．

3总结

笔者重点对以RBF核为核函数的SVM性质分

析，用实验证明了用支持向量记数法来代替留一法在

本文中的可用性，并分别得出参数C和7对SVM的

推广能力的影响．基于此提出了本文优化参数的算

法．实验证明，该算法比“穷举法”复杂度要低，并且同

样达到“穷举法”得出的SVM推广识别准确率，使用

该文方法优化参数来构造SVM分类有一定意义．对

于修正量艿的选取可以更深入的研究

参考文献：

[11邓乃扬，田英杰。数据挖掘中的新方法：支持向量机[M]．北京：

科学出版社，2004．

[21李盼池，许少华．支持向量在模式识别中的核函数特性分析

[J]．计算机工程与设计，2005，26(2)：302—304．

[3]VAPINKVN．Thenatureofstatisticallearningtheory[M]．

NewYork：SpringerVerlag，2000．

[4]LUNTSA，BRAILOVSKIYV．Evaluationofattributesob—

tainedinStatisticalDecisionRules[J]．EngineeringCybemet—

ics，1967(3)：98-109．

[5]CHAPELLEO，VAPINKVN．Choosingmultipleparameters

forsupportvectormachines[J1．MachineLearning，2002，46：

13l一159．

[63LUNTSA，BRAILOVSKIYV．Evaluationofattribtesob—

tainedinstatisticaldecisionrules[J]．EngineeringCybernet—

ies，1967，3(1)：982—1009．

[71MURPHYPM，AHAIRVINEDW．CA：Universityofcali—

fornia，departmentofinformationandcomputerscience[EB／

0I。]．http：／／www．ics．uci．edu／mlearn／MLRepository．

html，1994．

[8]KEERTHIS，CHIHJ．Asymptoticbehaviorofsupportvector

machineswithgaussiankernel[J]．NeuralComputation，

2003，15：i667—1689．

(责任编辑：翁爱湘)

万方数据

基于RBF核函数的支持向量机参数选择

作者：林升梁，刘志，LINSheng-liang，LIUZhi

作者单位：林升梁,LINSheng-liang(浙江工业大学,信息工程学院,浙江,杭州,310032)，刘志,LIU

Zhi(浙江工业大学,软件学院,浙江,杭州,310032)

刊名：浙江工业大学学报

英文刊名：JOURNALOFZHEJIANGUNIVERSITYOFTECHNOLOGY

年，卷(期)：2007,35(2)

被引用次数：23次

参考文献(8条)

1.KEERTHIS;CHIHJAsymptoticbehaviorofsupportvectormachineswithgaussiankernel[外文期刊]

2003(7)

2.MURPHYPM;AHAIRVINEDWCA:Universityofcalifornia,departmentofinformationandcomputer

science1994

3.LUNTSA;BRAILOVSKIYVEvaluationofattribtesobtainedinstatisticaldecisionrules1967(01)

4.CHAPELLEO;VAPINKVNChoosingmultipleparametersforsupportvectormachines[外文期刊]2002

5.LUNTSA;BRAILOVSKIYVEvaluationofattributesobtainedinStatisticalDecisionRules1967(03)

6.VAPINKVNThenatureofstatisticallearningtheory2000

7.李盼池;许少华支持向量在模式识别中的核函数特性分析[期刊论文]-计算机工程与设计2005(02)

8.邓乃扬;田英杰数据挖掘中的新方法:支持向量机2004

引证文献(23条)

1.阿尔达克.塔西甫拉提·特依拜.张飞SAR图像盐渍地分类研究[期刊论文]-遥感信息2011(4)

2.李京华.张聪颖.倪宁基于参数优化的支持向量机战场多目标声识别[期刊论文]-探测与控制学报2010(1)

3.郭佳忱基于SVM方法的长白山森林植被信息提取的研究[期刊论文]-吉林林业科技2010(1)

4.肖莎丽.方康玲.刘斌支持向量机分类与回归算法浅析[期刊论文]-中国科技博览2010(14)

5.付元元.任东支持向量机中核函数及其参数选择研究[期刊论文]-科技创新导报2010(9)

6.李玲娟.翟双灿.郭立玮.潘永兰用支持向量机预测中药水提液膜分离过程[期刊论文]-计算机与应用化学

2010(2)

7.李玲娟.翟双灿.郭立玮.潘永兰用支持向量机预测中药水提液膜分离过程[期刊论文]-计算机与应用化学

2010(2)

8.慕晓茜.何佳.倪旭敏.段雨墨.陆昊.张作泉基于SVR的石油期货价格短期预测[期刊论文]-科学技术与工程

2010(18)

9.李志永.陈立潮.张英俊基于特征空间聚类的二叉树支持向量机分类算法[期刊论文]-计算机与数字工程2010(6)

10.靳召东.陈虹.张钲浩基于自适应遗传算法LS-SVM的网络流量预测[期刊论文]-计算机应用与软件2010(11)

11.吴冬梅.朱俊.庄新田.杨霖基于支持向量机的财务危机预警模型[期刊论文]-东北大学学报(自然科学版)

2010(4)

12.董国君.哈力木拉提·买买提.余辉基于RBF核的SVM核参数优化算法[期刊论文]-新疆大学学报（自然科学版）

2009(3)

13.叶蔚.王时龙.雷松支持向量机刀具磨损预测模型及MATLAB仿真[期刊论文]-工具技术2009(10)

14.邓超.吴军.万紫娟基于支持向量机工具的性能劣化建模方法[期刊论文]-计算机集成制造系统2009(4)

15.刘海涛.黄敏.朱启兵一种新的二叉树SVM多分类算法[期刊论文]-江南大学学报（自然科学版）2009(2)

16.刘东辉.卞建鹏.付平.刘智青支持向量机最优参数选择的研究[期刊论文]-河北科技大学学报2009(1)

17.沈丽民.李军显基于支持向量机的雷达高分辨距离像识别[期刊论文]-弹箭与制导学报2009(2)

18.张飞.塔西甫拉提特依拜.丁建丽.田源.依力亚斯江·努尔麦麦提.哈学萍结合光谱与纹理信息的SVM遥感土壤盐

渍化信息提取研究[期刊论文]-测绘科学2009(3)

19.马京华.王怀彬一种基于支持向量机和主成分分析的多光谱图像的分类方法[期刊论文]-天津理工大学学报

2008(6)

20.薛贵生.丁维明.程力基于支持向量机的煤灰结渣特性判别[期刊论文]-能源研究与利用2008(6)

21.戴波.赵晶.周炎超声波管道内检测腐蚀缺陷分类识别研究[期刊论文]-机床与液压2008(7)

22.戴波.赵晶.周炎基于支持向量机的管道腐蚀超声波内检测[期刊论文]-化工学报2008(7)

23.刘彪.王立德.申萍.王苏敬.肖强支持向量机在内燃机车燃油系统故障诊断中的应用[期刊论文]-机车电传动

2008(2)

本文链接：http://d.g.wanfangdata.com.cn/Periodical_zjgydxxb200702010.aspx

献花(0)

(本文系zhenxin608首藏)

类似文章 更多

发表评论：