2008耳912期
中图分类号:TP391
文献标识码:A
文章编号:1009—2552(2008)12—0058—03
基于主成分分析的支持向量机回归预测模型
王
磊
(辽宁工程技术大学理学院,阜新123000)
摘要:首先利用主成分分析法降低样本数据的维数,建立主成分的多元回归预测模型,其次利用支持向量机方法确定回归模型的系数,最后实例说明了该模型具有较高预测精度。关键词:主成分分析;回归系数;支持向量机
Regressionforecastmodelofsupportvectormachine
based
on
principalcomponentanalysis
Ⅵ协NGLei
University,t3vdn
(Schl00I
Abstract:Based
on
of
Science,“栅ingTechnical
based
on
123000,China)
principalcomponentanalysismethod,dimensionsofsamplesa陀reduced,multiple
principalcomponent,coefficientthe
example
ofregressionmodelis
has
regressionforecastmodelisestablishedconfirmedbyusingprecision.
supportvector
machine,fmally
showedthismodel
higherforecast
Keywords:principalcomponentanalysis;regressioncoefficient;supportvectormachine
0
引言
统计学习理论是(Statistical
learning
的多维变量。
theory)是由
设原始变量为t。,t:,…,“进行主成分分析后
得到的主成分(综合变量)为石,,髫:,…,髫。(m<P)它们是t,,t:,…,k的线性组合。新变量z。,聋:,…,
Wpnik…等人建立的一种专门研究小样本情况下机器学习规律的理论,支持向量机(Support
vector
machines,svM)是在这一理论基础上发展起来的一种新的分类和回归工具。支持向量机通过结构风险
最小化原理来提高泛化能力。己在模式识别、信号处理、函数逼近等领域得到了应用[2J。在一些复杂系统预测中,经常涉及到多维数据,但维数高会影响到模型的建立和预测效果,因此本文先利用主成分分析方法把原来多维样本划为少数几个综合指标低维样本,提取包含样本数据信息的主元,降低样本空问的维数。然后利用SVM对样本进行训练,得到最优的回归预测模型。l
石。构成的坐标系是在原坐标系经平移和正交旋转
后得到的,称茗。,石:,…,茗。空间为m维主超平面。在
主超平面上。第一主成分茹.对应于数据变异(贡献率e1)最大的方向。对石2,石3,…,菇。依次有e2≥…≥e。。
因此,舅。是携带原始数据信息最多的一维变量。而m维主超平面是保留原始数据信息量最大的m维子空间。
主成分分析法的步骤如下:
①为了排除数量级和量纲不同带来的影响。首先对原始数据进行标准化处理
t79=(ti—f。)/ai
(i=l,2,…,P;_『=1,2,…,rt)
收稿日期:2008—04—07
作者简介:王磊(1978一),男,讲师,硕士,研究方向为模糊微分方
程,模式谚l别,
主成分分析法
主成分分析法旨在力保原始数据信息丢失最小
(1)
的情况下,对高维变量空间进行降维处理。即在保证原始数据信息损失最小的前提下,经过线性变换
和舍弃部分信息。以少数的综合变量取代原有一58一
万方数据
式中tF为第i个指标第.『个样本的原始数据;L和吼分别为第个指标的样本均值和标准差。
②根据标准化数据表(f7F)Ⅲ计算相关系数矩
阵足=(~)px^,
-
n
其中,o=il∑(缸一瓦)(啊一乃)/d;町
(2)
。’七=1
③计算R的特征值和特征向量。根据特征方程I足一A,I=0计算特征根.=I,并使其从大到小排列,
.:I。,A2,…,|;I,,同时可得对应的特征向量取。,印2,…,坼。将它们标准正交:M。,u:,…,‰称为主轴。
④计算贡献率
e;:{L和累计贡献率如:
0
3∑A;
。∑学∑㈦
丸一丸
⑤计算主成分算。=∑M私
(4)
J=1
这时各主成分相互独立。
⑥综合分析。可以通过求累计贡献率B来判断,一个m维主超平面究竟以多大的精度来近似代
替原始变量系统才能确保尽可能多的原始数据信
息。一般取厶>85%的最小m(m<P),则可得主超平面的维数m,从而可对m个主成分进行综合
分析。2
基于主成分分析的支持向量机回
归预测模型
.-
根据公式(4)得到如下的数据对(X,,,,。),(五,
Y2),…,(五,孔),其中Z为样本的个数计算所得的
主成分建立回归模型
Y=tt,1石l+tt,2茗2+…+埘m石珥+,b
(5)
将模型(5)简记为下面的回归预测模型八x)=<W・X>+b
(6)
其中W=(tcIl,102,…,tl,。),X=(石1,菇2,…,戈。)7,<W・X>表示形与X的内积。最优化问题为:
rain去0形0
2
柚-6
‘
s.t.儿一<W・置>一b≤£
<W・五>+b一九≤e,i=l,2,…,Z(7)对线性数据集,VC维满足b】
h≤Il形0
2
r2+1
(8)
其中:r为包络训练样本数据的最小球半径,因此
万
方数据(7)式的最优化问题中,最小化{|J形}J
2意味着最
小化VC维,同时训练误差作为最优化问题的约束条件,因此(7)式的最优化问题体现了SVM的思想,由此得到的回归估计函数具有较好的泛化能力。约束
条件不可实现时,可引入松弛变量,这样(7)式写为
l
删凳剖1
W
hc苫(£4-拿?)
s.t.儿一<W・墨>一b≤e4-£
<W・五>+b一弗≤e4-手?
£≥0,e?≥0f=1,2,…,Z
(9)
其中C>0为惩罚系数,C越大表示小对超出£管道
数据点的惩罚越大。采用拉格朗日乘子法求解这个
具有线性不等式约束的二次规划问题,
.
j
即
。.焉.唔睁2剖肜hc∑i=1(£+e?)一
l
∑Oti(e+£一Yl+<W・墨>+6)一∑口;(e+弘?+竹一<W・墨>一6)一
∑(雕4-p?e?)
(10)
其中a;,口?,晟,p:≥0,i=1,2,…,z为拉格朗日乘子。在寻优目标函数中,采用适当的内积函数k<五・五>就可以实现某一非线性变换后的线性回归H】。支持向量机回归方法的特效在于,通过引入点积核函数k<五・蜀>和利用Wo璩对偶技巧避开了维数灾难和目标函数不可微问题。因此目标函数
变为:
.
1l
m吁{厶=一专∑∑(口;一Ogi’)(呵一
a,口
-i=1』=1
口j)<五五>一£∑(口;+口?)+
f
∑Yi(口;一口?)}
i=1
.
s.t.∑(口i一口j)=0
0≤口f≤C,0≤口?≤C(11)
根据最优化的充要条件(KKT条件),求得相应
的回归估计函数
八x)=∑(口;一口?)<五・X>+b(12)
J‘∈Sy
其中sV为支持向量集。由以上推导过程可以看出,通过选择不同的£和C可以调整回归曲线的拟合精度。
一59—
3
实例仿真
.
国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或者地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对外汇旅游收入的影响。《中国统计年鉴》把第三产业划为12个组成部分,分别为t。农林牧渔服务业,t:地质勘查水利管理业,t,交通运输仓储和邮电通信业,t。批发零售贸易和餐饮业,t。金融保险业,t。房地产业社会服务业,t,社会服务业,t。卫生体育和社会福利业,t。教育文化艺术和广播,t,。科学研究和综合艺术,t,。党政机关,t。:其他行
业。选取1998年我国31个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量,以如上12
个行业为自变量作多元回归,数据见文献[5],其中自变量单位为亿元人民币。
对以上数据利用SPSS统计软件得到,两个主成
分,分别为
茗1=0.209tl+0.248t2+0.161t3+0.134t4—
0.049t5—0.074t6+0.029t7+0.122t8+
0.071t9—0.279tlo+0.215tn+0.099t12
石2=一0.148tl一0.213t2—0.04t3+0.002t4+
0.265t5+0.296t6+0.144t7+0.020t8+0.104t9—0.524tlo一0.127t11—0.031t12
即将12维数据降低到了2维数据,下面根据所得的2维数据建立支持向量机回归预测模型
八x)=埘l・石l+埘2・菇2+b
本文选取31个样本数据的前21个数据作为训练数据,后10个数据作为测试数据。利用软件包
libsvm【6J,选择参数为:C=10,£=0.01,经计算得到
17个支持向量(其中有14个边界向量)。得到预测值与真实值的对比如表1所示。
衰l
国际旅游外汇收入实际值与预测值对比
一60一
万
方数据从表中数据可以看出预测精度比较高。通过改
变C和e的值来控制泛化能力的界。
4
结束语
支持向量机回归建模是将低维非线性的输入映
射到高维线性的输出,模型简单,具有良好的应用前景。同时,SVM算法及对应的统计学习理论提出了小样本统计学问题,为解决有限样本情况下机器学习问题提供了有力的理论基础。本文的研究结果表明SVM应用到国际旅游外汇收入预测中,具有较高的精度。参考文献:
[1]ComesC,V掣rak
V.Support
vector
m鼬[J].MachineI鲫iIlg,
1995,20:273—297.
[2]杜树新,吴铁军.模式识别中的支持向量机方法[J].浙江大学
学报:工学版,2003,37(5):403—409.[3]Wang
X
L,Tang"IS.TheResearch0fIntegratedTechnique∞Intelli-
gent
Control
System[c].Proe.of
IEEE
ICIT’96.sh∞鲥.Tonal
University,1996:638—642.
[4]c8l叩bell.C・Kernelmethods:a
survey
d
em'relat
tech—niqu∞[J】.
Neurocomptlting,2002,48:63—84.
[5]何晓群。刘文卿.应用回归分析[M].北京:中国人民大学出版
社.2001.
[6]Oaih.Chung蛐,Chih—J∞Lin.L1BSVM:alibraryforrapport
vector
maehir目[ER/OL].【抛1].http://vmw・esie・ntu・edu・tw/.ejlin/l‰.
责任编辑:肖滨
基于主成分分析的支持向量机回归预测模型
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
王磊, WANG Lei
辽宁工程技术大学理学院,阜新,123000信息技术
INFORMATION TECHNOLOGY2008(12)1次
参考文献(6条)
1. Chih-Chung Chang;Chih-Jen Lin LIBSVM:a library for support vector machines2. 何晓群;刘文卿 应用回归分析 2001
3. Camp bell C@Kernel methods:a survey of current tech-niques 2002
4. Wang X L;Tong TS The Research of Integrated Technique on Intelligent Control System 19965. 杜树新;吴铁军 模式识别中的支持向量机方法[期刊论文]-浙江大学学报(工学版) 2003(05)6. Comes C;Vapnik V Support vector networks 1995
引证文献(1条)
1. 许后磊. 郑东健 混合核SVM模型在大坝位移预测中的应用[期刊论文]-水力发电 2010(4)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_xxjs200812019.aspx