基于主成分分析的支持向量机回归预测模型 - 范文中心

基于主成分分析的支持向量机回归预测模型

06/20

2008耳912期

中图分类号:TP391

文献标识码:A

文章编号:1009—2552(2008)12—0058—03

基于主成分分析的支持向量机回归预测模型

(辽宁工程技术大学理学院,阜新123000)

摘要:首先利用主成分分析法降低样本数据的维数,建立主成分的多元回归预测模型,其次利用支持向量机方法确定回归模型的系数,最后实例说明了该模型具有较高预测精度。关键词:主成分分析;回归系数;支持向量机

Regressionforecastmodelofsupportvectormachine

based

on

principalcomponentanalysis

Ⅵ协NGLei

University,t3vdn

(Schl00I

Abstract:Based

on

of

Science,“栅ingTechnical

based

on

123000,China)

principalcomponentanalysismethod,dimensionsofsamplesa陀reduced,multiple

principalcomponent,coefficientthe

example

ofregressionmodelis

has

regressionforecastmodelisestablishedconfirmedbyusingprecision.

supportvector

machine,fmally

showedthismodel

higherforecast

Keywords:principalcomponentanalysis;regressioncoefficient;supportvectormachine

引言

统计学习理论是(Statistical

learning

的多维变量。

theory)是由

设原始变量为t。,t:,…,“进行主成分分析后

得到的主成分(综合变量)为石,,髫:,…,髫。(m<P)它们是t,,t:,…,k的线性组合。新变量z。,聋:,…,

Wpnik…等人建立的一种专门研究小样本情况下机器学习规律的理论,支持向量机(Support

vector

machines,svM)是在这一理论基础上发展起来的一种新的分类和回归工具。支持向量机通过结构风险

最小化原理来提高泛化能力。己在模式识别、信号处理、函数逼近等领域得到了应用[2J。在一些复杂系统预测中,经常涉及到多维数据,但维数高会影响到模型的建立和预测效果,因此本文先利用主成分分析方法把原来多维样本划为少数几个综合指标低维样本,提取包含样本数据信息的主元,降低样本空问的维数。然后利用SVM对样本进行训练,得到最优的回归预测模型。l

石。构成的坐标系是在原坐标系经平移和正交旋转

后得到的,称茗。,石:,…,茗。空间为m维主超平面。在

主超平面上。第一主成分茹.对应于数据变异(贡献率e1)最大的方向。对石2,石3,…,菇。依次有e2≥…≥e。。

因此,舅。是携带原始数据信息最多的一维变量。而m维主超平面是保留原始数据信息量最大的m维子空间。

主成分分析法的步骤如下:

①为了排除数量级和量纲不同带来的影响。首先对原始数据进行标准化处理

t79=(ti—f。)/ai

(i=l,2,…,P;_『=1,2,…,rt)

收稿日期:2008—04—07

作者简介:王磊(1978一),男,讲师,硕士,研究方向为模糊微分方

程,模式谚l别,

主成分分析法

主成分分析法旨在力保原始数据信息丢失最小

(1)

的情况下,对高维变量空间进行降维处理。即在保证原始数据信息损失最小的前提下,经过线性变换

和舍弃部分信息。以少数的综合变量取代原有一58一

万方数据 

式中tF为第i个指标第.『个样本的原始数据;L和吼分别为第个指标的样本均值和标准差。

②根据标准化数据表(f7F)Ⅲ计算相关系数矩

阵足=(~)px^,

其中,o=il∑(缸一瓦)(啊一乃)/d;町

(2)

。’七=1

③计算R的特征值和特征向量。根据特征方程I足一A,I=0计算特征根.=I,并使其从大到小排列,

.:I。,A2,…,|;I,,同时可得对应的特征向量取。,印2,…,坼。将它们标准正交:M。,u:,…,‰称为主轴。

④计算贡献率

e;:{L和累计贡献率如:

3∑A;

。∑学∑㈦

丸一丸

⑤计算主成分算。=∑M私

(4)

J=1

这时各主成分相互独立。

⑥综合分析。可以通过求累计贡献率B来判断,一个m维主超平面究竟以多大的精度来近似代

替原始变量系统才能确保尽可能多的原始数据信

息。一般取厶>85%的最小m(m<P),则可得主超平面的维数m,从而可对m个主成分进行综合

分析。2

基于主成分分析的支持向量机回

归预测模型

.-

根据公式(4)得到如下的数据对(X,,,,。),(五,

Y2),…,(五,孔),其中Z为样本的个数计算所得的

主成分建立回归模型

Y=tt,1石l+tt,2茗2+…+埘m石珥+,b

(5)

将模型(5)简记为下面的回归预测模型八x)=<W・X>+b

(6)

其中W=(tcIl,102,…,tl,。),X=(石1,菇2,…,戈。)7,<W・X>表示形与X的内积。最优化问题为:

rain去0形0

柚-6

s.t.儿一<W・置>一b≤£

<W・五>+b一九≤e,i=l,2,…,Z(7)对线性数据集,VC维满足b】

h≤Il形0

r2+1

(8)

其中:r为包络训练样本数据的最小球半径,因此

万 

方数据(7)式的最优化问题中,最小化{|J形}J

2意味着最

小化VC维,同时训练误差作为最优化问题的约束条件,因此(7)式的最优化问题体现了SVM的思想,由此得到的回归估计函数具有较好的泛化能力。约束

条件不可实现时,可引入松弛变量,这样(7)式写为

删凳剖1

hc苫(£4-拿?)

s.t.儿一<W・墨>一b≤e4-£

<W・五>+b一弗≤e4-手?

£≥0,e?≥0f=1,2,…,Z

(9)

其中C>0为惩罚系数,C越大表示小对超出£管道

数据点的惩罚越大。采用拉格朗日乘子法求解这个

具有线性不等式约束的二次规划问题,

。.焉.唔睁2剖肜hc∑i=1(£+e?)一

∑Oti(e+£一Yl+<W・墨>+6)一∑口;(e+弘?+竹一<W・墨>一6)一

∑(雕4-p?e?)

(10)

其中a;,口?,晟,p:≥0,i=1,2,…,z为拉格朗日乘子。在寻优目标函数中,采用适当的内积函数k<五・五>就可以实现某一非线性变换后的线性回归H】。支持向量机回归方法的特效在于,通过引入点积核函数k<五・蜀>和利用Wo璩对偶技巧避开了维数灾难和目标函数不可微问题。因此目标函数

变为:

1l

m吁{厶=一专∑∑(口;一Ogi’)(呵一

a,口

-i=1』=1

口j)<五五>一£∑(口;+口?)+

∑Yi(口;一口?)}

i=1

s.t.∑(口i一口j)=0

0≤口f≤C,0≤口?≤C(11)

根据最优化的充要条件(KKT条件),求得相应

的回归估计函数

八x)=∑(口;一口?)<五・X>+b(12)

J‘∈Sy

其中sV为支持向量集。由以上推导过程可以看出,通过选择不同的£和C可以调整回归曲线的拟合精度。

一59—

实例仿真

国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或者地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对外汇旅游收入的影响。《中国统计年鉴》把第三产业划为12个组成部分,分别为t。农林牧渔服务业,t:地质勘查水利管理业,t,交通运输仓储和邮电通信业,t。批发零售贸易和餐饮业,t。金融保险业,t。房地产业社会服务业,t,社会服务业,t。卫生体育和社会福利业,t。教育文化艺术和广播,t,。科学研究和综合艺术,t,。党政机关,t。:其他行

业。选取1998年我国31个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量,以如上12

个行业为自变量作多元回归,数据见文献[5],其中自变量单位为亿元人民币。

对以上数据利用SPSS统计软件得到,两个主成

分,分别为

茗1=0.209tl+0.248t2+0.161t3+0.134t4—

0.049t5—0.074t6+0.029t7+0.122t8+

0.071t9—0.279tlo+0.215tn+0.099t12

石2=一0.148tl一0.213t2—0.04t3+0.002t4+

0.265t5+0.296t6+0.144t7+0.020t8+0.104t9—0.524tlo一0.127t11—0.031t12

即将12维数据降低到了2维数据,下面根据所得的2维数据建立支持向量机回归预测模型

八x)=埘l・石l+埘2・菇2+b

本文选取31个样本数据的前21个数据作为训练数据,后10个数据作为测试数据。利用软件包

libsvm【6J,选择参数为:C=10,£=0.01,经计算得到

17个支持向量(其中有14个边界向量)。得到预测值与真实值的对比如表1所示。

衰l

国际旅游外汇收入实际值与预测值对比

一60一

万 

方数据从表中数据可以看出预测精度比较高。通过改

变C和e的值来控制泛化能力的界。

结束语

支持向量机回归建模是将低维非线性的输入映

射到高维线性的输出,模型简单,具有良好的应用前景。同时,SVM算法及对应的统计学习理论提出了小样本统计学问题,为解决有限样本情况下机器学习问题提供了有力的理论基础。本文的研究结果表明SVM应用到国际旅游外汇收入预测中,具有较高的精度。参考文献:

[1]ComesC,V掣rak

V.Support

vector

m鼬[J].MachineI鲫iIlg,

1995,20:273—297.

[2]杜树新,吴铁军.模式识别中的支持向量机方法[J].浙江大学

学报:工学版,2003,37(5):403—409.[3]Wang

L,Tang"IS.TheResearch0fIntegratedTechnique∞Intelli-

gent

Control

System[c].Proe.of

IEEE

ICIT’96.sh∞鲥.Tonal

University,1996:638—642.

[4]c8l叩bell.C・Kernelmethods:a

survey

em'relat

tech—niqu∞[J】.

Neurocomptlting,2002,48:63—84.

[5]何晓群。刘文卿.应用回归分析[M].北京:中国人民大学出版

社.2001.

[6]Oaih.Chung蛐,Chih—J∞Lin.L1BSVM:alibraryforrapport

vector

maehir目[ER/OL].【抛1].http://vmw・esie・ntu・edu・tw/.ejlin/l‰.

责任编辑:肖滨

基于主成分分析的支持向量机回归预测模型

作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:

王磊, WANG Lei

辽宁工程技术大学理学院,阜新,123000信息技术

INFORMATION TECHNOLOGY2008(12)1次

参考文献(6条)

1. Chih-Chung Chang;Chih-Jen Lin LIBSVM:a library for support vector machines2. 何晓群;刘文卿 应用回归分析 2001

3. Camp bell C@Kernel methods:a survey of current tech-niques 2002

4. Wang X L;Tong TS The Research of Integrated Technique on Intelligent Control System 19965. 杜树新;吴铁军 模式识别中的支持向量机方法[期刊论文]-浙江大学学报(工学版) 2003(05)6. Comes C;Vapnik V Support vector networks 1995

引证文献(1条)

1. 许后磊. 郑东健 混合核SVM模型在大坝位移预测中的应用[期刊论文]-水力发电 2010(4)

本文链接:http://d.g.wanfangdata.com.cn/Periodical_xxjs200812019.aspx


相关内容

  • 先进控制技术及应用
    先进控制技术及应用 作者: 发布时间:2008-02-04 04:04:41 来源: 繁体版 访问数: 4857 在工业生产过程中,一个良好的控制系统不但要保护系统的稳定性和整个生产的安全,满足一定约束条件,而且应该带来一定的经济效益和社会 ...
  • 使用卷积网络估计三维形状的正朝向
    中圈料孽艘求大誊使用卷积网络估计三维形状的正朝向作者姓名:刘子舜学科专业:计算数学导师姓名:文lJ禾lJ网IJ教授完成时间:二.一六年五月硕士学位论文 UniversityofScienceandTechnologyofChinaAdiss ...
  • 支持向量回归简介
    支持向量回归简介 人类通过学习,从已知的 事实中分析.总结出规律,并且根据规律对未来的现象或无法观测的现象做出正确的预测和判断,即获得认知的推广能力.在对智能机器的研究当中,人们也希望能 够利用机器(计算机)来模拟人的良好学习能力,这就是机 ...
  • 向量自回归模型简介
    一.Var模型的基本介绍 向量自回归模型(Vector Autoregressive Models,VAR)最早由Sims(1980)提出.他认为,如果模型设定和识别不准确,那么模型就不能准确地反应经济系统的动态特性,也不能很好地进行动态模 ...
  • 出版社的资源配置优化模型
    出版社的资源配置优化模型 黄朝国 项 丽 晋宗义 指导老师 杨桂元 杨 凌 [摘要]本文讨论了出版社资源配置优化的问题.根据2001-2005年的数据,运用灰色预测方法预测出2006年各个分社计划书号数作为进一步建模的参考值.针对不同的目标 ...
  • 空间统计及计量方法学习笔记
    空间统计及计量方法学习笔记 1. 背景及文献综述 ....................................................... 2 2. 空间效应 ............................. ...
  • 化工仿真软件发展的技术趋向
    化工仿真发展的技术趋向 许正宇 中国化工信息中心, 北京(100029) 摘 要:本文回顾了三十年来化工过程的模拟技术的发展过程.阐述了新一代仿真模拟软件发展和集成的方向.仿真模拟软件发展的趋势是采用更加开放式的环境.稳态模拟和动态模拟的结 ...
  • 我国股指期货价格发现功能研究
    第29卷第5期2012年5月统计研究 StatisticalResearchVol.29,No.5May.2012 我国股指期货价格发现功能研究 方匡南 蔡振忠 * 内容提要:本文基于沪深300股指期货5分钟高频数据,利用协整检验.误差修正 ...
  • 第8章空间计量交互模型处理及现实研究拓展
    空间计量经济学导论(詹姆斯.勒沙杰)课件 范 巧 fanqmn@hotmail.com 重庆科技学院经济系 小范经济工作室 在经济学的边缘上 拟讲授的主要内容  流量矩阵及传统引力模型设定  空间自回归交互模型设定及参数性质  空间自 ...