一种大规模样本数据的特征提取方法

第18卷第4期　

2003年12月

天津轻工业学院学报

JOU RNA L OF T IA NJIN U NI VERSIT Y O F L IGHT IN DU ST RY

V ol . 18　No . 4Dec . 　2003

一种大规模样本数据的特征提取方法

王　萍, 王汉芝, 岳　斌, 林孔元, 刘还珠

(1. 天津大学电气与自动化工程学院, 天津300072; 2. 国家气象中心, 北京100081)

摘　要:针对沙尘暴样本数据的特点, 根据专家经验依次通过聚类分析、建立典型模式类、计算中心场, 再以样本与中心场的距离作为样本的特征, 成功地在每个样本的几百个数据中提取到40个特征。通过对提取特征的统计检验, 说明了本文所用方法的有效性; 同时, 提出了一种建立在K -L 变换基础上的特征综合方法, 协助完成关于多维特征的类间差异检验。关键词:特征提取; 假设检验; K -L 变换

中图分类号:T P18　　　文献标识码:A 　　　文章编号:1001-456X (2003) 04-0048-05

A METHOD OF EXTRACTING FEATURES FR OM LARGE S CALE

PATTERNS

WANG Ping , WANG Han -zhi , YUE Bin , LIN Kong -yuan , LIU Huan -zhu (1. School of Electric Engineering and Automation , Tianjin University , Tianjin 300072, China ; 2. National M eteorological Center . Beijing 100081, China )

Abstract :The statistic and analysis of hig h -dimension data is the important difficulty in the present application and theory of statistics . According to the characteristic of patterns da ta and exper t ' s experience , clustering and selecting typical patterns and calcula ting central fields are performed in sequence . Then using the distances between every sample and the central fields as features o f the sample , 40pieces of features are ex tracted from hundreds o f data successfully . T he validity of the method throug h w hich features are ex tracted is proved by the results o f statistic analy sis for the features . At the same time , the method to integra te features based on K -L transform is broug ht fo rward . which help us to fulfill the test to the difference of multi -dimensio n features be tw een pat -tern classes .

Keywords :extracting features ; hy pothesis test ; K -L T ransform

　　现代科学技术和社会经济的许多领域都遇到高维数据的统计分析问题, 例如, 雷达网、信息网等接受和

传输的信号数据, 卫星遥感观测的图像数据, 人口、企业、教育、科技、医疗卫生等社会调查数据, 以及股市、保险、信用卡、房地产等经济金融数据, 都是维数很高、结构十分复杂的数据。对这些问题, 统计学工作者和实际领域中的数据分析工作者进行了许多有效的研究, 但因缺乏完整系统的理论, 目前普遍采用针对具体问题特点的分析研究方法。另外, 由于直接分析高维数据的困难, 以及高维数据中的信息往往包含在一个或几个低维结构中的较普遍规律, 降维是分析高维数

据的一个重要手段。传统的主成分分析法, Fisher 判断等都可用于降维, 但它们更适用于呈线性结构的数据群。70年代中开始的投影寻踪是具有一定普遍意义的较好的降维技术, 90年代初提出的切片逆回归也是一种降维方法, 但这里有几个难点, (1) 怎样针对一类实际问题确定寻找低维结构的准则; (2) 如何判断所找到的低维结构是否真实; (3) 计算问题, 因为真正可用于高维复杂数据的降维方法计算量都很大, 而且往往不能一步到位, 需要多次反复[1][2][3]。

　　本文针对沙尘暴样本数据的特点, 提出一种大规模二维数据样本的基于聚类的特征提取方法, 成功地

收稿日期:2003-04-24萍() , 女, , , 、。

　2003年12月　　　王　萍, 等:一种大规模样本数据的特征提取方法

·49·

将855维数据降为40维, 同时计算量相对较小。为检验低维结构的合理性, 利用主成分分析及其结果的综合, 进行降维后样本的类间显著性差异的检验, 得到令人满意的结果。

高度、风和位温的一种趋势。单就每个物理场而言, 在众多的样本之间有着不同的走向和分布, 3种物理场联合起来, 便组合出多种类型。其中, 某些类型应该与沙尘暴天气密切相关。1. 2　建立沙尘暴子模式

　　利用自组织特征映射网络聚类方法对1981～1997年242个强沙尘暴日(出现沙尘暴的站点数目为9以上的沙尘暴日) 样本进行聚类。

　　根据专家经验, 高度值场分为2类、高度形场分为3类、风形场分为2类、位温形场分为2类。于是形成如下聚类策略。

　　首先, 根据高度值场将样本集聚为2类, 再对上述样本根据高度形场聚成3类, 这样整个样本集被聚为2×3=6类; 将以上六类的每一类根据风形场聚为两类, 共得6×2=12类; 再将以上12类的每一类根据位温形场聚为两类。这样, 242个样本被聚为6×2×2=24种类型, 聚类结果列于表1中。

1　特征提取

1. 1　沙尘暴样本的数据规模

　　原始资料取于美国环境气象中心每天所提供的资料(NCEP ) , 它为格点场数据阵。通过对沙尘暴的成

因[4]进行分析, 其因素主要体现在4个物理格点场上, 即高度值场、高度形场、位温形场和风形场。其中, 前三个物理场的数据总数为171个, 后一个物理场为342, 于是每个样本的数据规模高达171×3+342=855。若简单地将样本数据数量等同于样本维数, 沙尘暴样本数据维数则高达855。

　　具有855维数据的沙尘暴样本, 每一个样本的单个数据并不具有实在的意义, 而它们的组合则反映了

类别号[***********][1**********]111

样本数3549081760

站点数10～8013～5511～63010～3511～6710～330

备注子类1其他子类2其他其他子类3其他其他

类别号[***********][1**********]011

样本数[1**********]01

表1　聚类结果

站点数010～2510～4110～2110～5810～2710～5718

备注其他子类4子类5其他子类6其他子类7其他

类别号[***********][1**********]211

样本数[1**********]

站点数010～2410～3710～150181010～49

备注其他子类8子类9其他其他其他其他子类10

　　表中类别号的四位数字中, 第一位到第四位依次表示高度值场的类型、高度形场的类型、风形场的类型和位温形场的类型。例如1211表示其样本属于高度值场的第2类, 高度形场的第3类, 风形场的第2类和位温形场的第2类。

　　各子类中聚集的样本数有很大差异, 大体有以下几种情况:

　　(1) 样本数为0。如0111类型出现的概率为0; 　　(2) 样本数少。如0110类型出现的概率很小; 　　(3) 样本数多。如0000、1211等类型出现的概率大; 　　(4) 样本数据量相对较多且含有特别严重的沙尘暴类型。如0010类型的样本中的1983年4月28日出现沙尘暴的站点数高达63个。

　　样本数较多的子类客观上反映了3种物理场各自

特定格局的组合与沙尘暴天气的联系, 应该作为典型的沙尘暴模式。而那些样本数相对较多且包含着历史上特别严重的沙尘暴天气的子类, 其物理场组合格局不容忽略, 也作为典型的沙尘暴模式, 由此从24个聚类结果中筛选山10个沙尘暴子类(模式) 如表1所示。1. 3　提取沙尘暴模式特征

　　借助沙尘暴的10个子模式, 可以建立起这样的概念, 一种子模式下的四种物理场能够表征一类沙尘暴天气, 10个模式下全部物理场联合起来可以鉴别沙尘暴和非沙尘暴样本。于是, 首先计算10个沙尘暴模式的高度值场、高度形场、位温形场和风形场的中心场共计40个(C ij , i =1, 2, …, 10, j =1, 2, 3, 4) 。计算公式如下:

·50·

l )

　　　c ij (k ) ∑x (k ) (1) j (n l =1　　其中　n —样本个数; i =1, 2, …,10; j =1, 2, 3, 4; k 1, 2, …, 342　风形的中心场

1, 2, …, 171　其他中心场l )

　　x j (k )—第l 个样本的第j 个格点阵的第k 个

天津轻工业学院学报　第18卷　第4期　

2. 2　强沙尘暴与非沙尘暴之间的显著性检验2. 2. 1　40个特征

　　沙尘暴样本的特征提取是建立沙尘暴预报模型的

前提, 能明确区分强沙尘暴与非沙尘暴是40个特征的真正意义所在, 若针对每一个特征组织两类样本集之间的方差检验, 检验结果如表3所示, 在α=0. 01的情况下, F 0. 1, ∞) =6. 63其中标＊的为差异不明显01(特征, 从表3中结果可以看出, 60%的特征对沙尘暴和非沙尘暴而言, 不单独具有分类能力。对此可以解释如下:从特征提取的过程可以看出, 每一沙尘暴子模式都具有4个中心场, 通过计算样本的值或形的4个格点场与相应中心场的欧式距离得到4个特征, 10个模式得到40个特征, 其中每4个特征出于同一个模式, 应该是这4个特征的联合而不是单独某1个特征体现沙尘暴与非沙尘暴之间的差异。例如, 沙尘暴日和非沙尘暴日可能具有相似的风场分布。

表3　强沙尘暴与非沙尘暴间40个特征的检验结果

特征＊1＊2＊34＊5＊6＊7＊8＊9＊10

F 3. 150. 384. 1611. 355. 692. 494. 461. 612. 580. 45

特征＊11＊12＊13＊14＊15＊16＊17181920

F 5. 440. 900. 014. 223. 046. 620. 1911. 0949. 1932. 40

特征21＊2223＊2425＊2627＊2829＊30

F 26. 000. 0215. 113. 3018. 191. 837. 220. 189. 835. 27

特征＊[1**********]6＊3738＊3940

F 0. 2415. 826. 8115. 1635. 6440. 782. 6630. 242. 0135. 76

格点数据;

　　c ij (k ) —中心场C ij 的第k 个格点数据。

　　然后计算样本的4个物理场的格点阵与每个子模式(10个) 的4个中心场的相似度, 并将每一个相似度记为该样本的一个特征取值。40个特征则构成样本的特征向量Z 。　　　Z =(z 11, z 12, z 13, z 14, …, z 10, 1, z 10, 2, z 10, 3, z 10, 4)

　　　　　z ij =

k =1

(x j (k )-c ij (k ) ) ∑

(2)

　其中　i =1, 2, …, 10; j =1, 2, 3, 4;

342　风形的中心场m 171　其他中心场

2　统计检验[5]

2. 1　沙尘暴模式间的显著性检验

　　为分析由式(2) 定义的40个特征能否反映沙尘暴模式间的差异, 利用192个沙尘暴样本(10个子模式涉及的样本数) 进行方差检验, 表2为方差检验的结果(a =0. 01, F a (9. 182) =2. 52) 。检验结果表明10个沙尘暴模式间具有显著性差异。这说明具有855个数据的样本用40维距离特征描述之后, 类别间的差异被显著性地体现出来, 同时进一步验证了前面聚类策略及聚类结果的合理性。

表2　模式间的检验结果

特征[1**********]

F 54. 3530. 1258. 8177. 5224. 3518. 1461. 5942. 5831. 0720. 40

特征[***********]20

F 16. 4630. 6823. 6713. 0926. 6521. 3716. 6517. 4335. 0419. 53

特征[***********]30

F 15. 1117. 0455. 9046. 4322. 7821. 0367. 3837. 1619. 169. 02

特征[***********]40

F 18. 1918. 4534. 7720. 7126. 6525. 6441. 8932. 3541. 92106. 65

2. 2. 2　10个特征

　　借助主成分分析法可以使高维样本通过降维得到简化, 并尽量保留原变量的信息量, 主成分分析有消除相关、降维的功能

[6]

。利用主成分分析法将出于同一

沙尘暴子模式的4个特征进行综合, 得到10个综合特

征。选择81～89年的863个样本, 对这10个综合特征进行非沙尘暴和强沙尘暴间的显著性差异检验。具体做法如下:

　　(1) 主成分分析(K -L 变换) 。　　　(z i 1　z i 2　z i 3　z i 4)

(主成分分析)

　　其中, i =1, 2, …, 10为子模式序号; j =1, …, 4为特征值序号; y ij =a ij Z i =a ij 1z i 1+…+a ij 4z i 4为特征值

　2003年12月　　　王　萍, 等:一种大规模样本数据的特征提取方法

·51·

　　(2) K -L 变换结果分析及特征综合:

　　根据特征值λi j 能够表示主成分y ij 包含的分类信息的特点, 求出第1主成分y i 1表示分类信息总量的比例如表4所示。

表4　y i 1能够表示的分类信息量

模式[1**********]

特征值λ10. 00450. 00520. 00520. 00900. 01350. 00470. 00420

. 00680. 00950. 0045

能征值λ20. 01460. 001610. 01640. 01510. 03160. 01860. 01490. 01630. 02040. 0166

能征值λ30. 01870. 02970. 02630. 02940. 04170. 03720. 04070. 04090. 04370. 0286

能征值λ40. 15350. 13400. 12560. 12560. 08920. 10300. 10550. 10840. 08990. 1456

λ4/

本分布更集中、分布范围明显减小。

i =1

∑λi

80. 24%72. 43%72. 39%70. 13%50. 68%63. 00%63

. 82%62. 88%54. 98%74. 55%

(a ) 关于第1主成分

　　可以看出, 若取y i 1作为样本特征中与模式i 相关

的4个特征的综合, 则舍弃分类信息较大, 约(20～50) %,为此设计特征综合方案如下:

　　将模式类i 的4个主成分(特征) 综合, 即令:　　　y i =b i 1y i 1+…+b i 4y i 4。

λij

　　确定权系数b ij , 则

λisum

λi 1λi 2λi 3λi 4

　　　y i i 1i 2y i 3i 4(3)

λisum λi sum λisum λi sum

式中λD (y ij ) 为主成分分量y ij 所代表的分类信息, ij =λisum =

y ij ) =D (y i ) 为总分类信息。ij =∑D (∑λ

j =1

(b ) 关于综合特征

图1　模式7的样体分布

　　(3) 统计检验:

　　设α=0. 01, 利用综合特征展开沙尘暴与非沙法暴类间的显著性检验, 检验结果列于表5中。其中, 符

号“＊”表示相应特征关于沙尘暴和非沙尘暴两类差异不明显。

　　从统计检验的结果看, 强沙尘暴的差异总体上比较显著。这表明, 本文所讨论的特征提取方法是成功的, 提取的特征是有效的。

图1分别给出了沙尘暴样本特征的第1主成分(特征) 和综合特征的分布图示例, 可以看出, 在综合指标下样

表5　强沙尘暴和非沙尘暴间10个特征的检验结果

子类综合特征y i

方差检验(F 0. 1861) =6. 63) 01(均值检验(t 0. 861) =2. 58) 01(

＊

y 1

y 224. 224. 92

y 310. 003. 16

y 440. 816. 39

y 531. 045. 57

y 6101. 6110. 08

y 7117. 7410. 85

y 845. 846. 77

＊

y 9y 1026. 185. 12

0. 050. 22

3. 631. 91

3　结束语

　　面对众多数据的沙尘暴样本, 用聚类方法找出多

个沙尘暴子类, 用中心场代表子类模式, 用样本与各子

模式的距离作特征值, 得到沙尘暴样本的特征向量, 这一提取特征的思路可为同类问题提供借鉴。用统计方法在沙尘暴子类间、强沙尘暴/非沙尘暴间对所提特征进行显著性差异检验, 检验结果令人满意。在检验过程中, 从分析不同特征之间的关系出发, 将40个特征

·52·

划分为子类特征和综合特征两个层次, 以及建立在主成分分析法基础上的特征综合和检验结果, 对更科学地建立沙尘暴预报模型具有指导意义。参　考　文　献:

[1]　李国英. 关于高维、相依和不完全数据的统计分析[J ]. 数

学进展. 2002, 1(6) :193～199.

[2]　Orlandic R , By unggu Yu . A study of M BR -based spatial ac -cess methods :how w ell they per form in high -dimensional spaces [J ]. Da tabase Engineering and Applications Sy mpo -

天津轻工业学院学报　第18卷　第4期　

sium , 2000Internallonal , 2000:306～315.

[3]　Catalan J A , Jin J S . Dimension reduction of tex ture features

for image re triev al using hy brid associative neural netwo rks [J ]. M ultimedia and Expo , 2000. ICM E 2000. 2000I EEE International Conference on , 2000, 2:1211～1214. [4]　王式功, 董光荣. 沙尘暴研究的进展[J ]. 中国沙漠, 2000,

20(4) :349～35.

[5]　丁士晟. 多元分析方法及其应用[M ]. 吉林:吉林人民出

版社, 1977.

[6]　白雪梅, 赵松山. 对主成分分析综合评价方法若干问题的

探讨[J ]. 统计研究. 1995, (6) :47～51.

天津科技大学学报

(原天津轻工业学院学报)

2004年征订启事

　　(1) 本刊加入3500种期刊联合证订

　　本刊己参加“全国非邮发报刊联合证订”并入编《全国非邮发报刊联合征订目录》。该目录编入了70%以上的非邮发报刊, 覆盖了自然科学和社会科学的全部领域, 分综合版、社科版、科技版和电脑版4种版本出版。电脑版又称“电子订单”, 供计算机采编用, 最好从网上下载。综合版即为社科版、科技版之和, 需要者请向全国非邮发报刊联合服务部免费函索, 一般读者, 科技版、社科版择一提供, 寄信时务请注明。

　　联合征订服务部在国际互联网上的网站现已开通(网址:w ww . LHZD . com ) , 《联订目录》及本刊均已上网, 该网站乃中国期刊的大型超市, 集全面展示与统一收订为一体, 含3500种期刊, 欢迎上网查阅期刊、下载“电子订单”并订阅本刊。

　　本刊已全权委托该部收订, 特此敬告读者, 请直接汇款向该部订阅, 本刊为季刊, 全年定价20元, 该部的地址及银行账号如下:　　　　户头全称:联合征订服务部　　　　账　　号:605248—1046196　　　　开户银行:工商行天津市尖山分理处　　　　邮政编码:300381　　　　电　　话:(022) 23973378, 23962479　　　　传　　真:23973378

　　　　地　　址:天津市大寺泉集北里别墅17号　　　　网　　址:ww w . LHZD . com Email :LHZD @public . tpt . tj . cn 　　(2) 未能及时订阅本刊者, 可向本刊编辑部联系订阅事宜。

一种大规模样本数据的特征提取方法

相关内容

热门内容