使用SAS、SPSS软件对中国几个城市的环境污染情
况进行聚类分析
摘要:随着社会的发展与进步,环境污染也变得日益严重起来,随着全国范围内大面积大雾不消现象的发生,人们对环境污染情况也更关注了。这篇论文就是通过使用SPSS和SAS软件,对中国的几个大城市进行环境污染方面的聚类分析。
关键词:聚类分析,SPSS,SAS,环境污染,离差平方和法
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析具有很多不同的方法,现使用离差平方和法,重心法,最短距离法,最长距离法这四种方法对这32座城市进行分类,以下是这32座城市污染情况的表格: 城市 北京 上海 广州 深圳 杭州 天津
AQI 117 70 44 53 59 241
PM2.5 163 32 27 58 19 175
PM10 157 40 47 78 44 199
CO 3.17 0.71 1.01 1.55 0.56 1.26
NO2 64 48 53 25 28 67
O3 18 51 41 47 47 69
SO2 6 7 10 6 4 16
成都 南京 西安 武汉 南京 昆明 海口 福州 南宁 贵阳 长春 南昌 大连 长沙 武汉 温州 青岛
乌鲁木齐太原 厦门 郑州 保定 合肥 珠海 重庆 兰州
呼和浩特拉萨 哈尔滨
146 25 92 16 93 29 48 17 92 16 48 18 29 8 45 17 31 22 54 63 78 39 55 29 54 32 56 55 48 17 48 10 85
19 75 40 182 47 34 43 94 46 174 250 143 18 48 41 49 35 88
56 98 34 38 12 73
20
66 0.53 24 0.64 70 1 36 0.74 24 0.64 54 0.81 41 0.52 37 0.76 28 0.84 109 0.8 80 0.68 64 1.27 49 0.5 77 0.82 36 0.74 60 1.07 46 0.94 42 0.4 89 1.01 18 0.67 107 1.51 290 1.16 24 0.5 78 1.35 57 0.77 108 0.43 85 1.24 25 1.58 54
0.95
31 237 34 73 31 123 29 95 34 73 29 51 25 23 30 30 20 41 34 95 34 105 24 53 28 56 23 66 29 95 39 61 18 72 23 91 64 129 32 59 30 93 22 87 20 56 13 46 44 66 36 60 30 67 18 69 30
59
9 7 20 6 7 15 13 6 8 21 4 12 2 10 6 10 18 4 46 6 21 10 8 4 20 16 16 10 9
SPSS部分:
首先对数据进行标准化处理,然后用SPSS软件分别使用最长距离法,重心法和离差平方和法进行分析处理。
最长距离法:
重心法:
离差平方和法:
从三种方法的树状图可以看出,离差平方和法的聚类效果最好 综合以上各统计量反映的聚类效果,我们认为分为3类是效果最好的。 分为3类的结果: 第一类:北京、天津、保定
第二类:上海、广州、深圳、杭州、南京、西安、武汉、昆明、海口、福州、南宁、贵阳、长春、大连、南昌、长沙、武汉、温州、青岛、乌鲁木齐、厦门、郑州、合肥、珠海、重庆、兰州、呼和浩特、拉萨、哈尔滨 第三类:成都、太原
SAS部分:
接下来,我们再使用SAS软件分别使用最短距离法,重心法和离差平方和法进行分析处理。
SAS程序输入:
proc cluster data=sasuser.k method=sin pseudo; id region;
proc tree horizontal; id region;
proc cluster data=sasuser.k method=cen pseudo; id region;
proc tree horizontal; id region;
proc cluster data=sasuser.k method=war notie pseudo; id region;
proc tree horizontal; id region; run;
最短距离法:
重心法:
离差平方和法:
从三种方法的树状图可以看出,离差平方和法的聚类效果最好,符合聚类分析的类内距离小,类间距离大。
就离差平方和法的聚类结果进行分析。
可以看出,系统聚类共进行了32步,在每一步都合并了两个类。
查看图中统计量(RSQ),发现统计量随着分类个数的减少而减少,并且在由3类合并为2类时统计量减少得较快(从0.704减少为0.554)。因此,从统计量来看分为3类比较合适。
接下来分析半偏统计量(SPRSQ),发现NCL=1时半偏统计量最大(值为0.5544),当NCL=2时半偏统计量次大(值为0.1497),说明这两步合并效果不好,应该采取上一步的分类。因此,从半偏统计量来看分为2类或3类比较合适。
再分析伪F统计量(PSF),发现随着分类个数的减少伪F统计量也基本上呈现减少的趋势 。但当NCL=5、4、3和2时,伪F统计量出现了在局部增大的情况。因此,根据伪F统计量的准则认为分成6类、5类、4类和3类是比较合适的。
最后看伪统计量(PST2),发现当NCL=1时伪统计量最大(值为38.6),当NCL=2时伪统计量次大(值为19.4),NCL=3时伪统计量(值为13.7),这说明这三步合并效果并不好,应该采取上一步的分类。因此,从伪统计量来看,我们认为分为2类、3类和4类比较合适。
综合以上各统计量反映的聚类效果,我们认为分为3类是效果最好的。
分为3类的结果:
第一类:北京、天津、保定 污染程度一般
第二类:上海、广州、深圳、杭州、南京、西安、武汉、昆明、海口、福州、南宁、贵阳、长春、大连、南昌、长沙、武汉、温州、青岛、乌鲁木齐、厦门、郑州、合肥、珠海、重庆、兰州、呼和浩特、拉萨、哈尔滨 污染较轻
第三类:成都、太原 污染最严重
由此我们可以看出,SAS和SPSS所得出的结果是相同的,因此结果是相对比较准确的!
参考文献:PM25.IN网站