生态环境与资源保护研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

京津冀地区大气复合污染差异实证分析

王 超

(河北政法职业学院)

摘要:大气复合污染程度是影响环境质量的一个重要因素。本文对京津冀地区13个城市85个监测点的423个样本数据进行统计分析,并与全国1835个样本数据的对比,研究发现:京津冀地区之间的大气复合污染程度存在明显差异,也与全国的大气质量有所不同,相对来说,京津冀地区的大气复合污染程度更为严重一些,主要污染物仍是PM2.5。本文还从大气污染各项指标中挖掘出一些关联规则,并运用这些规则对AQI、PM2.5和PM10进行预测,其置信度均在80%以上。这为笔者预测京津冀地区的大气复合污染程度提供了依据。

关键词:京津冀地区;大气复合污染;地区差异;关联分析;环境治理

一、引言

如今,大气复合污染问题已成为当前环境问题中的一个重大问题,而且是一个影响经济和社会发展的重大难题。利用空气质量数据进行基于关联分析的数据挖掘,可以识别大气复合污染特征,并分析出有价值的研究结果。在京津冀协同发展的今天,研究京津冀地区的大气复合污染问题已成为时下必须解决的一个紧迫课题。本文通过采集国家环境保护部实时发布的京津冀地区共13个城市的85个空气质量监测站点的空气质量数据,运用SPSS数据统计软件对采集到的423个样本数据进行统计分析,运用SPSSModeler17.0数据挖掘软件对大气复合污染物指标进行关联规则(主要运用Apriori算法)挖掘,研究京津冀地区的大气复合污染差异及相关问题,希冀对该问题的解决有所助益。

二、研究方法

(一)研究数据概况

本论文采集了2016年6月到7月(选择时点分别为:6月5日18:00、6月7日21:00、7月7日20:00、7月8日9:00、7月13日19:00;选取标准为尽量考虑到京津冀各地市的大气复合污染差异,比如,尽量包括空气质量从优良到严重污染的各类别数据)国家环境保护部按小时实时发布的京津冀地区共13个城市(85个空气质量监测站点)的空气质量数据,即6类污染物每小时的浓度数据。具体包括:PM2.5细颗粒物(单位:μg/m3)、PM10可吸入颗粒物、CO一氧化碳(单位:mg/m3)、NO2二氧化氮、O3臭氧1小时平均和O3臭氧8小时平均、SO2二氧化硫的小时浓度数据。本文共采集到样本数据423条,其中有效样本数据有392条。同时,数据分析还使用了全国366个城市的大气质量监测数据共计1835个样本数据,以考虑京津冀地区大气复合污染在全国的排名以及多污染物复合的时间、空间、经济水平等背景特征等。

1. 空气质量指数

空气质量按照空气质量指数大小分为六级,相对应空气质量的六个类别,根据《环境空气质量指数(AQI)技术规定(试行)》(HJ 633—2012)规定:空气污染指数划分为0—50、51—100、101—150、151—200、201—300和大于300六档,对应于空气质量的六个级别,分别为:一级优、二级良、三级轻度污染、四级中度污染、五级重度污染、六级严重污染。指数越大,级别越高,说明污染越严重,对人体健康的影响也越明显。(1)具体数据参见表1空气质量分指数及对应的污染物项目浓度限值。

表1 空气质量分指数及对应的污染物项目浓度限值

2. 采集地市监测点

本文共采集了全国的366个城市空气质量监测数据;京津冀地区共13个城市,85个空气质量监测站点的空气质量数据。其中,京津冀地区的85个具体空气质量监测点,见表2。

表2 京津冀地区主要监测点

续表

(二)数据来源与采集方法

本研究使用的数据源来自http://www.pm25.in/,这是一个由BestApp工作室提供的首要空气污染物(Primary Pollutant)及空气质量指数(Air Quality Index)实时查询的公益性网站,为学术研究无偿开放PM2.5数据,提供国家环保部空气质量的实时数据。(2)网站PM25.in不提供历史数据,只提供最近一小时的数据。本文针对研究问题和地区特征,对数据采用实时观察和不定时手工采集的方式,将采集的数据复制到SPSS统计软件中,以便进行分析使用。

(三)研究工具与研究方法

采用SPSS21.0统计软件对收集的数据进行统计分析,使用描述性统计、频率性统计、交叉表、方差分析、聚类分析等方法进行分析。本文主要采用了聚类分析的算法,应用的是K-means聚类算法。K-means算法是由Mac-Queen于1967年提出的,用每类的平均值来表示该类的聚类中心,降低了计算的复杂性。其实现过程是,首先由用户确定所要聚类的数目k,并随机选择k个聚类中心,根据最近邻法则将分类对象赋给最近的聚类中心(簇中心)从而形成一个聚类簇,然后重新计算每个簇的平均值,并将其更新为新的聚类中心,这个过程不断反复迭代。(3)为了避免不同变量的量纲之间相差太大可能影响变量之间聚类的明显不均衡,在进行聚类分析之前,先对所选取的各指标数据进行标准化处理。

本文中的数据挖掘算法及模型验证通过SPSS Modeler17.0数据挖掘软件来实现,主要采用了关联规则和Apriori算法等方法进行分析,考虑支持度、置信度与提升度等指标。部分数据的整理也使用了SPSS21.0统计软件和SPSS Modeler17.0数据挖掘软件相结合的相应功能,比如重新编码、排序、选择样本和变量等。

三、京津冀地区大气复合污染差异及关联分析

通过对我国京津冀地区的大气复合污染情况进行分析,可以得出各地区大气污染情况的现实差异;通过对我国京津冀地区的大气污染指标的关联分析,可以进一步得出关于部分指标的关联规则,为进一步深入研究相关差异提供依据。

(一)基本统计情况

京津冀地区大气复合污染情况在全国统计样本中的排名,见表3。

表3 京津冀地区空气质量全国排名统计表

通过表3可以看出,总体来看,京津冀地区在全国366个监测地区样本中平均排名为309.57,相对来说排名比较靠后,也就是说,空气质量总体来说并不好。

京津冀地区大气复合污染情况的八项指标情况统计,见表4。

表4 京津冀地区的大气复合污染情况的指标统计量

通过上表并结合空气质量指数标准可以看出,此次收集的样本数据中,空气质量指数平均处于二级良的程度,PM2.5、PM10均处于二级,一氧化碳、二氧化氮均处于一级,臭氧1小时平均处于一级,臭氧8小时平均处于二级,二氧化硫处于一级的水平。总体来看,样本处于空气质量较好程度,样本之间的标准差也比较大。

首要污染物的统计情况,见表5。

表5 京津冀地区的首要污染物情况

通过上表,我们可以看出,京津冀地区的首要污染物仍是以PM2.5为主,其次是PM10

(二)地市差异分析

京津冀地区大气复合污染情况的八项指标的方差分析,见表6。

表6 京津冀地区大气复合污染情况的方差分析

续表

通过上表可以看出,京津冀地区大气复合污染情况在八项指标上,均存在统计学上的显著性差异,各项差异均达到了统计学上的0.001的显著性差异标准。

京津冀地区大气复合污染情况的各指标差异,见表7。

表7 京津冀地区大气复合污染情况的各指标差异

续表

续表

续表

续表

通过表7可以看出,在分析的八项指标中,13个地市的各监测点数据均存在较大差异。

在对京津冀地区各项大气污染指标进行方差分析的基础上,进一步对各地市进行两两比较,分析具体差异。通过比较分析,我们可以发现:北京市与天津市、石家庄市、唐山市、秦皇岛市在AQI指标上存在统计学上的显著性差异(P<0.001),北京市与廊坊市、沧州市、张家口市、衡水市在AQI指标上存在统计学上的显著性差异(P<0.05),与其他市在AQI指标上不存在统计学上的显著差异;天津市与北京市、保定市、邢台市、邯郸市、承德市、衡水市在AQI指标上存在统计学上的显著性差异(P<0.001),与石家庄市、廊坊市、张家口市、秦皇岛市在AQI指标上存在统计学上的显著性差异(P<0.05),与其他市在AQI指标上不存在统计学上的显著差异。其他各项指标之间的差异不再一一列举,各项指标之间的差异(仅列举北京、天津、石家庄三个主要地市),见表8。

表8 京津冀地区各项大气污染指标两两比较差异表

续表

续表

(三)地区差异的聚类分析结果

通过对我国京津冀地区的大气污染指标进行聚类分析,运用k-means聚类方法,将各地区按指标结果分为三类,具体结果见表9。

表9 京津冀地区八项大气污染指标的聚类分析

通过分类表可以看出,可按污染程度将各省市大气污染样本分为三类,第一类为环境污染较轻类型,共有33个样本;第二类为环境污染较重类型,共有147个样本;第三类为环境污染一般类型,有243个样本;三个类型之间存在显著差异。

(四)大气复合污染物指标关联规则分析

1. 关联规则建模流程图

在对我国京津冀地区大气污染分析的基础上,根据数据挖掘的原理与算法,使用关联规则中的Apriori算法建立大气污染的关联分析模型,生成关联类别的规则集,为进一步分析奠定基础。京津冀地区大气污染关联规则Apriori算法流程图,见图1。

图1 京津冀大气质量关联分析数据流

2. 京津冀大气质量关联网络图

京津冀大气质量关联分析网络结构,见图2。

图2 京津冀大气质量关联分析网络结构图

京津冀大气质量关联分析网络结构图显示,O31小时平均、O38小时平均、PM2.5、AQI一级、AQI四级与其他各项指标的关联程度较弱;其他各项指标之间的关联程度较强。

3. 空气质量指数的关联规则

我们将PM2.5、PM10、CO、NO2、O31小时平均、O38小时平均、SO2等指标的数据作为关联规则的前项,将空气质量指数(AQI)作为关联规则的后项,分析两类指标之间的关联程度。通过建模分析,我们共得到相关规则集255条。这里我们只对部分具有代表性的规则进行简要分析。京津冀地区大气污染情况的部分规则,见表10。

表10 空气质量指数(AQI)的规则(部分)

通过上表,我们可以发现,PM2.5类别4对AQI类别4的置信度非常高,达到了100%,且其支持度也比较高,达到了13.333%。这说明PM2.5对预测AQI的类别4较好。同样,PM2.5类别3对AQI类别3的置信度非常高,达到了100%,且其支持度也比较高,达到了30%,超过了对AQI类别4的支持度。其他规则也可同理解释,不再赘述。

4. PM2.5的关联规则

我们将PM10、CO、NO2、O31小时平均、O38小时平均、SO2等指标的数据作为关联规则的前项,将PM2.5作为关联规则的后项,分析两类指标之间的关联程度。通过建模分析,我们共得到相关规则集233条。这里我们只对部分具有代表性的规则进行简要分析。京津冀地区大气污染指数PM2.5的规则集(部分),见表11。

表11 PM2.5的规则(部分)

通过上表,我们可以发现,O31小时平均类别2对PM2.5类别1的置信度达到了100%,且其支持度也比较高。O31小时平均类别2和O38小时平均类别3对PM2.5类别1的置信度达到了100%,且其支持度也比较高。其他规则也可同理解释,不再赘述。

5. PM10的关联规则

我们将PM2.5、CO、NO2、O31小时平均、O38小时平均、SO2等指标的数据作为关联规则的前项,将PM10作为关联规则的后项,分析两类指标之间的关联程度。通过建模分析,我们共得到相关规则336条。这里我们只对部分具有代表性的规则进行简要分析。京津冀地区大气污染指数PM10的规则集(部分),见表12。

表12 PM10的规则(部分)

通过上表,我们可以发现,O38小时平均类别2对PM10类别2的置信度达到了100%,且其支持度达到了23.333%之多。PM2.5类别4和O31小时平均类别3共同对PM10类别3的置信度达到了100%,且其支持度达到了11.667%。其它规则也可同理解释,不再赘述。

四、结语

本文通过对京津冀地区13个城市85个监测点的423个样本数据进行统计分析并与全国1835个样本数据的对比分析发现,利用空气质量数据进行基于关联分析的数据挖掘,可以识别大气复合污染的特征,可以从海量大气复合污染物指标数据中探索出较有意义的研究结果。京津冀地区之间的大气复合污染程度存在明显差异,也与全国的大气质量有所不同,相对来说,京津冀地区的大气复合污染程度更为严重一些,主要污染物仍是PM2.5。我们可以从大气污染各项指标根据挖掘出的关联规则对AQI、PM2.5和PM10进行预测,且置信度非常高。本研究也存在一些不足之处,比如对京津冀地区各监测点的数据采集时点相对较少、研究结果也有一定局限性。

参考文献

[1]刘杰.北京大气污染物时空变化规律及评价预测模型研究[D].北京:北京科技大学,2015.

[2]贾瑾.基于空气质量数据解析大气复合污染时空特征及过程序列[D].杭州:浙江大学,2014.

[3]李丽.基于数据挖掘的城市环境空气质量决策支持系统设计与实现[D].济南:山东师范大学,2006.

[4]武鹏程.基于数据挖掘的城区空气质量影响因素分析及实证研究[D].武汉:中国地质大学,2008.

[5]甄莎.包头市城区空气质量评价及影响因素分析[D].呼和浩特:内蒙古科技大学,2012.

[6]宋晖,张良均.C4.5决策树法在空气质量评价中的应用[J].科学技术与工程,2011(7).

[7]薛薇,陈欢歌.SPSS Modeler数据挖掘方法及应用[M].北京:电子工业出版社,2014.


(1) 参见:空气质量指数,百度百科:http://baike.baidu.com/subview/3251379/3251379.htm,访问时间为2016年7月14日。

(2) 贾瑾.基于空气质量数据解析大气复合污染时空特征及过程序列[D].杭州:浙江大学,2014:14.

(3) 张俊溪,罗增强.基于主成分聚类算法的陕西省环境协调性分析[J].微机处理,2010(5).