任鵬舉 江帥 王磊
文章采用大數據分析,對2018年春節期間全國370個城市的環境空氣質量數據進行收集、處理與分析。因應用于傳統環境分析的方法已無法完成對數據的分析,因此文章構建了無監督聚類、主成分分析(PCA)降維,核主成分分析(KPCA)降維等算法對數據進行分析,最后運用核化線性降維算法以及K均值聚類,劃分出五類城市進行分析,減少了影響因素的缺失現象。
1.全國PM2.5數據概括
目前隨著經濟的發展,中國的環境污染問題也日趨嚴重,各省市出現空氣嚴重污染的現象,空氣污染已經成為了一個特別嚴重的問題。其中PM2.5是中國大部分城市的主要空氣污染物,PM2.5粒徑較小,表面積較大,易附帶有毒物質,可隨著人的呼吸進入人體內,導致各種疾病,對人體危害較大。
2.地區性差異影響因素分析
2.1全國空氣質量數據的統計分析
本文針對已獲取的空氣質量數據進行處理,對環境污染物的來源進行解析,選取了全國370個城市的PM2.5、PM10、SO2、NO2、CO以及O3為數據特征,并希望通過探究不同特征之間的相關性強弱,從而更好地尋找出數據之間潛藏的有價值的信息。
2.1.1采用協同過濾的方法進行相關性分析
協同過濾是在信息過濾和信息推薦中大受歡迎的技術,與傳統的基于內容過濾直接分析內容不同,分析數據之間的相似性,在數據的群組中找到指定的相似的數據,可以形成系統中不同數據組的相似性預測。本文采用協同過濾的方式得出了全國所有城市PM2.5與SO2、NO2、CO、PM10和O3之間的相關性。
2.1.2區域分析概述
2018年春節期間,就全國整體情況而言,PM2.5與NO2、CO相關性最為明顯。這兩者都與汽車尾氣排放,工業生產有關。但考慮到春節期間的情況,工業生產不會對數值造成太大的影響,可以推斷出在此期間造成PM2.5污染的主體是汽車尾氣排放。
2.1.3分析總結
通過對具體城市數據分析發現單純的依靠行政區域與地理因素對全國進行劃分處理并不可取,所得出的數據僅表示這一區域的整體情況,對于該區域的所有城市并不具有代表性。因此這里只采用分析總結方式對全國數據進行處理分析。
2.2聚類分析
使用K均值聚類法進行分析時,隨機確定了K個中心點,選取全國所有城市的SO2、PM2.5、PM10、CO、NO2和O3六項空氣質量數據為特征,分配給最臨近的中心點,待分配完成之后,聚類中心就會移到分配給該聚類的所有節點的平均位置處,然后整個分配過程重新開始。
2.3主成分分析
主成分分析是最常用的一種降維方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質。核心在于PCA認為數據集中的主成分,從而將多個原特征在此維度進行線性組合。PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用于提取數據的主要特征分量。
2.4核化線性降維
核化線性降維是基于核技巧對線性降維方法進行“核化”。它可以有效處理高維輸入、改變各種核函數方法的性能、針對不同的應用選擇不同的核函數和算法。
3.結束語
應用相關性分析發現PM2.5與區域經濟增長所依賴的生產方法,城市居民的生活方式和自然環境有較大關系。
采用大數據分析,對2018年春節期間全國370個城市的環境空氣質量數據進行分析。通過構建聚類、主成分分析、核化線性降維等算法應用于空氣質量數據,得到了較好的分析結果。為環境的大數據分析提供了概念的指引。為環境科學研究工作人員提供了一種技術手段。
應用聚類分析將全國370個城市劃分為長江三角洲,珠江三角洲,中部城市,北方城市為代表的五種類型城市。并發現長江三角洲與珠江三角洲地區的PM2.5與NO2、SO2的相關性出現較為特殊現象,這有待進一步的研究。