李 敏, 程茂華, 潘 穎, 李 雄
(1.南寧師范大學 計算機與信息工程學院,廣西 南寧 530023;2.廣西科技師范學院,廣西 來賓 546199;3.廣西氣象臺,廣西 南寧 530022)
在目前的研究中,經常使用數學領域中的統計學方法對濕度、大氣能見度與氣溶膠PM10進行研究,分析顯示PM10濃度增大以及顆粒物吸濕性增長可導致能見度數值降低[1]。但總體而言,當下仍缺乏濕度、大氣能見度與氣溶膠PM10存在何種相關性的研究。
此外,氣象領域在處理氣象數據的問題上使用的多是投入耗費大的傳統方法。云計算的低成本運算快成為了出來當前大數據的熱門途徑,但需要適當的處理體系結構與密集任務的協調性。因此挑選合適的機器學習算法可以高效率地處理與分析大規模的數據。并行性以及運算效率是大數據計算需要攻克的難題。
本文基于中國氣象局氣象數據中心和南寧市環保局環境監測站歷年氣象數據。設計云環境下DMLR(Distributed Multiple Linear Regression)模型用于能見度、濕度與氣溶膠PM10相關性的研究,實驗分析表明,濕度區間一致大氣氣溶膠PM10濃度越大能見度就越小,能見度區間一致大氣氣溶膠PM10濃度越低濕度越大。實驗結果還發現濕度介于40%-90%,能見度介于8km-19kmDMLR預測效果最好。
國內外人員提出了各種分布式數據分析方法以解決傳統的數據挖掘計算及保存能力不夠的問題。宋欣、王翠榮[2]提出回歸模型的參數信息代替實際感知數據的線性回歸分析方法構建感知數據模型,仿真實驗結果表明,文中提出的數據采集優化策略能通過較小的通信量有效地實現事件監測區域感知數據的預測,降低網絡的總能耗,延長網絡的生命周期。付倩嬈[3]提出一種在線樣本更新的多元線性回歸的霧霾預測方法,通過在線樣本更新的多元線性回歸建立了PM2.5含量預測模型,并將氣象要素作為霧霾的判斷標準。實驗結果證明提出的方法對一周以內的PM2.5含量預測準確率較高。戴李杰[4]等提出基于機器學習的PM2.5短期濃度動態預報模型,聯合應用支持向量機(SVM)和粒子群優化(PSO)算法建立滾動預報模型,對PM2.5未來24小時濃度進行預報,同時對未來一天的晝、夜均值及日均值濃度進行預報,并與徑向基函數神經網絡(RBFNN)、多元線性回歸法(MLR)、模式預報(WRF-Chem)作對比。實驗表明,所提出的SVM模型較其他方法提高了PM2.5未來1小時濃度預報精度;所提模型能對PM2.5未來24小時濃度進行較好的預報,能對未來一天的晝均值、夜均值及日均值進行有效預報,并且對未來12小時的逐時濃度及未來一天的夜均值濃度的預報準確度較高。
國外已有針對空氣中PM10濃度問題的相關性研究。Song Liu等人[5]提出基于MODIS數據估算的能見度和相對濕度檢測霧霾及其強度。實驗表明在這兩個指數中,能見度在影響檢測精度方面比相對濕度起著更重要的作用。Nan Ma[6]等人提出一種新的基于PM2.5,能見度和相對濕度區分霧和霧霾的方法,基于霧霾與霧的物理性質的差異,本研究提出了一種利用PM2.5,能見度和相對濕度的實時測量來區分霧霾和霧的新方法。在該方法中,可以基于粒子數量大小分布和氣溶膠吸濕性的局部歷史數據來建立標準。根據該標準可區分霧和霧霾。我國在1970年開始,也對空氣中的顆粒物進行大量的研究,董繼元等[7]對蘭州市大氣相對濕度與PM10濃度和大氣能見度進行相關性分析,利用蘭州2002—2012年的環境氣象資料,對相對濕度RH、PM10濃度與能見度之間的對應關系進行統計分析,以揭示RH與PM10濃度和大氣能見度之間的直觀聯系,加深對灰霾形成過程的認識。該研究表明:PM10平均值與RH平均值表現為負相關,相對濕度較高時大氣顆粒物含量較高。劉凡等[8]分析了成都市冬季相對濕度對顆粒物濃度和大氣能見度的影響,利用2015年12月的連續在線觀測數據,探討RH對顆粒物濃度和大氣能見度的影響。結果表明,高顆粒物濃度和高RH協同作用導致低能見度事件。隨著RH增加,PM2.5∕PM10顯著增加,表明高RH會加重細顆粒物污染。隨著PM2.5濃度增加,能見度呈冪指數下降;在相同PM2.5濃度下,RH越高,能見度越低。基于上述研究,探討南寧區域的氣溶膠與能見度、濕度之間的相關性意義重大。但目前對氣溶膠PM10、能見度以及濕度的研究只是簡單、定性的統計分析,不能很好地反映他們之間的相關性。
建模的思想在處理大數據分析的研究中作用很大。線性回歸是其中較為經典的建模形式,其表達形式為y=w′x+e,e為誤差服從均值為0的正態分布。線性回歸中只有一個回歸變量和一個依賴變量,稱為一元線性回歸[9]。線性回歸中有兩個以上的回歸變量,且回歸變量之間存在線性關性,則稱為多重線性回歸[9]。多重線性回歸方程:
y=β0+β1X1+β2X2+…+βj-1Xp-1+ε
(1)
上式子中y表示因變量;Xp是自變量,p=1,2,3,…,p-1;βj是y基于每個Xp單元變化的變化量,j=1,2,3,…,j-1;殘差ε。本文使用最小二乘逼近來擬合模型。式(2)是對樣本數據集(xi1,xi2,xi3,…,xi(p-1),yi)的回歸模型:
(2)
矩陣表示:

(3)


(4)

(5)
采取劃分模塊將輸入樣本在云平臺多個集群上運算以達到并行加速效果。并行化設計中各特征上的梯度元素進行累加:
(6)

(1)導入訓練集、測試集并設置迭代輪數100以及更新步長A的值;
(2)將訓練集分塊到B個計算節點;
(3)對每一個計算節點采樣計算損失值LB與梯度LB,并對分片目標向量更新即LB;
(5)迭代運行步驟(3)、(4)至目標值收斂;
(6)將測試數據集預測結果輸入到評估模型評估。
本文在云環境下面向PM10—能見度—濕度相關性的研究提出DMLR模型。DMLR線性回歸模型數據集訓練實驗流程如圖1:讀取實驗數據集并對數據直方圖統計、全表統計和拆分操作;本文實驗將拆分參數設置為0.7,70%作訓練集,30%作測試集。然后使用DMLR模型對輸入的訓練集進行訓練并結合測試集預測,最后使用評估模型來評估線性回歸模型的預測準確程度以及氣溶膠PM10濃度的變化與濕度、大氣能見度的相關性。

圖1 DMLR模型實驗流程
實驗過程中使用廣西南寧環保局環境監測站以及中國氣象局氣象數據中心歷年氣象數據,氣溶膠PM10為1989—2017年數據;能見度為1980—2017年數據;濕度為1980—2017年數據。
實驗將濕度、能見度各劃分三個等級如表1所示:

表1 濕度、能見度等級劃分表
然后對這六個區間等級進行兩兩組合構成共9個實驗數據源,其中數據源2的部分數據如表2所示。
按照圖1的DMLR模型實驗流程對以上數據表進行預測分析,表3為數據表2(濕度值<40%,8km<=能見度值<=19km組合)的DMLR模型的PM10預測結果,表4為回歸模型評估結果。

表2 數據源2部分數據

表4 數據源2評估結果
R表示多重相關系數,R2表示判定系數,RMSE表示均方根誤差,SSE表示誤差平方和;SSR表示回歸平方和,SST表示總平方和,yMean表示原始因變量均值,prediction Mean表示預測值的平均值。
根據上文的9種組合方式各數據源的實驗分析結果如表5所示:

表3 數據表2DMLR模型的PM10預測結果

表5 濕度、能見度等級劃分表

圖2 數據源2預測值與原值擬合圖
置信概率(confidence probability)是用來衡量統計推斷可靠程度的概率。其意義是指在進行統計推斷時.被估參數包含在某一范圍內的概率;本文顯著性閾值設置為95%。實驗證明數據源2、數據源3、數據源7、數據源8、數據源9顯著性較強,置信率高;數據源1、4、6的實驗數據限制于滿足本文設置提取的實驗數據量太少,實驗結果顯著性較低,置信率低。下文給出了數據源2、7、8的實驗預測值與實驗數據原值的擬合圖及相對應的DMLR模型輸出結果。
實驗結果表明濕度在40%-90%、能見度在8km-19km區間范圍內預測效果最優,濕度小于40%、能見度在8km-19km區間范圍內預測效果偏差。實驗得出結論以下結論:

表6 數據源2DMLR模型輸出結果

表7 數據源7DMLR模型輸出結果

表8 數據源8DMLR模型結果輸出
1.在同一濕度區間內,能見度與PM10呈負相關,即能見度越小PM10濃度就越大。
2.在同一能見度區間內,濕度與PM10呈負相關,即濕度值越大PM10濃度就越低。

圖3 數據源7預測值與原值擬合圖

圖4 數據源8預測值與原值擬合圖
另外實驗結果表明PM10濃度與能見度、濕度的相關系數,能見度的相關系數更高。集合實驗結果分析三者之間的關系如圖5所示。
比較DMLR算法模型與傳統回歸模型實驗運行時間(圖6)。在數據表2、5、7、9中,DMLR算法模型運行時間明顯少于傳統回歸模型,其減少幅度為10%;而在表1、3、4、6、8中,DMLR算法模型和傳統回歸模型實驗運行時間相同。總體而言,DMLR算法模型在時間性能方面要優于傳統回歸模型。

圖5 PM10—能見度—濕度相關圖

圖6 DMLR模型與傳統回歸模型運行時間
本文提出一個基于云平臺的DMLR機器學習模型,分析以濕度值和能見度值作為自變量,PM10氣溶膠值作為因變量的相關性。實驗結果發現濕度介于40%-90%,能見度介于8km-19kmDMLR預測效果最好,DMLR算法模型在時間性能方面要優于傳統回歸模型。此外,在云環境下對能見度、濕度與PM10的相關性提出DMLR模型,在可行性方面得到了驗證,具有一定的應用意義。
我們的工作存在如下不足:在未來的研究中需要解決的問題,如實驗氣象因子(如風速、降水等)需加強;區域不同是否對氣溶膠與能見度、濕度之間的相關性影響并未加入考量。