吳玲玲,杜趙杭,韓凱波,陳一飛,趙 怡
(南京鐵道職業技術學院,江蘇 南京210031)
本文選取的空氣質量監測國控點數據時間跨度為2018年11月14日10:00~2019年6月11日15:00,共4200個樣本;自建點數據時間跨度為2018年11月14日10:02~2019年6月11日16:32,共234717個樣本。我們首先對自建點數據進行預處理,將自建點數據處理為以一小時為間隔的樣本,再對自建點數據中降水數據進行處理,最后將國控點數據與自建點數據進行匹配,得到4065個樣本進行研究[1]。
由于國控點數據是以一小時為間隔的樣本,因此將自建點的數據同樣處理為一小時間隔。采取的方案是,選取相應于國控點時間前15分鐘和后15分鐘區間的數據取平均值(除降水數據)。自建點數據中有降水量數據在某時段遞增,然后清零。選取自建點降水數據中相應于國控點時間前5分鐘和后5分鐘區間內最后一個時刻的記錄作為該整點的累積降水量。通過Excel統計,見圖1(a),發現清零出現兩次。另降水數據存在一些奇異點,將奇異點的數值通過前后時刻數據的對比進行訂正。訂正方法如下[1-2]:第一步,找出奇異點對應的時刻,對該時刻前后5分鐘的數據進行分析,找出錯誤數據,將前后數據對比并訂正,數據質量明顯提高,見圖1(b);第二步,若某整點數據缺測,根據前后數據進行訂正。若前后數據相同,將缺測數據記為相同值;若前后數據不相同,仍記為缺測。然后用后一整點的累積降水量減去前一整點的累積降水量得到該整點的降水數據,遇缺測情況記為缺測。
圖1 降水量國控點和自建點數據概率分布圖
利用Matlab軟件對國控點和自建點數據中的PM2.5、PM10數據進行統計特征分析,包括平均值、標準差、最大值、最小值,并進行兩組數據的對比[2-3(]見表1)。
從表1可以發現,PM2.5國控點數據與自建點數據的標準差相差不大,最值也相當,但自建點數據的平均值較國控點數據的平均值偏大很多。PM10自建點數據的標準差比國控點大很多,說明自建點數據分布更離散,并且自建點數據的平均值也較國控點數據的平均值大很多,而國控點數據的最大值接近自控點數據最大值的兩倍。
表1 兩種污染物國控點與自建點數據的統計特征
分別繪制國控點和自建點數據的概率分布圖(見圖2)。PM2.5兩組數據分布狀況較一致,都呈單峰型分布。PM10國控點數據絕大部分分布在200以內,而自建點數據主要分布在350以內,存在量程漂移。
圖2 PM2.5和PM10國控點和自建點數據概率分布圖
接著,對PM2.5、PM10國控點數據和自建點數據繪制散點圖(見圖3(a)、圖4(a))。利用國控點數據與自建點數據做差,對差值繪制PM2.5偏差概率分布圖(見圖3(b)、圖4(b))。在圖3(a)中,對比線A表征自建點數據與國控點數據完全相同。大部分散點集中在對比線附近,因此兩組數據的偏差不是太大。大部分散點在對比線上方,說明自建點數據與國控點數據之間存在負偏差。在圖3(b)中,自建點數據與國控點數據之間存在整體負偏差,且為單峰型分布,峰值左右較對稱,類似正態分布的特征。在圖4(a)中,大部分散點集中在對比線A上方,自建點數據與國控點數據之間存在明顯的負偏差,且散點在對比線上下分布得不均勻,上面明顯多于下面。此外,國控點的數據主要在0~200的范圍內,而自建點數據在0~350的范圍內。在圖4(b)中,自建點數據與國控點數據之間存在整體負偏差,且為單峰型分布,峰值左側的概率高于右側,呈偏態分布。
圖3 PM2.5散點圖和偏差概率分布圖
圖4 PM10散點圖和偏差概率分布圖
通過偏差、相關系數、均方根誤差三個統計量對兩組數據的整體特征進行統計分析。三種統計量的計算方法如下。
兩組數據的偏差(bias)計算公式:
其中,Xi為自建點每個小時的數據,Yi為國控點每個小時的數據,n為數據個數。我們定義當bias大于0為正偏差,小于0為負偏差。
兩組數據的相關系數(rXY)計算公式:
其中,Xi,Yi,n同上,X為自建點數據的平均值,Y為國控點數據的平均值。
兩組數據的均方根誤差(RMSE)計算公式:
其中,Xi,Yi,n同上。
計算PM2.5自建點數據相對于國控點數據的偏差、相關系數和均方根誤差,見表2。兩組數據的偏差為-16.18,明顯存在整體負偏差;兩組數據的相關系數為0.91,說明兩組數據的變化趨勢一致;兩組數據的均方根誤差為22.85,表示兩組數據存在較大差異。而PM10兩組數據的偏差為-38.74,明顯存在整體負偏差;兩組數據的相關系數為0.65,說明兩組數據的變化趨勢較一致;兩組數據的均方根誤差為65.67,達到平均值的一半,表示兩組數據存在較大差異。
表2 PM2.5、PM10國控點與自建點數據校準前后統計量
由圖3(b)發現PM2.5自建點數據明顯存在負偏差,并且自建點開始的數據要明顯高于國控點的數據,兩種數據的最大值相當,兩組數據的差異可能由零點漂移產生。而PM10的自建點數據明顯存在整體負偏差,并且國控點的數據主要在0~200的范圍內,而自建點數據在0~350的范圍內,兩組數據的量程不一致。圖4(b)中的偏態分布,也有可能是量程不一致造成的。我們利用自建點數據進行一元線性回歸,將數據進行校準。
根據兩種數據中的PM2.5數據建立一元線性回歸校準方程:
其中,XPM25i為自建點每個小時的數據,為自建點每個小時的校準數據。
對PM10數據建立一元線性回歸校準方程:
其中,XPM10i為自建點每個小時的數據,為自建點每個小時的校準數據。
下面對數據校準前后進行比較[4]。從圖5(a)、圖5(b)可以發現,PM2.5訂正后的自建點數據負偏差明顯消失,且零點漂移的現象也明顯減小。在偏差概率分布圖中,0附近的概率最大。通過表2可知,校準后自建點數據的負偏差變為-0.01,顯著減小,均方差根誤差也明顯減小。說明PM2.5的自建點數據得到了有效的校準,數據質量明顯提高。從圖6(a)、圖6(b)可以發現,PM10訂正后的自建點數據負偏差明顯消失,且量程漂移的現象也明顯減小。在偏差概率分布圖中,峰值位于0附近,偏態分布也趨于正態分布特征。通過表2可知,校準后自建點數據的負偏差變為-0.46,顯著減小,均方差根誤差為32.26,也明顯改善,同時兩組數據的相關系數也進一步提高。說明PM10的自建點數據得到了有效的校準,數據質量明顯提高。
圖5
圖6
本文針對某公司研發的微型空氣質量監測儀提供的實時空氣污染物數據,分別對PM2.5和PM10兩種污染物自建點數據進行了深入數據分析和詳細的差異因素分析,并根據不同污染物數據誤差特點給出了相應的一元線性回歸校準方案,校準后的數據質量明顯提高。該校準方案在業務上實踐性強,對空氣質量監測儀的數據有一定的訂正效果。為微型空氣質量監測儀后期能夠提供更準確的實時空氣質量監測數據以及傳感器的改進提供了參考方案。