游晉峰 安 瑩
(晉中師范高等專科學校,山西 晉中 030600)
空氣質量指標是否合格是現在人們關注的一個熱點話題之一,尤其是“兩塵四氣”的濃度。國家監測控制站點(簡稱“國控點”)對它們的濃度進行監測。但是由于布控點較少、數據發布滯后時間長、花費大等缺點,無法實時監控和預報。某公司研發了一種花費小的檢測儀,不僅可以測量空氣質量,也可對該地區的濕度、溫度、降水量、壓強、風速進行測量。而它存在的問題是傳感器在工作一段時間后會因為零點漂移、量程漂移、非常規氣態污染物濃度的變化和氣象因素受到影響,與附近國控點的數據值存在差異。因此,需利用國控點數據對近鄰的自建點數據進行校準。
本文以2019年全國大學生數學建模競賽D題“空氣質量數據的校準”為背景,首先對數據進行了描述性和探索性分析,然后分析了造成自建點數據與國控點數據之間存在差異的影響因素,并建立了基于多元多項式回歸的空氣質量數據校準模型,為空氣質量數據校準提供了可行的辦法。
題目要求對自建點數據與國控點數據進行探索性分析。而探索性分析是在描述性分析的基礎上,對數據分布特征的詳細分析[1-2]。為更清晰地分析數據的分布特征,利用題目所給數據繪制了散點圖和箱形圖,并計算了月均值、方差、眾數等。
為準確觀察數據的分布特征,利用Excel的繪圖功能,對國控點和自建點的“兩塵四氣”數據繪制了散點圖,如圖1和圖2。
通過觀察所給“兩塵四氣”的濃度值隨時間的變化趨勢發現,國控點數據和自建點數據都在量程范圍[3]內,沒有異常數據。故不需要對數據進行清理。
查閱資料發現,影響空氣質量數據的因素,可能是空氣、溫度、濕度、風等自然因素,也可能是尾氣、煙塵、工廠排放、節假日煙花爆竹和人員流動等人為因素影響,所以監測得到的數據有波動。
為了更好地觀察國控點與自建點之間的關系,利用Excel中的AVERAGE函數求出了2018年11月-12月、2019年1月-6月二者的“兩塵四氣”濃度值的月均值,并且利用繪圖功能做出了相應的折線統計圖,如圖3。
通過觀察圖3可以知道,二者的月均值數據有一定的差異,但是趨勢走向大致相同。PM2.5 、PM10和NO2自建點的月均值基本比國控點的都要高,CO自建點的月均值比國控點的要低,同時可以知道國控點監測的SO2均值在2019年1月之前比自建點監測的高,國控點監測的O3均值在2019年2月之前比自建點監測的低。
利用Excel中的VARPA函數對國控點與自建點的“兩塵四氣”濃度值進行了求方差,并繪制出了對應的折線統計圖,如圖4。

圖1 國控點“兩塵四氣”濃度值的散點圖

圖2 自建點“兩塵四氣”濃度值的散點圖

圖3 國控點與自建點的“兩塵四氣”濃度值的月均值比對

圖4 國控點與自建點的“兩塵四氣”濃度值的方差比對
從圖4可以知道,各空氣質量數據的方差除在個別時期的差值較大外,其余都相差較小。
為有效地觀測某一時間段內兩個監測點數據之間出現最頻繁的值是否一致,利用Excel中MODE函數對兩個監測點監測到的數據進行了求眾數。

圖5 國控點與自建點的“兩塵四氣”濃度值的眾數比對
觀察圖5發現,在同一時間段內兩個檢測點所監測數據中出現次數最頻繁的數據值大致相等。特別地,國控點與自建點O3的數據相差值過大,其值可能在監測的過程中誤差較大。
為了直觀地看出國控點數據與自建點數據的中位數、最大值和最小值,利用Excel 2016的繪圖功能,制作了箱形圖。

圖6 國控點與自建點的“兩塵四氣”濃度值的平均值的箱形圖
根據圖6,能夠看出國控點與自建點數據的最大值、最小值和中位數之間的大小。
要對導致國控點與自建點數據造成差異的因素進行分析,從各方面對比兩個監測點的數據,為使結果準確,在Excel中繪制了日均值折線統計圖。不僅如此,也利用SPSS軟件中的pearson相關系數,對各數據之間的相關性[4-5]進行了分析。
觀察1.2節繪制出的月均值折線圖,并不能準確地反映各值每天的詳細變化趨勢、以及自建點與國控點之間的詳細差異。因此,對每天的日均值數據進行了分析。

圖7 2018年11月“兩塵四氣”日均值比對
以2018年11月和2019年5月“兩塵四氣”濃度值的日均值對比圖為例,如圖7和圖8,發現國控點與自建點數據的趨勢走向大致相同,但由于影響因素的存在而有偏差。
為了找出對國控點數據與自建點數據造成差異的因素,用SPSS軟件對其進行數據分析。在選擇相關性的計算中,由于spearman相關系數不容易檢測出兩者事實上存在的相關關系、kendall’stau-b相關系數適用于兩個變量均為有序分類,所以選擇了pearson相關系數對自建點數據和國控點數據與溫度、濕度、風速、氣壓、降水量的相關性進行探索。
圖9給出了2018年11月“兩塵四氣”濃度值數據的相關性分析,觀察發現:
1)PM2.5與PM10正強相關,與濕度正強相關;
2)PM10與CO 負相關,與濕度正相關;
3)CO與O3負強相關,與風速正相關,與降水量負相關,與溫度負相關;
4)NO2與降水量正強相關;
5)O3與風速負相關,與壓強負相關,與溫度正相關。
類似地,觀察其他月份的數據,可以發現:
1)PM2.5與PM10、NO2、CO、SO2、濕度正強相關,與風速負強相關,與溫度負相關;與降水量正相關或正強相關;
2)PM10與NO2正強相關;與濕度、降水量、SO2正相關或正強相關,與風速、溫度負相關,與壓強負強相關,與CO負相關或正強相關,與O3正強相關和負強相關;
3)CO與O3負強相關或正相關,與風速、壓強正相關或正強相關,與降水量、NO2負相關,與濕度負強相關,與溫度負強相關或負相關;
4)NO2與SO2風速負相關,與O3正強相關,與降水量、溫度正強相關或負強相關,與濕度正強相關或正相關,與壓強負強相關或負相關;
5)O3與風速、壓強負強相關或負相關,與溫度正強相關或正相關,與降水量正強相關,與濕度正相關;
6)SO2與濕度正強相關,與溫度負強相關或負相關,與風速正強相關,與O3負強相關或正強相關。

圖8 2019年5月“兩塵四氣”日均值比對

圖9 2018年11月數據的相關性分析
利用SPSS軟件的基于最小二乘法的多元多項式回歸[6],將各月每天的國控點數據作為因變量,記作Y,相應的自建點的空氣質量數據和天氣數據作為自變量,記作X,利用最小二乘法對系數矩陣A進行多元多項式Y=AX的系數矩陣A進行回歸分析,并計算預測值。
求解得到2018年12月的各空氣質量數據的擬合結果如下(圖10):
1)2018年12月PM2.5的擬合結果(圖11)

圖10 2018年12月PM2.5的校準系數

圖11 2018年12月PM2.5的擬合度
2018年12月PM2.5的校準方程為:
F1=0.614PM2.5+0.014PM10+41.218CO+0.045NO2+0.073SO2-1.546O3-40.003E1+0.649P1-0.105J1+1.103W1-0.337S1-498.349
2)2018年12月PM10的擬合結果(圖12、圖13)
2018年12月PM10的校準方程為:
F2=1.144PM2.5-0.221PM10-98.981CO-0.296NO2+4.434SO2-2.295O3-73.696E1+1.205P1-0.111J1+7.018W1-1.624S1-847.926

圖12 2018年12月PM10的校準系數

圖13 2018年12月PM10的擬合度
3)2018年12月CO的擬合結果(圖14、圖15)

圖14 2018年12月CO的校準系數

圖15 2018年12月CO的擬合度
2018年12月CO的校準方程為:
F3=0.002PM10+1.794CO-0.008NO2+0.039SO2-0.020O3-0.666E1+0.012P1+0.001J1+0.058W1-0.005S1-10.901
4)2018年12月NO2的擬合結果(圖16、圖17)

圖16 2018年12月NO2的校準系數

圖17 2018年12月NO2的擬合度
2018年12月NO2的校準方程為:
F4=-0.014PM2.5+0.008PM10+18.022CO+0.117NO2-0.218SO2-0.068O3+0.309E1-0.082P1-0.457W1-0.104S1+93.214
5)2018年12月SO2的擬合結果(圖18、圖19)

圖18 2018年12月SO2的校準系數

圖19 2018年12月SO2的擬合度
2018年12月SO2的校準方程為:
F5=1.957PM2.5-0.966PM10-27.648CO-0.480NO2+0.217SO2+0.228O3-59.478E1+0.174P1+0.32J1+1.238W1-0.557S1-34.960
6)2018年12月O3的擬合結果(圖20、圖21)

圖20 2018年12月O3的校準系數

圖21 2018年12月O3的擬合度
2018年12月O3的校準方程為:
F6=-2.189PM2.5+1.180PM10-48.981CO-0.385NO2-0.132SO2+0.244O3+21.224E1-0.644P1+0.006J1-1.789W1+0.203S1+700.076
利用SPSS軟件,可以求解得到2018年11月和2019年1-6月各空氣質量數據的擬合結果。下面給出了所有數據回歸分析的擬合度,如圖22:

圖22 “兩塵四氣”多項式回歸的擬合度
2019年2月,SO2的多項式回歸的擬合度最低,為0.6;
2018年12月,NO2和O3的多項式回歸的擬合度較低;
2019年1月,O3的多項式回歸的擬合度較低;
2019年4月,CO和SO2的多項式回歸的擬合度較低;
2019年5月,CO的多項式回歸的擬合度較低。
本文分析了自建點數據與國控點數據的特征,通過對二者造成差異的因素分析,對自建點數據進行了校準。由于題目數據較大,采用了每天數據的平均值進行分析。
但是,日照時長、早晚溫度等都會對空氣質量數據造成影響。而每天24小時內,這些值都可能在變化,比如早晚溫度差等。因此,可以利用國控點每小時的數據對自建點的數據進行校準,尤其是擬合度不高的數據。
另外,本文采用的是多元線性回歸,為考慮因素之間的交叉影響,可進一步研究因素之間的交叉影響,利用多元非線性回歸進行更準確的數據校準。