隋欣
(長春汽車工業高等??茖W校,吉林 長春130000)
隨著工業的發展,我國空氣質量的下降對生態環境和人類生活造成影響,人們開始通過儀器實施檢測空氣質量。電化學傳感器是把測量對象氣體在電極處氧化或還原而測電流,得出對象氣體濃度的探測器[1-2]。本題給出兩種監控儀器對兩塵四氣進行數據監測,一種是國家檢測站點,另一種是某公司自主研發的空氣質量檢測儀,它與國控點檢測儀器在同一檢測時間內檢測的數據存在差異,本題要通過自建點與國控點數據的探索性數據分析,解決兩組數據存在的差異,分析造成差異產生的因素,從而建立模型,利用國控點數據對自建點數據進行校準[3]。
數據觀察:在對問題進行探索性數據分析前,通過觀察數據發現國控點數據是按小時進行檢測,而自建點按照(對應于國控時間每五分鐘內監測),二者的樣本量存在明顯差異,但是時間范圍都是18 年11 月到19 年6 月之間。
數據的預處理:由于這兩組數據樣本差異很大,我們需要把兩組數據進行對應的處理。將公司研發的檢測儀自建點數據求取以每小時為單位的平均值來代替自建點數據,使自建點數據與國控點時段對應。經過處理后發現兩組數據均有不同時段的缺失,我們對國控點與自建點數據進行插值和剔除處理,例如在國控點18 年11 月15 日9 時-13 時數據缺失,所以我們把自建點對應這一時段的數據剔除處理。而對于個別離散點我們是通過線性差值進行缺失點的添加,從而得出新的自建點與國控點對應數據表。
探索性分析:針對問題一對自建點和國家檢測站點的數據進行探索性分析,我們按照月份進行探索分析,例如以國控點十一月探索分析結果中以PM2.5 為例,分析的工具是用直方圖、莖葉圖、制表、匯總統計量、箱圖來探索PM2.5 的集中變化趨勢。對調查和觀察得來的原始數據處理得到所有的匯總統計量,從中得出均值和中位數用于考察在總體中的集中趨勢。從正態性檢驗值sig 小于0.05 并且正態檢驗Q-Q 圖觀察得出六個指標變化趨勢都不符合正態分布,所以我們不考慮偏度和峰度。由PM2.5 莖葉圖可以直觀看出PM2.5 月平均數據以2.0-3.0,6.0-7.0 之間最多,其次1.0-2.0,3.0-4.0,8.0-10.0 之間最多。再從箱形圖得出異常值,例如PM2.5 異常值為380,379,異常值對總體集中趨勢影響較大,不能真實地反映數據的總體特征,我們把這些異常值從數據中剔除。
2.2.1 按月份對比分析
我們進行了PM2.5,PM10,CO,NO2,SO2,O3共6 個指標的對比度分析,觀察風速,壓強,降水,溫度,濕度五個因素的影響,第一步,我們對自建點和國家監測點以每月為標準進行對比,對每月平均標準數據保留一位小數,做出6 個指標月份和五個因素比較,以分析PM2.5 與PM10 的變化趨勢為例,通過對比我們發現PM2.5,PM10 在11 月至次年2 月變化差距較大,3 月到6月數據變化小,通過觀察五個因素月份的變化趨勢發現其中溫度影響關系顯著,8 個月中11 月-2 月溫度低,2 月-6 月溫度高,綜合上述11 月到2 月低溫對檢測儀影響較大,3-6 月溫度逐漸升高對檢測儀的影響較小,可見溫度影響自建點檢測儀測量數據。
2.2.2 按時段對比分析
我們以對六種指標按小時為變量分析各月份的變化趨勢,進一步說明第一步的驗證,以PM10 數據2-3 月時段分析,我們將PM10 和NO2濃度按兩個小時為一個時段分析,并討論自建點檢測指標是否與一天早晚因素變化情況有關。
由第一次分析12 月到次年3 月份溫度變化趨勢,從12 月、2 月、3 月可以明顯看出,12 月份自建點與國控點對比差距較大,3 月份兩者的差距逐漸接近,再次說明溫度對自建點檢測檢測儀有明顯的影響。假設白天的時間為8 時-20 時,其余時間為夜晚,通過分析得出自建點白天PM10 濃度與國控點數據相比較差距較小,而夜晚時自建點數據明顯偏離國控點,說明受早晚溫差的影響,并且可能由于自建點附近的社會生活的影響,如工廠制造,人群流動(夜晚人群流動較少)等因素對自建點數據造成差異。
NO2各時段濃度變化趨勢,我們分析了12 月-1 月的變化趨勢,不難看出12 月份自建點濃度與國控點差距較大,1 月份差距較小,從各月份的變化趨勢中能了解到12 月份到1 月份風速,壓強,濕度,溫度這四個因素變化趨勢不明顯,而12 月平均降水量為204.7mm/m2,1 月平均降水量111.9mm/m2,并從所有NO2濃度數據中得出NO2濃度變化不受早晚時間影響,這說明因為降水量減小對自建點檢測儀檢測的數據接近國控點,降水量對自建點檢測儀檢測NO2數據會產生影響。
綜上所述,從兩個角度的對比發現國控點數據與自建點數據存在差異的原因主要受季節溫度和早晚溫差的影響,通過資料查詢也存在濕度和降水對檢測指標產生影響,我們通過建立多元回歸模型分析這些因素。
使用國控點數據,建立合理的數學模型對自建點數據校準,首先利用預處理的國控點和自建點數據進行分析,我們通過做x,y 散點圖直觀可以看出數據分布狀況,以PM2.5 在2-6月的散點圖呈線性趨勢,因此我們選擇多元線性回歸模型。
2.3.1 模型的建立
建立校準數據的多元線性回歸模型,以自建點數據減去國控點數據為因變量,以溫度、濕度、風速,壓強、降水量五個因素為自變量,又根據第二問分析結果,季度對數據影響較大,故我們考慮以月份劃分進行模型建立。
設n 個相互獨立的實驗觀測數據為
下面以PM2.5 為指標,將數據帶入數學模型進行求解。
2.3.2 模型的求解
我們利用SPSS 軟件進行逐步線性回歸,得到結果如表1 所示:

表1 模型匯總
從表1 中我們可以看到模型五的R 方值最接近1,說明第五個模型擬合優度好,且與五個因素都有關,得到PM2.5 回歸方程3-6 月份的回歸系數。
得到PM2.5 的多元線性回歸模型為:
11 月-2 月:W* 0.399S 0.359P 2.559F 0.209T 373.592
3 月 -6 月:W* 0.42S 0.046J 0.518P 5.202F 0.139T 551.567
利用同樣方法得到其他指標的多元線性回歸方程。對回歸方程分析:PM2.5 回歸方程受五個因素的影響,PM10 回歸方程3-6 月受溫度影響較小CO 回歸方程3-6 月受降水量影響不顯著,1-2 月份受溫度和降水量的影響較小,11-2 月受降水和壓強影響較小。NO2回歸方程11-12 月受溫度影響較小,SO2回歸方程3-6 月份受壓強影響較??;O3回歸方程11 月-2 月受濕度影響較小。

表2 系數
2.3.3 模型檢驗

將結果進行擬合優度檢驗及F 檢驗。例如在PM2.5 指標在3 月-6 月中回歸函數進行檢驗,我們看到R20.52 擬合度較好,F 檢驗中sig 值0.023<0.05,線性程度顯著。
溫度是影響數據的主要因素,而其他因素是否影響需要進一步分析。我們把預處理的兩組數據按月份分析,得出某指標的月份散點圖,得出該數據呈線性趨勢,確定為線性回歸模型,做出合理的模型假設,建立多元線性回歸模型,應用數學軟件SPSS 將各個影響因素逐步回歸,運算出回歸系數,并檢驗模型的擬合優度和線性趨勢取得較好的效果。