王雅雪 李城 劉霆



摘 要:針對不同大霧情況下的能見度,建立估計與預測模型。通過建立多分類的多元回歸模型,研究能見度與地面氣象影響因素之間的關系,并對大霧的能見度進行預測。利用2020年研究生數學建模競賽E題所提供的數據,用主成分分析進行降維,分析每個變量對能見度的影響規律,建立多分類多元回歸模型。模型結果表明,風速對能見度的影響程度最大,呈正相關關系;氣壓越高,能見度越低;溫度越高,能見度越大;濕度對能見度的影響程度最小,呈負相關關系。預測結果表明,八點過后能見度逐漸增大。
關鍵詞:能見度;氣象因素;主成分分析;回歸模型;預測
中圖分類號:O212? 文獻標識碼:A? 文章編號:1673-260X(2021)01-0009-04
引言
在日常出行中,公路,飛機等都需在意天氣問題,尤其是霧霾情況下。而大霧和霾直接影響著能見度這一指標。在能見度很低時,高速公路以及航空公司均會采取封路取消航班等措施。因此,能見度的預測是高速公路和航空公司十分關注的問題。
本文所用資料為2020年“華為杯”研究生數學建模E題所給資料及數據。根據競賽提供的數據建立模型,探究能見度與地面氣象因素的內在關系,并進行預測。
1 模型的建立與求解
1.1 數據處理
原數據給出5755個數值,時間跨度為從北京時間的2020-3-12 8:00到2020-3-13 7:59,每一分鐘給出4個數值。將數據進行整合,經過基本的數據篩選,選用每分鐘的4個數值的平均值x1,x2,…,x2929個變量作為研究對象,每個指標的數據都從5755個值縮減到1437個值[1]。
原始數據給出29個變量,但其中有很多變量反映的是同一個信息,為進一步判斷這些變量之間是否存在線性相關,對這些變量進行多重共線性檢驗。
共線性可以通過共線統計的方差膨脹因子VIF值來判斷,若該值大于5時,則認為自變量可能存在多重共線性的問題。通過SPSS中對上述29個指標變量計算方差膨脹因子如表1所示。
上表顯示超過95%的變量的方差膨脹因子VIF的值大于5,說明各個變量指標之間存在著多重共線性,因此不可以直接對上述29個變量進行建模,需要對變量進行進一步降維處理。
采用主成分分析的方法進行降維來處理高維數據,通過正交變化的方式將高維數據盡可能少的投影到低維空間,從而達到簡化數據結構的目的[2]。解釋總方差結果如表2。
由上表可知,相關系數矩陣的特征根分別為:1=14.006,2=6.401,3=2.083,4=1.485,5=0.915,6=0.561等等,我們發現只有前4個主成分的特征值是大于1,且其方差占所有主成分方差的85.63%,即包含了原始變量的85.63%的信息。一般情況下,主成分累計貢獻率達到80%即可滿足。該結果可以直接通過碎石圖看出,如下圖所示。
上圖顯示在第四個因子之后逐漸趨于平緩,在之后的回歸建模時可以取前4個主成分。
根據4個主成分對原指標變量的提取程度,將其4個成分分別命名為風速、氣壓、溫度、濕度,用y1,y2,y3,y4表示。
1.2 模型形式設定
給出的影響因素中,有一個因素是風向,該指標的單位為度,取值在0-360之間,由于風向不具有可加性,不能將其加入模型,再考慮風向因素對能見度的季節性影響尤為重要,因此需要對該變量進行處理。進行數據挖掘將風向分為四類,從而構造3個0-1虛擬變量。將0-90之間的數值取為第1類,為東北方向;將90-180之間的數值取為第2類,為西北方向;將180-270之間的數值取為第3類,為西南方向;將270-360之間的數值取為第4類,為東南方向[3]。
D1=1,東北方向0,非東北方向,D2=1,西北方向0,非西北方向,
D3=1,西南方向0,非西南方向。
根據主成分分析結果,用y1,y2,y3,y4這4個主要變量作為自變量、風向作為虛擬變量建模,為之后根據不同地域的風向預測大霧消散情況做一個理論基礎。模型如下:
Z=f(y1,y2,y3,y4,D1,D2,D3)
其中:Z為能見度;y1,y2,y3,y4分別為風速、氣壓、溫度、濕度;Di,i=1,2,3為方向。
現根據上述得到的風速、氣壓、溫度、濕度4個變量指標,分別做出各個變量關于能見度Z的趨勢圖,初步探究之間的關系。如下所示:
由圖2可知,風速與能見度呈正相關關系。雖有一個特殊峰值,但是大致呈線性關系。
由圖3可知,氣壓與能見度呈負相關關系,大致呈線性關系。
由圖4可知,溫度與能見度呈正相關關系。能見度隨溫度的升高而增大,前期增大幅度漸漸變小,呈現對數關系;后期增大的幅度漸漸變大,呈現二次關系;圖像整體呈線性關系。因此將溫度變量納入模型時,分別考慮其對數形式、一次形式和二次形式。
由圖5可知,濕度與能見度呈負相關關系。隨濕度增大,能見度逐漸變小;一開始能見度變小的幅度很大,漸漸幅度減小。考慮將該變量的負一次形式納入模型[4]。
基于溫度變量隨能見度的變化趨勢圖,認為溫度變量與能見度的關系可能是對數關系、一次關系和二次關系,因此分別將溫度變量的對數形式、一次形式和二次形式納入模型。基于濕度變量隨能見度的變化趨勢圖,認為濕度變量與能見度的關系可能是一次關系和負一次關系,因此分別將濕度變量的一次形式和負一次形式納入模型。考慮到不同變量納入模型的不同形式,分別建立5種模型,最終根據擬合程度選出一個最優模型。
建立以下五種模型,依次記為a~e:
Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (a)
Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (b)
Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (c)
Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4+?茁1D1+?茁2D2+?茁3D3 (d)
Z=c+?琢1y1+?琢2y2+?琢3y32+?琢4+?茁1D1+?茁2D2+?茁3D3 (e)
其中:Z為能見度;y1,y2,y3,y4分別為風速、氣壓、溫度、濕度;Di,i=1,2,3為方向。
1.3 參數估計
該參數的p值都小于0.05,均通過顯著性檢驗。
1.4 模型檢驗
1.4.1 統計檢驗
從上表可以看出,五種模型的F統計量的p值均為0,則說明這些方程在統計上均是顯著的。其次,通過擬合度R2、標準誤差、以及F統計量顯示,d模型的各項數據均優于其余4個模型,因此在這里選用模型d,模型方程為:
Z=f(y1,y2,y3,y4)=940394+1075.74y1-929.2969y2
+658.8416y3+1822.342+600.2985D1
-81.08468D2+430.219D3
四個方向的平均能見度為:
東北方向:
E(Z|D1=1,D2=0,D3=0)=940399.43+1075.744y1
-929.2969y2+658.8416y3+1822.342
西北方向:
E(Z|D1=0,D2=1,D3=0)=940313+1075.744y1
-929.2969y2+658.8416y3+1822.342
西南方向:
E(Z|D1=1,D2=0,D3=1)=940824.2+1075.744y1
-929.2969y2+658.8416y3+1822.342
東南方向:
E(Z|D1=0,D2=0,D3=0)=940394+1075.744y1
-929.2969y2+658.8416y3+1822.342
1.4.2 預測檢驗
從建模樣本外的測試樣本中的原數據中隨機取出10個數值,對比模型擬合預測出的濃度值與實際值[5],如表5所示。
上表可以看出,幾乎所有的預測值與真實值之間的相對誤差都小于1%,大部分的相對誤差在0.1%附近,模型擬合較好。
1.5 結果分析
上述建立的模型可知,風速對能見度的影響程度最大。風速越大,能見度越高,風速變化1個單位,能見度變化1075.7個單位;氣壓與能進度呈負相關關系,氣壓越高,能見度越低,氣壓上升1個單位,能見度降低929.3個單位;溫度越高,能見度越大,溫度升高1個單位,能見度增大658.8個單位;濕度對能見度的影響程度最小,濕度越大,能見度越低[6]。
2 外推預測
用該模型對之后的大霧情形下的能見度進行預測,預測結果如表6。
預測趨勢整體平緩,有上升趨勢。預測結果圖如圖6,紅色線段為原數據的圖像,藍色線段為預測部分圖像,虛線為趨勢線。圖中可以看出,能見度變化不大,略微有變大趨勢。
3 結語
(1)在8:00到14:30,能見度逐漸增大并達到峰值;14:30之后的時間段,能見度逐步降低。在16:14時間點附近,能見度出現急速下降。
(2)能見度與風速、溫度成正相關關系,與風速、氣壓呈負相關關系,與方向因素關系不大。
(3)風速越大,能見度越高,風速變化1個單位,能見度變化1075.7個單位;氣壓越高,能見度越低,氣壓上升1個單位,能見度降低929.3個單位;溫度越高,能見度越大,溫度升高1個單位,能見度增大658.8個單位;濕度越大,能見度越低。
本文考慮到了5種不同的模型形式,估計了未來10個預測值,在之后的研究中,會深入挖掘各影響因素對能見度的影響程度與趨勢,建立更適合的模型并進行長期預測。
——————————
參考文獻:
〔1〕周建平,張蕾,王傳輝,姚葉青,劉承曉.大霧臨近預報中高密度能見度數據應用[J].氣象科技,2019,47(05):866-871.
〔2〕陳玉蓉.四川盆地低能見度天氣的變化分析及其對機場運行的影響[D].中國民航大學,2019.
〔3〕白小云.咸陽機場大霧低能見度資料的分析與應用[A].中國氣象學會.第34屆中國氣象學會年會S16智能氣象觀測論文集[C].中國氣象學會:中國氣象學會,2017:10.
〔4〕程航.大連地區大霧氣候特征及成因研究[D].蘭州大學,2014.
〔5〕劉炳杰.環渤海低能見度分析及短期預報方法研究[D].蘭州大學,2010.
〔6〕白小云.咸陽機場大霧天氣能見度的觀測[J].陜西氣象,2005,63(04):42-43.