小巴桑次仁, 索朗塔杰, 杜媛芳,3, 拉巴次仁
1.西藏大學 理學院,拉薩 850012;2.西藏自治區氣象局,拉薩 850011;3.武漢大學 經濟與管理學院,武漢 430072
青藏高原獨特、多變的氣象特征是氣象學的熱點研究領域.針對青藏高原及其周邊復雜地形下的大氣結構和地—氣物理交換過程等方面的研究已獲得了豐碩的成果,然而廣袤的高原卻由于地面氣象觀測站分布較少且極端天氣、自然災害等客觀原因,很多觀測站數據存在缺、漏等現象,無法提供豐富的實時觀測有效數據.因此如何提高觀測數據質量,用少量的不連續的觀測數據修補缺失數據是基礎數據研究領域非常重要的科學問題.本文基于嚴重不足的氣象數據,采用POD(proper orthogonal decomposition,本征正交分解)優化后形成的Gappy POD算法與模式相結合的方式重構了近地面水平風速.
本文研究區域(圖1)為中國西藏那曲地區中東部一帶,平均海拔超過4 500 m,具有典型的復雜高山地形特色.該區域常年大風天氣,且由于地形原因風場呈現復雜結構以及高度空間變異性特點[1].這些因素使得中尺度模型[2]的計算變得極具挑戰性.除去地形復雜的特點之外,該廣袤區域內氣象觀測站較少且分布極度稀疏,導致數據分析的經典方法和基于大氣運動方程的數值算法無法對氣象要素進行高精度預測或重構.本文采用模式與觀測數據相結合的思路,利用美國國家大氣研究中心(national center for atmospheric research,NCAR)的中尺度WRF(weather research and forecast)模式[3-5]計算了研究區域內格點數據并以此為基礎進一步計算了區域內宏觀風場特征以及風速特征;本文建立的Gappy POD算法的主要優勢在于實現了利用局部觀測數據調整宏觀氣象特征所存在的系統誤差從而重構所得氣象要素,兼具宏觀大氣運動規律和局部觀測數據精度高的特點.

圖1 地面氣象觀測站分布圖
若研究區域內缺失數據較為嚴重則一般空間插值或外推方法無法較好地處理缺失值問題或重構問題.比如POD是一種用于提取離散數據特征信息的降維技術,而缺失值較多時該方法在一定程度上失效.本文通過優化原經典L2范數達到彌補POD方法在缺失數據下的不足.為了提高氣象要素場的重構精度,本文在研究區域內利用WRF模式[6]計算了相應氣象要素在所有格點處的輸出值從而建立了風速場的POD基,即代表該區域的宏觀氣象特征.觀測數據在本文中視為真值(近似為零誤差).利用觀測數據矯正POD基的精準度,從而反演區域內任意一點處的氣象要素值.文中所采用的思想屬于如今很多科學家提倡的“弱機理”思想范疇,即模型與數據結合的研究模式[7],體現宏觀大氣運動規律與局地觀測數據的較好結合,因此該方法在很大程度上優于純粹的數據挖掘技術(無機理)或純粹的基于物理規律的技術(強機理).
本文的研究區域分布著8個較穩定的地面氣象觀測站,分別為安多、班戈、比如、嘉黎、林芝、納木錯、那曲和聶榮站.本論文采用交叉檢驗(cross-validation)的方法,將7個觀測站的數據用于訓練算法,剩下1個觀測站選為測試站.本文采用2014年8月8日02:00至2014年8月29日02:00期間近地面層10 m逐半小時水平風數據,因此每個觀測站共有312個連續的觀測數據值.8個觀測站分布在研究區域內3 km等間距分布的2 160個網格點之間,具體格點與訓練觀測站以及測試觀測站分布如圖2所示.本文采用的方法適用于觀測站與網格點位置的任意分布情況.

圖2 格點、訓練觀測站以及測試觀測站分布圖
WRF模式是一種中尺度天氣預報模式,其先進的數據同化技術、功能強大的嵌套能力和先進的物理過程使得它適用范圍廣泛.WRF模式反映大氣的物理運動規律.而由于地形和氣象現象的復雜性,WRF模式在區域性和中小尺度的模式輸出方面通常具有較高的系統偏差.本文將充分利用觀測數據、模式輸出和算法相結合的方式,確保重構數據既滿足大氣運動規律又同時具有局部測量數據的特征.
WRF模式計算所用的初始數據為美國國家環境預報中心2014年的實時gft風數據并且參考了文獻[8]中針對青藏高原設計的WRF物理參數.在本文中設置了兩層嵌套網格,每層均設置36*60個網格點,內外層網格格距分別為3 km和9 km.WRF模式輸出值WRFout為離地面10 m高風場緯向分量U10和徑向分量V10,輸出值間的時間間隔為30 min.圖3顯示WRF運算所得風速值在大部分時間點處高于實際觀測風速值,因此該現象可理解為WRF系統性誤差.

圖3 7個訓練觀測站點處觀測風速和WRFout風速的比較
在觀測數據嚴重缺失時經典POD方法往往由于無法求解L2范數從而失效.Gappy POD的主要思想為通過建立面具陣(mask matrix),將求解L2最小值的問題降緯至已有數據的緯度從而將原問題轉化為低緯度上的L2范數最值問題.
文中d1,d2,d3分別表示網格點數、訓練所用站點數和檢驗測試所用站點數,且相應數值分別為d1=2 160,d2=7,d3=1.

(1)

為了推導方便,將訓練集和測試集分別寫成如下形式:
(2)


(3)

(4)

令矩陣P∈Rd2×(d1+d2)具有如下形式,
(5)
其中:O為d2×d1的零矩陣;I為d2×d2的單位陣.矩陣P取名為面具陣.將該面具陣作用于原最小值問題,從而得
(6)
(6)式中各項維度均相等,因此該問題轉化為經典最小值求解問題.針對存在缺失數據的POD問題,Gappy POD算法[9-16]可通過面具陣將模型中存在缺失數據的項移除(隱藏).經簡易推導可求得上述問題解的表達式如下:
(7)
本文結合7個訓練觀測站數據以及研究區域內WRFout格點數據,通過Gappy POD算法重構了研究區域內任意點處離地10 m的水平風場數據,取得了較好的效果.
首先,經比較可知,測試站點處單獨采用WRF模式計算所得風速平均誤差為2.262 1,而經過Gappy POD方法進行風速重構后平均誤差可降至1.838 4(如圖4所示,其中藍色曲線表示WRF模式在測試站點處的風速重構誤差,紅色曲線表示采用Gappy POD后在測試站點處風速重構的誤差,兩條直線分別為對應顏色曲線的線性擬合),因此當觀測數據質量較差時,如某些站點觀測數據與真實情況相差較大以及站點的數據在某些時間段存在缺失等現象時,Gappy POD方法可用于提升觀測質量.

圖4 風速重構誤差
其次,Gappy POD方法可應用于提取氣象要素的宏觀特征.圖5展示了采用Gappy POD算法在26 h內的6個時間點所重構的所有網格點處的水平風場.由于網格點個數遠大于觀測站點的個數,因此所重構的每個格點處的數據精度有待進一步提升.然而該方法不同于數據同化,可以在采用較低計算成本的基礎上對氣象要素在研究區域內的整體特征提供一定的參考信息.

圖5 6個時間點的水平風場重構圖
最后,本文方法可用于重構研究區域內的任意點作為的預測點,均能取得較好的重構效果.比如,在那曲市偏僻山區處建設信號基站時,可采用本文方法重構候選點處的高精度風速數據.
本文通過研究西藏那曲一帶地形復雜和觀測站分布稀疏區域的風速重構問題,介紹了流體力學領域處理缺失值問題的Gappy POD方法,并且將該方法應用于風速重構問題.文中采用Gappy POD算法將模式與觀測數據結合的方式提升了模式的重構精度.本文介紹的方法在處理小尺度且數據量小的氣象要素重構問題時具有精度高、易于操作以及計算成本低的特點,并且文中介紹的方法可以應用于解決其他氣象要素的缺失值處理和重構問題.本文也展示了采用該方法重構所有格點處水平風場數據的結果,然而數據同化并非本文研究的目的和文中方法的主要特點,因此采用該方法重構所有格點數據的結論僅在認識研究區域內氣象要素宏觀特征時做為參考.