楊榮芳,馬瑞琪,張光磊
(1. 河北省氣象技術裝備中心,河北 石家莊 050000;2. 北京華云東方探測技術有限公司,北京 100081)
L 波段探空系統是我國具有獨立知識產權的高空氣象探測系統,可連續自動測定高空的氣溫、濕度、氣壓、風向、風速等氣象要素值,由于其觀測數據具有高時空分辨率、質量可靠、時間序列長、能夠完整描述大氣三維結構等諸多優點,在天氣學分析、云垂直結構分析以及人工增雨等領域中發揮重要作用,更是在同化中用以改善模式初始場質量、提高數值預報精度所不可或缺的基本資料[1-9]。但是在實際觀測數據過程中,L 波段探空系統也存在多種因素影響著測量的準確性,其誤差來源通常有太陽輻射、電路自加熱效應、傳感器滯后性等,還有人為原因和儀器性能本身造成觀測數據的缺失,盡管對帶有這些誤差的觀測資料進行了系統訂正,但仍會存在誤差,從而使探空觀測資料的質量下降[10-13]。由于部分數據點缺測,造成探空曲線中存在著明顯的間斷層和數據的不連續性,嚴重影響了數據進一步的使用效果。為獲得連續的數據,解決L 波段探空秒級數據因部分層次資料缺失導致數據不完整性的現象,通常采用插補方法來實現,即在已有觀測數據基礎上通過空間插補方法預測未知點數據值,獲取較為精確的氣象數據,以便預報人員分析L 波段探空秒級資料水平和垂直結構特征。
常用的插補方法有多種,目前,氣象上常用的模擬方法大致可分為線性插值、拉格朗日插值、三次樣條插值和一維傅里葉快速插值等多種插值方法[14-16]。每種插補方法有其各自的特點和相應的適用范圍,這些插補方法均是建立在空間自相關或在空間屬性平滑連續的假設之上。國內外研究學者為得到可靠精度的插補方法,提出了大量的插補模型和改進算法,基本上可歸納為兩類[17]:一類是數據上的改進,通過增加數據的輔助信息以提高插補模型的精度。另一類則是數學模型上的改進,同樣的數據源采用改進的數學算法,以獲取更優的插補模型。
樣條函數法是在由給定的一組節點分成若干個小區間,通過滿足樣本值與擬合值之差的平方和最小的方差控制方案,用低次多項式擬合的方法來產生平滑的插補函數。樣條函數法插補主要適用于逐漸變化的表面,對于分布均勻的數據是最光滑的插補方法。因此在綜合考慮誤差估計、數據結構及計算簡便時,使用樣條函數法進行氣候數據插值不失為一個好的選擇[18-19]。許小勇等[20]對三次樣條插值函數進行了構造論述,并給出了算法步驟。朱亞玉等[21]提出了基于分段三次樣條函數逐時氣象資料模擬方法研究。結果表明: 分段三次樣條函數插值法可有效模擬實際氣溫的變化特征,且同樣適用于其他連續性變化的氣象要素的逐時模擬。由于樣條函數插補不僅具有良好的收斂性和穩定性,而且其光滑性也高。潘霄等[22]分高度層采用三次樣條插值的質量控制方法,對上海地區2016 年11 月探空氣溫觀測資料進行插值。結果表明三次樣條插值的質量控制效果顯著,能有效地標記出氣溫觀測數據中的可疑值。通過對臨近點插值、線性插值和三次樣條插值進行比較,臨近點插值和線性插值計算速度快,插值結果不光滑,連續性差,三次樣條插值結果最光滑,但是在已知數據分布不均勻的時候會出現異常結果。在L 波段探空秒級數據中,由于缺測數據的存在使得探空數據在垂直方向分布并不均勻,因此在使用三次樣條插補可能出現異常結果,尤其在范圍較大的缺測數據情況下,會出現龍格現象。為避免發生龍格現象,本研究在對比各種插值方法基礎之上,提出基于插值半徑和參與插值計算的因子個數約束條件的三次樣條插值算法。通過查文獻獲知,目前國內學者尚無對三次樣條函數插補算法改進的研究。利用改進三次樣條插補算法對河北省3 個探空站點2015—2019 年的觀測資料氣溫、相對濕度(以下簡稱“濕度”)和風等氣象因子進行插補,通過交叉檢驗評估了插補結果的可行性和準確性,分析比較不同季節下、降水和晴空條件下的插補結果誤差。
本文采用的數據為高空氣象臺站直接觀測的各要素定時觀測值資料,未經過嚴格質量控制。數據研究范圍為2015—2019 年河北省邢臺、張家口、樂亭3 個探空站點L 波段探空秒級基數據,站點分布如圖1所示。

圖1 河北省探空站點空間分布圖
對L 波段探空秒級數據進行數據缺測檢查預處理、基本參數允許值范圍檢查和臺站氣候學界限值檢查,控制要素為氣溫、氣壓、相對濕度、風速,剔除超出判據范圍的異常值、缺測值、錯誤值和突跳值等。
為了探究L 波段探空秒級數據的數據缺測情況,本研究分低(0~10 000 gpm)、中(10 000~20 000 gpm)、高(20 000 gpm 以上)三個高度層進行評估,計算出現連續缺測1 次、連續缺測2 次、連續缺測大于等于3 次的數量分別占對應高度層總樣本數的百分比即為缺測率,選取了邢臺站2015—2019 年探空數據進行缺測率計算(表1),缺測1次在低空出現最多,連續2次及以上缺測在中高空出現較多。高空出現大范圍連續缺測數據的原因可能是高空溫度、濕度較低且變化情況復雜,對探空儀器靈敏性影響較大。探空數據存在缺測尤其是連續缺測會導致大量有價值的信息丟失,影響數據的連續性,因此需要對數據進行插補,提高數據的完整性,補充氣象要素垂直結構特征。

表1 不同高度下探空數據的缺測率
本研究采用改進的三次樣條插補算法,即將插補區間分為若干個小區間,在每個小區間上運用三次樣條插補方法構造低次插補多項式,以達到適當縮小插補區間長度,提高插補精度的目的。依據盡可能在插補點的鄰近選取插補節點的原則,由三次樣條插補定義可知,三次樣條插補結果和插補半徑的選取以及影響因子的個數有直接的關系。依據空間插補的基本假設估算點的數值受到臨近控制點的影響比較遠的控制點的影響大的原則,以探空資料的位勢高度為整個插補區間,平均分成若干個子區間,考慮到三次樣條插補法受權重因子和控制頂點選擇不當,會引起數據畸變,產生病態結果,曲線會呈現凸包性的影響。
改進三次樣條插補算法步驟如下。
(1) 對2015—2019 年L 波段探空秒級基數據氣溫、相對濕度和風速氣象要素進行質量控制,包括基本參數檢查、氣候學界限值檢查、要素內部一致性檢查。
(2) 預先設定插補半徑和參與計算權重因子個數的初始值分別為R和N,然后在計算的過程中不斷根據計算結果調整R和N的值,直至出現最優解,本研究最優解以被插值點±40 gpm 為插值半徑,取有效權重因子個數≥3個進行插值。
(3) 在R為垂直插補半徑范圍內統計非缺測值個數,如非缺測值個數大于等于N,則對溫、壓、濕、風各觀測要素被插值點進行三次樣條函數插補,反之,則設為空值。
(4) 采用交叉驗證的原則,先剔除非缺測位置的溫、壓、濕、風數據,然后在各要素對應位置進行插補,計算插補結果和觀測值的誤差并進行指標分析,構造最優的改進三次樣條插補算法,記為改進的三次樣條插補算法。
檢驗探空數據插補方法效果的標準是評價插補結果與真實值之間的差異程度,本文采用交叉驗證的方法,具體做法如下:首先移除一個有效(非缺測)數據,記為省略點,然后用關聯的數據值進行插補。將省略點位置的插補值與實測值相比較。然后對下一個點重復此過程,以此類推。交叉驗證會對所有點的插補值與實測值進行比較[23]。
對不同氣象要素的探空數據插補序列進行評估,檢驗其實際插補效果,使用均方根誤差(Root Mean Square Error,RMSE)和絕對誤差(Absolute Error,AE)作為實際插補精度的評價指標。用均方根誤差來表征插補數據分布的離散程度,均方根誤差和絕對誤差定義分別如公式(1)和公式(2)所示:
其中,Si為原數據,Gi是插補數據,m為樣本總數,RMSE 指標表征插補結果的離散程度,RMSE 的值越小,說明預測模型擁有更好的精確度。AE 指標表征插補結果誤差的實際情況,AE 對應的值越趨近于0,表示插補效果越好,插補精度越高。
為驗證改進后的三次樣條函數插值方法的優越性,本研究以邢臺站為例選取了RMSE 和AE 兩項誤差指標對L 波段探空秒級數據觀測資料的插補效果進行評估。隨機抽取邢臺探空站2015 年1月1 日的L 波段探空基數據和插補后數據,圖2~圖4 分別給出了氣溫、相對濕度、風速的基數據和采用改進三次樣條插值結果的垂直廓線和AE 分布。利用改進后的三次樣條插值方法對氣溫、相對濕度和風速基數據插補,插補后與基數據廓線趨勢一致,能夠很好插補基數據中的缺測值,較好地表現出數據變化特征。圖2b 和圖4b 顯示出插補后氣溫數據與基數據的AE 變化范圍大多集中在±0.1 ℃之間,插補后風速數據與基數據的AE變化范圍在±0.6 m/s之間,AE值較小,證明改進后的三次樣條插值算法對于探空氣溫和風速觀測資料均有較好的模擬效果。圖3a 可看出,樣本相對濕度原數據缺測率較高,結合探空氣溫數據曲線分析,在5 000 gpm左右,氣溫垂直遞減率達到最高,對應高度相對濕度開始出現連續大范圍缺測值。其原因可能是儀器本身存在缺陷,在低溫條件下被凍結,會導致相對濕度感應元件癱瘓,無法獲取相對濕度[24]。插補后相對濕度數據與基數據的AE 變化范圍在-1.0%~+0.7%之間,證明本方法在基數據質量較差的情況下仍有較好的插補效果。經分析,張家口和樂亭站的探空數據插補效果誤差分析與邢臺站結果一致。

圖2 2015年1月1日探空觀測和插補后氣溫數據垂直分布的比較

圖3 2015年1月1日探空觀測和插補后相對濕度數據垂直分布的比較

圖4 2015年1月1日探空觀測和插補后風速數據垂直分布的比較
為驗證改進三次樣條插值方法的穩定性,分析在基數據不同缺測率的情況下的插補效果,從春夏秋冬四個季節的基數據中隨機抽取了在插補半徑范圍內且缺測率為10%的4 組樣本和缺測率為25%的4 組樣本,計算其插補前后的RMSE(表2)。缺測率為10%的樣本平均RMSE 為0.085,缺測率為25%的樣本平均RMSE 為0.050。表明原數據連續缺測值較多的情況下,改進三次樣條插值方法仍有較好的插補精度,進一步驗證了本方法的有效性和穩定性。

表2 不同缺測率情況下插補數據的RMSE值
對探空資料插補結果分季度進行檢驗評估,分為春、夏、秋、冬四個季節,春季為每年的3—5月,夏季為6—8 月,秋季為9—11 月,冬季為12 月至次年2 月。抽取邢臺探空站2015 年春季、夏季、秋季和冬季的白天、夜間各90 組L 波段探空平均氣溫、平均相對濕度、平均風速基數據樣本,采用改進三次樣條算法插值。通過交叉驗證對改進三次樣條插值法的模擬效果及穩定性進行比較,模擬效果的指標RMSE 情況如圖5 所示,圖6~圖8是春夏秋冬四個季節的平均氣溫、平均相對濕度、平均風速的基數據和采用改進三次樣條插值結果的AE垂直分布。

圖5 春夏秋冬不同時間段的原數據序列和插補前數據序列的RMSE值

圖6 不同季節探空氣溫原數據和插補后數據的AE值
通過對春夏秋冬和白天黑夜不同時次的插補結果的指標評估,進一步分析改進三次樣條插值方法在時間尺度上的性能。由圖5a 和圖6 可看出,春夏秋冬四個季節,探空平均氣溫的RMSE 變化不大,總體RMSE 值均小于0.1;AE 變化范圍也大多數在±0.1 ℃之間。夏季、秋季白天和夜間的RMSE 變化不大,春季和冬季白天的RMSE 略高于夜間,兩者之間的差異小于0.01。誤差指標較小證明改進三次樣條插值方法對于探空平均氣溫觀測資料的模擬效果良好,且具有良好的穩定性,適用于各個季節不同時次的探空氣溫質量控制。由圖5b 和圖7 可看出,平均相對濕度的RMSE 在不同季節的變化較大,夏季夜間最高秋冬季節夜間最低,二者相差超過0.15。這可能是由于夏季的降水比秋冬季節頻繁,導致夏季云層出現頻率較高。探空球在上升過程中,濕度傳感器穿過云層容易出現大范圍異常值,導致夏季插補效果不如冬春季節,以上結論與唐南軍等[25]的研究結果一致。此外,平均相對濕度AE 低空大于高空,春夏季節AE 高值區集中在15 km 以下,秋冬季節AE 高值區集中在10 km 以下,原因可能是由于春夏季節邊界層較高,秋冬季節邊界層較低,受傳感器自身性能影響,探空儀穿過云層探測到的相對濕度變化比較劇烈,造成數據連續性較差,導致低空相對濕度插補結果AE相對較高。總體而言,平均相對濕度的RMSE 小于0.3,AE 在±1 范圍內,證明改進三次樣條插值方法對不同季節平均相對濕度數據的模擬均有較好的效果。不同季節的平均風速的RMSE 均小于0.2(圖5c),春季最高夏秋季節最低,但變化不大;AE 也大多數集中在±0.6 m/s范圍內(圖8),冬春季節插補平均風速的AE 多為正值,表明探空平均風速插補數據存在低估現象,夏秋季節插補平均風速的AE多為負值,插補平均風速存在高估現象。由此可見,改進三次樣條插值方法對于春夏秋冬各個季節探空平均風速的模擬精度高穩定性好,可以較好地插補探空平均風速數據。經分析,張家口和樂亭站的探空數據插補效果誤差分析與邢臺站結果一致。

圖7 不同季節探空相對濕度原數據和插補后數據的AE值

圖8 不同季節探空風速原數據和插補后數據的AE值
對比降水和晴空條件下改進三次樣條插值方法的插補結果誤差情況,分析降水條件對插補結果的影響對方法后續的業務應用具有重要的參考價值。本研究選擇2015 年7 月21 日作為降水樣本、2015 年1 月1 日作為晴空樣本,繪制了降水條件下探空氣溫、相對濕度和風速的AE垂直分布圖(圖9)。分析圖9 和圖7 可看出,降水天氣情況下,相對濕度的AE 值較高,在±1.3 之間,相對濕度的RMSE 值為0.29,晴空條件下相對濕度的AE 的范圍在±0.6%之間,RMSE 值為0.18。分析結果表明,在降水天氣條件下相對濕度的插值結果誤差高于晴空天氣下,可能由于濕度垂直變化情況復雜多變,探空相對濕度數據質量較差,插補結果偏離率較高。而在有降水條件下的探空氣溫的RMSE 為0.06,探空風速的RMSE 為0.13,均與晴空條件下氣溫和風速的RMSE 相差不大。使用改進三次樣條插值方法對相對濕度的插補效果在晴天好于有降水天氣,對氣溫和風速的插補效果不受晴空天氣條件和降水天氣條件的影響。經分析,張家口和樂亭站的探空數據插補效果誤差分析與邢臺站結果一致。

圖9 降水條件下探空原數據和插補后數據的AE值
本文通過對L 波段探空秒數據插補算法研究,提出對三次樣條增加約束條件得到改進的三次樣條插補方法,并對2015—2019年河北省邢臺、張家口、樂亭3個探空站點L波段探空秒級數據集進行質控,用誤差指標分析該方法的插補效果和穩定性。結果表明改進后的三次樣條插補方法有較好的收斂性和穩定性,誤差相比其他插補方法較低,擬合效果良好。
(1) 改進的三次樣條插值是對三次樣條插值計算增加約束條件,限制參與插補計算的權重因子個數和插補半徑,本研究以被插值點±40 gpm為插值半徑,取有效因子個數≥3 個進行插值。在增加模擬曲線光滑的同時,能有效避免三次樣條插值在缺測范圍比較大時帶來的龍格現象。
(2) 改進的三次樣條插值適用于L波段探空數據質量控制,在探空氣溫、相對濕度和風速資料的缺測率較高的情況下仍有較好的插補效果,插補后氣溫數據與基數據的AE 變化范圍大多集中在±0.1 ℃之間,風速數據的AE變化范圍在±0.6 m/s之間,相對濕度的AE 變化范圍在-1.0%~+0.7%之間,插補后結果與基數據相比RMSE 和AE 值均偏小,說明該方法擬合精度較高,質控效果較好。
(3) 通過對L 波段探空秒級基數據使用改進三次樣條插值算法插補,平均氣溫插補序列在時間和空間上穩定性較好;平均相對濕度在秋冬季節插補效果優于春夏季節,高空插補效果優于低空;平均風速插補數據在冬春季節存在低估現象,在春夏季節存在高估現象,整體誤差較小。
(4) 分析在有無降水條件下改進三次樣條插值算法的插補效果,探空氣溫和風速在晴空條件下的AE 和RMSE 與降水條件下相差不大,探空氣溫的RMSE 為0.06 左右,探空風速的RMSE 為0.13 左右,晴空條件下相對濕度的AE 的范圍在±0.6%之間,RMSE 值為0.18,均小于有降水天氣,表明改進三次樣條插值方法對相對濕度的插補效果在晴天優于有降水天氣,對氣溫和風速的插補效果不受晴空條件和降水條件的影響。
通過改進的三次樣條插補算法對缺測探空數據進行插補,形成連續且均一性較好的氣象要素數據,能更好研究溫、壓、濕、風等氣象要素的細致垂直結構特征。在后續的研究和應用中,將探空插補數據集運用于氣候統計分析和模式同化中,進一步檢驗該算法的有效性。