王 根,劉曉蓓,楊 寅,孔芹芹
(1.安徽省氣象信息中心,安徽合肥230031;2.國家氣象中心,北京100081)
數值天氣預報(Numerical Weather Prediction,NWP)已成為當今世界天氣預報中的重要手段。在數值預報中影響預報準確性的主要因素有2個:NWP模式本身的準確程度;用作預報模式積分的初始條件的好壞。資料同化則為數值天氣預報模式提供精確的初始條件提供了可能[1]。
隨著遙感探測技術的發展,衛星資料彌補了海洋和人煙稀少地區資料不足的缺陷,對全球預報準確性地提高起到了至關重要的作用[1]。紅外探測器主要覆蓋CO2和H2O光譜區域。CO2和H2O吸收帶分別提供大氣溫度和濕度信息,而溫度、濕度是模式變量用于數值模式進行預報,表明紅外探測器資料在數值預報中應用具有重要的意義[2-3]。
以前間接使用衛星數據,首先把衛星觀測到的通道亮溫進行反演得到模式可以使用的溫度、濕度信息,稱為“衛星到模式”的反演途徑。由于反演是一對多的問題,有學者提出使用正則化思想,主要增加約束條件解決一對多的不確定性。隨著技術的發展,變分同化可以直接使用衛星通道亮溫,用正演方法避免反演不確定性[1,4]。
變分同化基礎是統計中的估計理論。常用的方法有最小方差估計、最大似然估計和貝葉斯理論,最小二乘擬合事實上是高斯誤差分布假定下的最大似然估計[5-6]。變分同化基本思想是將資料同化歸結為一個二次泛函極小化問題,對其求極小化得到所需要的解。變分同化要求誤差滿足高斯分布,目的是應用最小二乘理論,最小二乘法要求誤差相互獨立、以零為數學期望具有相同方差且滿足高斯分布。當實際觀測值包含離群點時,誤差不服從高斯分布具有“拖尾現象”。最小二乘法對偏離高斯分布的假定十分敏感,這種偏斜可能會對變分同化系統的穩健性產生致命的影響[7-8]。根據最小二乘法的數學理論,最終結果是離群值和正常值之間的妥協與真實解相差較遠,導致估計出的參數不準確,所以在進行資料變分同化時需要首先運用合適算法識別出數據中的離群點并加以處理(稱為變分同化前的質量控制部分)[7-8]。
資料的質量控制算法是變分同化關鍵的步驟,也是國內外學者研究的熱點。陶士偉等[9]對北京地區地面自動站的資料基于極值檢查、要素間一致性檢查、時間一致性檢查等多種檢查方法進行了相應資料的質量控制算法研究。郝民等[10]在中國區域GRAPES(Globe and Regional Assimilation and Prediction System)三維變分同化系統中對常規觀測資料(包括船舶、探空、地面及飛機等資料)進行了變分質量控制,改進了該系統分析與降水預報結果。Qin et al[11]基于變分同化中觀測誤差和背景誤差均要求滿足高斯分布的假定,利用2008年1月1°×1°的NCEP(National Centers for Environmental Prediction)資料提出了基于經驗正交分解質量控制法對地面2m觀測溫度進行了質量檢查與處理,取得了較好的結果。
對于衛星資料而言,一般是基于通道亮溫偏差進行質量控制算法研究,所謂亮溫偏差是衛星通道觀測亮溫(O)與模擬亮溫(B)之差,定義為O-B[12]。模擬亮溫通過把背景場(文中采用NCEP分析場資料)輸入到快速輻射傳輸模式,文中采用歐洲中心European Centre for Medium-Range Weather Forecasts(ECMWF)的Radiative Transfer for TIROS-N Operational Vertical Sounder(RTTOV)[13]計算得到。目前變分同化系統中多采用閾值檢查法進行資料的質量控制,將不滿足的觀測資料剔除[14],對于衛星資料而言,式中yoi、ybi分別為通道i的實際觀測亮溫與背景場模擬亮溫,k為倍數,σo為標準差。算法的缺點是樣本中的離群點(尤其是偏差較大的離群點)會影響統計結果。Zou et al[15]提出基于雙權重質量控制進行GPS掩星資料的處理取得了較好的結果。雙權重法現被用于一系列資料的質量控制研究中(如,FY-3A微波濕度計資料[12])。文中將雙權重質量控制算法用于FY3B/IRAS資料,剔除受地表發射率、云影響和誤差較大的離群資料。
采用質量控制算法的目的是找出資料中的離群點,即離開均值“距離”較大的資料[12]。實際執行質量控制算法過程中,離群點值的定義(超過多大的值稱為離群點)對最終結果會產生一定的影響。一般先統計所要研究的觀測資料以及模擬與觀測資料之間的偏差得到資料的分布結構和統計特征,再根據數理統計理論并結合經驗確定離群值。也可以基于穩健統計思想,穩健統計具有兩個優點:(1)當數據分布結構未知或雖然已知不滿足高斯分布時,穩健統計能夠較好地描述所研究的問題;(2)當樣本數據中存在離群點時,穩健統計不會偏離實際解太遠,也即是穩健統計對離群點不太敏感[7-8]。基于穩健性較強的雙權重質量控制法進行FY3B/IRAS資料的應用研究,利用雙權重平均值和標準差可以減小離群點對統計結果的影響。
IRAS資料(xi,i=1,2,…,n)中的離群點可以通過雙權重法進行識別。其中,xi是通道亮溫偏差O-B。雙權重平均值和雙權重標準差BSTD計算公式[12,15]:

其中,M是中位數,wi是權重函數,Xi是樣本值(即通道亮溫偏差yoi-ybi)。權重函數wi定義為

式中,MAD是偏差中位數,即的中位數。若|wi|>1,則取wi=1。
離群資料可以根據Z值的評分確定:

中國第二代極軌氣象衛星風云三號B星(Feng Yun-3B)于2010年11月5日發射升空。文中研究其攜帶的紅外分光計(Infrared Atmospheric Sounder,IRAS),只考慮IRAS前20個通道。關于通道探測的氣體和探測最大貢獻層見參考文獻[16]。觀測資料為全球L1c格式的IRAS觀測資料(時間從2012年12月26日00時至2013年1月4日18時共10天)。L1c格式數據來源于國家衛星氣象中心數據室。把NCEP分析場00時、06時、12時和18時的資料作為背景場采用RTTOV進行IRAS通道亮溫模擬。
全球/區域同化和預報系統GRAPES是中國科學家在充分吸收國外數值天氣預報和相關學科最新研究成果的基礎上,自主設計的新一代數值同化和預報模式[17]。GRAPES模式共有4個模塊:標準初始化模塊、資料同化模塊(3DVar)、預報模塊和后處理模塊。當前GRAPES-3DVar變分同化系統可以同化探空、云跡風、GPS水汽反演資料和衛星通道亮溫等資料。GRAPES-3DVar采用ECMWF的快速輻射傳輸模式RTTOV進行衛星通道亮溫模擬。
基于雙權重質量控制法(Quality Control,QC)對IRAS通道亮溫偏差(O-B)進行處理。雙權重平均值和標準差能夠減小離群點對統計結果地影響。具體執行過程中分兩步進行:
Step1:粗檢查。粗檢查即極值檢查,要求IRAS通道觀測亮溫和相應的模擬亮溫取值在150K~350K,剔除此范圍外的資料。
Step2:離群點檢查。離群資料通常是根據該資料離開樣本均值的距離結合標準差進行度量。樣本數據(xi,i=1,2,…,n)中的離群點可以通過雙權重法進行識別。其中xi是IRAS通道亮溫偏差O-B。
基于雙權重法進行IRAS資料質量控制研究,先采用2012年12月26日00時和06時資料為例做簡單說明。
2.2.1 IRAS通道觀測和模擬亮溫
限于篇幅,文中只給出通道4的情況。圖1分別給出通道4的觀測亮溫(Obs)、模擬亮溫(Sim)、亮溫偏差(Bias)和基于雙權重質量控制法得到的Z-score。需要說明的是文中把Z-score大于4的值都標記為4。

圖1 IRAS通道4在2012年12月26日00和06時觀測亮溫(Obs)、模擬亮溫(Sim)、亮溫偏差(Bias)和Z-score值分布
從圖1可以看出,亮溫偏差主要集中在-34K~14K,模擬出的結果整體效果較好,但少數地區(如,極區)偏差較大。從Z-score圖可以看出,Z-score得分與偏差分布具有較好的一致性。對IRAS通道亮溫在粗檢查的基礎上,需要進一步剔除亮溫偏差超過20K的通道視場點亮溫資料[7]。
下面根據通道亮溫偏差(O-B)基于雙權重質量控制法進行FY3B/IRAS資料處理研究(離群點識別)。
2.2.2 IRAS 資料離群點識別
計算2012年12月26日00時和06時通道4亮溫偏差Z-score值。通過計算Z-score值對O-B進行雙權重質量控制得出不同Z-score值離群點和通過雙權重質量控制法的離散點分布。灰色點代表未通過雙權重質量控制的離群點,黑點代表通過雙權重質量控制的點。

圖2 通道4不同Z-score離群點散點圖
區別常規閾值法只對亮溫偏差做簡單的閾值判斷,雙權重法從所用的樣本出發,減小離群點對最終結果的影響,具有穩健性并且能夠保留一些具有“天氣現象”的資料。通過雙權重質量控制法能夠剔除一些異常資料,Z-score值越大通過雙權重質量控制的點越多,圖中對應的黑色區域越大。對于Z-score值的給定,需要進一步研究如何取值使質量控制后的效果更好。對Z-score值的給定既要考慮離群資料對偏差和標準差的影響,又要考慮離群資料占總觀測資料的比例(要盡可能多地保留觀測資料)。
對IRAS前20個通道離群點占總觀測資料百分比進行統計。考慮到FY3B/IRAS前20個通道中雖然通道權重函數不同,但很多通道探測目的相同。限于篇幅,圖3只給出通道4雙權重質量控制(QC)前/后40個時次(2012年12月26日00時到2013年1月4日18時)通道偏差(O-B)均值、標準差以及離群資料百分比在不同Z-score值(Z-score<1.5、Z-score<2.0和 Z-score<3.0)隨時間(Dec26-Jan4)變化圖。
從圖3可以看出,Z-score<1.5時通道亮溫偏差均值和標準差比雙權重質量控制前減小的幅度大,但剔除的離群資料百分比較大。

圖3 IRAS通道4亮溫偏差(O-B)不同Z-score下的均值、標準差和離群資料百分比
通過統計通道亮溫偏差QC前/后的均值和標準差隨時間變化,有些通道亮溫存在正偏差,而有些通道亮溫存在負偏差,所有通道O-B的均值和標準差隨時間變化很穩定(其他通道情況圖略)。說明通過雙權重法剔除離群資料可行,能夠應用到GRAPES-3DVar變分同化系統中作為衛星資料初步的質量控制。
圖4給出 Z-score<2.0時2012年12月26日到2013年1月4日共10天IRAS通道O-B均值、標準差[18]柱狀圖。
經過雙權重質量控制后去除的離群點都是偏差較大的點(有正偏差和負偏差)。偏差的存在有多種原因,如云和降水的影響、地表發射率不精確、資料中掃描角較大的視野點(需要考慮通道亮溫偏差訂正)等。文中只是驗證基于雙權重質量控制法進行FY3B/IRAS資料質量控制的可行性,初步剔除IRAS通道亮溫偏差比較大的離群資料。在實際業務變分同化中FY3B/IRAS資料進GRAPES-3DVar同化需要進行嚴格的質量控制。

圖4 IRAS通道亮溫雙權重質量控制前/后,滿足Z-score<2.0)亮溫偏差均值和標準差

圖5 FY3B/IRAS雙權重質量控制前/后通道1、6、11、20亮溫偏差均值和標準差散點分布圖
2.2.3 耦合雙權重法的FY3B/IRAS資料質量控制應用研究
目前GRAPES-3DVar系統中沒有同化FY3B/IRAS資料的完整模塊。首先,需要把開發的同化IRAS資料模塊嵌入到GRAPES-3Dvar變分同化系統中;其次,進行同化FY3B/IRAS資料測試。同化時間從2012年12月24日18時到2013年1月22日00時,背景場來自NCEP的分析場。為了簡化只同化FY3B/IRAS資料和常規資料(包括探空、地面、飛機和船舶資料)。通過近一個月的O-B(通道觀測亮溫與背景場模擬亮溫之差)和O-A(通道觀測亮溫與GRAPES-3DVar同化后的分析場模擬亮溫之差)各個時次(每6小時為一個時次)的偏差均值和標準差統計得到同化后偏差均值和標準差顯著減小(圖略),說明嵌入的模塊接口正確。
2013年7月7日06時 FY3B/IRAS(圖5)資料在 GRAPES-3DVar中雙權重質量控制前(Before QC)/后(After QC)的通道亮溫偏差均值(mean)和標準差(std)。質量控制過程包括雙權重質量控制和偏差訂正(偏差訂正方法具體實施過程參考文獻[3])。
前面介紹雙權重法用于FY3B/IRAS資料的質量控制試驗,目的是初步剔除一些“離群點”,而把雙權重法的思想耦合到GRAPES-3DVar中是經過了嚴格的質量控制算法處理。經過質量控制后的模式模擬值與觀測值已經比較接近,通道亮溫偏差均值絕對值和相應標準差減小,說明質量控制方法是可行的。從上面的離散點圖更能說明GRAPES-3DVar系統的性能。
利用雙權重質量控制法進行了風云三號B星紅外分光計IRAS資料的應用研究。通過監測偏差O-B檢驗FY3B/IRAS觀測資料的質量,達到對FY3B/IRAS資料的質量控制。IRAS前20個通道資料基于雙權重質量控制后通道偏差標準差整體顯著減小,且隨時間波動幅度比雙權重質量控制前更穩定。通過把雙權重法耦合到GRAPES模式進行IRAS資料的質量控制應用研究,得到此方法用于IRAS資料的質量控制是可行性的。通道亮溫偏差絕對值接近于0,滿足后期變分同化的理論要求。
[1] 王根.主成分累計影響系數法一種用于高光譜資料的通道選擇新技術[D].南京:南京信息工程大學,2011.
[2] 戴鐵.利用風云三號氣象衛星紅外分光計反演大氣CO2濃度的理論研究[D].南京:南京信息工程大學,2008.
[3] 王根,陸其峰,劉輝,等.FY-3B紅外分光計亮溫觀測模擬偏差訂正的初步研究[J].紅外,2014,35(1):18-23.
[4] 張華.輻射率資料的直接同化方法及應用研究[D].蘭州:蘭州大學,2004.
[5] 鄒曉蕾.資料同化理論和應用[M].北京:氣象出版社,2009.
[6] Eugenia Kalnay.大氣模式、資料同化和可預報性[M].蒲朝霞,楊福全,鄧北勝,等譯.北京:氣象出版社,2005.
[7] Wang G,Zhang J W.Generalised variational assimilation of cloud-affected brightness temperature using simulated hyper-spectral atmospheric infrared sounder data[J].Advances in Space Research,2014,54(1):49-58.
[8] Zhang J W,Wang G,Yang Y,et al.Study on Hyper-spectral Atmospheric Infrared Sounder Assimilation[J].International Journal of Hybrid Information Technology,2013,6(1):123-128.
[9] 陶士偉,仲躋芹,徐枝芳,等.地面自動站資料質量控制方案及應用[J].高原氣象,2009,28(5):1202-1209.
[10] 郝民,張華,陶士偉,等.變分質量控制在GRAPES-3DVAR中的應用研究[J].高原氣象,2013,32(1):122-132.
[11] Qin Z K,Zou X,Li G,et al.Quality control of surface station temperature data with non-Gaussian observation-minus-back-ground distribution[J].J Geophys Res,2010,115,D16312.
[12] 胡言青,官莉.采用雙權重算法進行FY-3A微波濕度計資料質量控制試驗[J].氣象科學,2013,33(1):59-65.
[13] Hocking J,Rayer P,Saunders R,et al.RTTOV v10 Users Guide[M].NWPSAFMO-UD-023,EUMETSAT,Darmstadt,Germany,2010.
[14] 董超華,李俊,張鵬,等.衛星高光譜紅外大氣遙感原理和應用[M].北京:科學出版社,2013.
[15] Zou X,Zeng Zhen.A quality control procedure for GPS radio occultation data[J].J.Geophys.Res.,2006.
[16] Qi C L,Chen Y,Liu H,et al.Calibration and validation of the InfraRed Atmospheric Sounder onboard the FY3B satellite[J].IEEE Transctions on Geoscience and Remote Sensing,2012,50(12):4903-4914.
[17] 薛紀善,陳德輝.數值預報系統GRAPES的科學設計與應用[M].北京:科學出版社,2008.
[18] 王剛.定量分析與評價方法[M].上海:華東師范大學出版社,2002,9:87-95.
[19] 劉志權,張鳳英,吳雪寶,等.區域極軌衛星ATOVS輻射偏差訂正方法研究[J].氣象學報,2007,65(1):113-123.