劉 櫻,馬 浩,楊 明,宋雪菲
(1.浙江省氣候中心,浙江 杭州310017;2.浙江省氣象信息網絡中心,浙江 杭州310017;3.新疆農業氣象臺,新疆 烏魯木齊830002)
降水自記紙是客觀記錄降水的寶貴氣象實測資料之一,其記錄時間長(一般是從建站開始)且保存的完整度高,對城市暴雨特征、雨型分析等研究有重要意義[1-4],為城市防災減災提供了較強的數據支撐。降水自記紙記錄數據的提取主要有兩種形式:一是以人工讀取的方式,提取所需時段的降水值[5-6];二是利用現代技術方法,對降水自記紙資料進行信息化處理,形成一套完整的降水自記紙信息化分鐘降水數據(后簡稱分鐘降水數據)[7-9]。人工讀取作為提取降水數據的傳統形式由來已久,其弊端在于讀取的準確性很大程度依賴于人為經驗,讀取時間長,提取資料需要花費較大的精力、人力,且不可避免地存在一定人為誤差;與人工提取降水資料相比,利用科學合理的方法,將降水自記紙資料進行數字化處理,使其使用靈活便捷,可自由提取研究任意時段降水量,不但縮短了提取時間,且大大降低了計算結果的主觀性。然而這一技術的可靠性、穩定性和區域適用性目前仍然缺乏評估,特別是在區域尺度上,兩種資料的對比分析研究更為鮮見,這在一定程度上制約著降水自記紙信息化數據的業務化應用。
目前,對人工讀取數據與分鐘降水數據的對比研究,主要針對氣象自動站記錄的分鐘數據與降水自記紙之間差異的對比來展開[10-12]。浙江省大部分氣象自動站是在2004 年以后建站,除新建站外,自動氣象站和降水自記紙分鐘雨量一般有2~3 a 的平行觀測數據,主要用于為數據質控及均一化處理提供對比結果,在此之后氣象站降水量則以自動觀測為主。而自動氣象站建站之前分鐘數據的獲取,仍依賴于降水自記紙的記錄結果。因此,自記紙記錄的分鐘降水量對于了解和研究長年代歷史分鐘雨量特征及規律尤為重要。尤其是在城市暴雨強度公式編制及暴雨雨型分析的研究中[13-14],都需要長年代歷史分鐘雨量數據的支持。目前,浙江省已完成第一批19 個國家基本(準)站的分鐘降水自記紙信息化處理,時間為1961—2000 年,剩余站點信息化數據仍在人工校對階段。信息化降水自記紙分鐘數據可以很好地滿足長序列需求,那么,在長序列意義上,和人工讀取結果相比,信息化處理結果是否準確可靠,是否可以替代人工讀取數據?
本文以降水自記紙資料為基礎,圍繞以人工經驗讀取降水自記紙資料為主的年報表降水資料和降水自記紙信息化后的分鐘降水數據在不同歷時下、不同站點之間的共性和差異開展研究,重點分析信息化后的降水分鐘數據的適用性,開展針對信息化后分鐘降水數據長序列研究的初步探索。
本文選用經人工審核后的年報表中15 歷時最大降水資料作為人工讀取的代表數據。逐分鐘降水自記紙數據使用浙江省第一批信息化分鐘降水資料,即浙江省19 個國家基本(準)站,站點分布情況如圖1 所示。
數據資料選取時間為1980—2000 年,主要考慮浙江省年報表資料中的15 時段最大降水資料一般從1980 年開始有記錄,而浙江省19 個國家基本(準)站降水自記紙資料信息化時間為1961—2000年,因此選取1980—2000 年降水自記紙資料和人工讀取資料的重合時段作為研究時段。

圖1 浙江省19 個國家基本(準)站站點分布
人工讀取的降水自記紙數據中的15 時段最大降水量數據讀取主要通過[15-16]:(1)從降水自記紙上挑取對應時段的最大降水量。(2)對照月報表,對比核查提取結果。降水自記紙記錄信息化處理主要依靠機器識別來判斷[17-19]:利用降水自記紙數字化處理系統軟件,從掃描得到的降水自記紙彩色掃描圖像文件中,采用曲線自動識別,提取降水曲線描述數據,通過確保跟蹤曲線與原降水曲線重疊及利用分鐘降水強度數據合計值與雨量筒日降水數據校對訂正等手段方法,完成降水分鐘強度數據的質量控制。
由于信息化后的降水自記紙以分鐘降水[20]作為記錄,因此本文采用滑動求和的方法,提取浙江省19 國家基本(準)站1980—2000 年5、10、15、20、30、45、60、90、120 min 共9 個歷時下每年最大降水量。除此以外,還用到方差、偏差百分率、偏差概率、相關系數等統計方法。
為了了解信息化分鐘降水數據與人工讀取的異同性,本文將通過直接對比、方差比、不同強度等級下偏差統計以及偏差的空間分布等方法,從時空2個層面對信息化分鐘降水數據和人工讀取數據進行對比分析。
提取浙江省19 個國家基本(準)站的年報表數據和信息化分鐘降水數據,計算9 個歷時下的年最大降水數據。通過計算不同歷時下人工讀取數據與分鐘降水數據的差值(圖2),發現分鐘降水數據普遍比人工讀取數值偏小,偏小值在1 mm 之內。其中,5、10 min 降水數據與人工讀取數據的降水偏小程度略大,偏小0.6~0.9 mm,偏差率在3%~8%,30 min 以上效果較好,偏差0.2 mm 左右,偏差率1%以內,可見30 min 以上二者計算結果非常接近。

圖2 各歷時人工讀取數據與分鐘降水數據降水量偏差
分鐘降水數據與年報表資料方差比(圖3)的計算中,比值越接近1 說明計算結果越接近。可見,10min后兩者的方差比值基本達0.9 以上,且在20 min 后趨于穩定、效果較好,說明兩組數據在20 min 后已非常接近;而在5 min 下方差比為0.74,說明5 min歷時下兩者計算結果有一定的偏差,這與相關系數計算結果一致。從兩組數據相關性看,全歷時下相關性可達0.99,不同歷時下5 min 內的相關性較差,30 min后相關性較好可達0.98。可見,從數據的整體穩定性來看,30 min 后信息化的分鐘數據與人工讀取結果非常接近,而在較短歷時下的統計值反而存在一定的誤差。

圖3 分鐘降水數據和人工讀取數據各歷時最大降水量方差比
將分鐘降水數據與人工讀取數據的偏差量細分為10 個等級,分別統計每個等級下的偏差次數(表1)。

表1 各歷時分鐘降水數據與人工讀取數據最大降水量不同程度偏差的個數統計 個
各歷時偏差個數主要集中在降水偏差為-1.5~0.5 mm,其中,5~15 min 降水自記數據與人工讀取數據的偏差主要集中在降水偏差為-2.0~0 mm,20~90 min主要集中在降水偏差<0.5 mm 的范圍內,120 min 歷時下則在降水偏差<1.0 mm 的范圍內較為集中。
為了更好地了解信息化后的分鐘降水數據與人工記錄的對應性,從空間分布的角度對兩者的關系做進一步討論。
各站各歷時下分鐘降水數據與人工記錄降水量偏小的概率見表2,各站主要集中在40.5%~81%,其中以龍泉站偏小次數最少,洞頭站最多。各歷時下,5~20 min 歷時下偏小概率較高,基本達到70%以上,以淳安站、石浦站、鄞州站、玉環站、洞頭站最為明顯。

表2 各站各歷時分鐘降水數據最大降水量偏小概率 %
圖4 為各站各歷時分鐘降水數據與人工讀取數據最大降水量偏小量方差,可以很好地表現出不同歷時下各站降水量偏離總體樣本的情況。大陳島在120 min 歷時下,方差達到0.26,金華站在5 min 方差也較大,其他站點整體在0.05 左右。因此從單站看,各站中偏小概率出現最高的站點為洞頭氣象站;而各樣本的比較中,偏小量相對較大的氣象站為大陳島氣象站。

圖4 各站各歷時分鐘降水數據與人工讀取數據最大降水量偏小量方差歸一化分布
通過比較人工讀取數據和分鐘降水數據最大降水量分布情況發現,分鐘降水數據可以很好地反映出浙江省的整體降水分布特征,總體分布情況與人工讀取一致:呈東西分布,即東部沿海地區最大降水量較大,西部內陸地區相對較小。對于一次降水過程中信息化降水數據的適應性,提取1980—2000 年短歷時下各站人工讀取最大年降水量及對應的信息化數據、繪制人工讀取數據及對應時間下信息化后數據的極端最大降水空間分布,也發現信息化降水數據仍可以較好地反映出一次降水量的分布特征,尤其是在30 min 后,有非常好的適應性,這與之前的分析一致;30 min 內降水整體空間分布一致,衢州等站降水量略偏小。
從空間差異上看(圖5),除龍泉站各歷時信息化資料大于人工讀取外,其他站各歷時多數以偏小為主,這也是19 個站中唯一各歷時分鐘降水數據均大于人工讀取數據的站點。
信息化后的降水自記紙數據與人工讀取數據在較短歷時如30 min 以內的誤差相對較大,而30 min以上最大降水雨量的記錄偏差反倒較小。本文試尋找典型站點,分析誤差產生的可能原因。利用不同歷時下各站最大降水量信息化數據結果與人工讀取年最大降水結果相關分析并檢驗,發現:除龍泉站在5 min 歷時下的最大降水量相關性未通過0.05 的顯著性水平檢驗外,其他站點在5~120 min 降水歷時內均通過顯者性檢驗。因此以玉環站5 min 為例(圖6),同時選取數據相關性較好的杭州站(圖7),對信息化后的分鐘降水數據及年報表中人工讀取最大降水量進行校對、檢驗。

圖5 各站各歷時人工讀取數據和分鐘降水數據最大降水量差值分布

圖6 龍泉站不同歷時分鐘降水數據和人工讀取數據最大降水過程偏差曲線

圖7 杭州站不同歷時分鐘降水數據和人工讀取數據最大降水過程偏差曲線
根據逐年最大降水偏差量變化曲線,篩選出龍泉站降水偏差量較大年份為1983、1988、1993、1995年,核對這些年份5 min 降水自記紙數據與年報表中人工讀取數據對應的最大降水發生時間,發現5 min 最大過程降水發生時間不一致。利用同期原始降水自記紙掃描資料進行檢查,偏差最大的1988 年為信息化數據記錄錯誤,出現明顯偏大值。其余3 a雖有偏差,但偏差值量值不大,均在5 mm以內,1983年屬于記錄時間基本一致,信息化數據結果比人工讀取偏小,而剩余2 a 發生時間不一致,其中1993、1995 年5 min 最大降水均屬于降水自記紙記錄曲線非常密集的年份,且1995 年降水曲線存在被墨跡污染,可能人工未找到最大時段的情況。這種情況以龍泉站120 min 降水過程中1991 年最為明顯,年報表人工讀取最大降水過程在1991 年3 月27 日10:53(圖8),而信息化后找到最大降水過程為1991 年5 月7 日6:32(圖9),由于人工未找到最大降水過程導致過程最大降水明顯偏小,而信息化后的數據可以相對準確地提取最大降水過程。
除此以外,對相關性較好的杭州站5 min 數據進行分析,從歷年最大降水過程偏差量看,杭州站5 min整體偏差較小,挑選偏差相對較大的年份,以1986、1987、1995、1996 年為例與原始降水自記紙進行對比分析偏差原因。杭州站4 a 中有3 a 發生時間對應一致,數值上和其他年份一致略偏小。可見,在信息化數據較為準確的情況下,信息化數據在大部分情況下可以很好地代替人工,甚至在過程降水的提取中比人工讀取更有優勢。
綜上分析,通過選擇典型站點提取短歷時下每年最大降水量分析得出,信息化數據與人工數據對比結果主要分為兩類:(1)最大降水過程發生時間一致,但過程降水總量整體偏小,信息化后數據計算出的降水過程總量一般略偏小。(2)最大降水過程發生時間不一致的情況較為復雜,主要為:①存在信息化原始數據記錄錯誤。這種情況下將信息化記錄值對應原始降水自記紙后容易發現,記錄值一般是異常偏大,避免這種問題的出現需要在分鐘數據信息化的人工審核校對上留意奇異值,并且在后期數據的加工使用過程中,如果發現奇異值,應當首先與原始降水資料進行校對,檢查數據的合理性。②人工查找原始降水自記紙最大降水過程時,可能出現漏掉最大過程。在這種情況下信息化降水資料更容易找到正確的降水時段。③降水自記紙較為密集,且存在被污染、墨跡模糊的時段,尤其是紙張大片被污染,人工讀取和信息化分鐘降水計算結果在較短歷降水過程統計下可能出現偏差,需要重點關注。

圖8 1991 年龍泉站120 min 年報15 時段中最大降水過程時間的降水自記紙曲線

圖9 1991 年龍泉站120 min 信息化年最大降水過程時間的降水自記紙曲線
在信息化數據質量較好情況下,信息化數據大部分可以代替人工讀取,甚至在降水過程的提取中比人工讀取更有優勢,主要體現在:
(1)處理過程更客觀。降水自記紙的人工讀取過程中,主要根據降水曲線與時間的對應點,選定最大降水區間,通過讀取降水自記紙網格點對應的降水量獲取數據值,因此同一條降水曲線由于主觀判斷或者是肉眼誤差導致不同人讀取時可能產生數值大小的偏差。而信息化分鐘降水數據主要是通過曲線自動識別,提取降水曲線描述數據。為了減少誤差,在人工讀取和信息化分鐘數據讀取后,通常會通過正點降水量、12 h 及24 h 降水量等其他觀測結果來校核對比,而較短時段(如5 min、10 min)提取出的降水量則缺少一個精準有效的驗證數值。因此在較短時段內人工讀取數值的訂正值更加依賴于人為主觀性;信息化數據則是通過平滑處理,對分鐘降水做統一規范。而60 min 以上降水過程由于通過其他手段的對比校驗,因此相對準確,人工和信息化結果也較為接近。簡單來說,信息化數據主要通過數值訂正,而人工讀取主要依靠為人工修正,可見,信息化數據在較短降水時段內比人工讀取數值更加客觀、穩定。
(2)方便數據的使用及提取。信息化數據方便提取每年任意時段的降水過程,對過程降水雨量進行精準排序,尤其是對提取每年前N(N>1)場降雨過程時,比人工讀取更加便捷,也可解決人工尋找過程最大降水值較困難的問題。
(3)精度高。在較短歷時下,強降水導致降水自記紙中的降水曲線非常密集,人為主觀判斷就會對結果的準確性產生一定影響,造成數據偏大或者偏小,而信息化后的數據是將降水量分配到逐分鐘,可精確、客觀的計算任意時間的降水總量。
可見,信息化結果在大部分情況下可以很好的代替人工讀取,甚至比人工統計結果更加穩定、客觀,不但能很好地反應出當地降水自記紙的降水信息,同時還有效地彌補了自動氣象站建站之前逐分鐘降水資料記錄的空缺,具有很好的適應性。
隨著自動觀測的廣泛開展,降水量自動讀取結果的可信度及人工讀取結果的可替代性成為一個影響觀測質量和氣候研究的重要問題。本文系統評估了1980—2000 年浙江省信息化分鐘降水自記紙數據與人工讀取數據的對比結果,主要結論如下:
(1)短歷時下信息化后的降水資料與人工觀測整體表現一致,數值上略偏小,相關系數達到0.99。整體來看,各歷時偏小值在1 mm 之內,其中30 min以上效果更好、偏小比例在1%以內,可見30 min 以后兩種數據的計算結果非常接近。
(2)信息化分鐘降水自記紙數據和人工讀取的年最大降水偏差量主要集中在-1.5~0.5 mm。偏小概率最高值出現在洞頭氣象站,此外大陳島的偏離量相對其他站點較大。
(3)空間分布上,信息化分鐘降水與人工讀取數據總體分布一致,均呈東多西少;在一次降水過程的空間分布特征中,信息化降水數據也有很好的適應性。就空間差異而言,除龍泉站各歷時信息化資料均大于人工讀取外,其他站各歷時多以偏小為主。
(4)信息化數據在大部分情況下可以較好地代替人工讀取。由于不受主觀經驗影響,比人工觀測更加穩定、客觀,可以很好地反映出當地降水自記紙的降水信息,具有很好的適應性。這為計算暴雨強度公式、設計暴雨雨型等基于長時間序列分鐘降水資料的研究工作奠定了基礎。