王凌 鞠曉慧 劉霄 杜冰
(1 四川省氣象探測數據中心,成都 610072;2 中國氣象局國家氣象信息中心,北京 100081;3 高原與盆地暴雨旱澇災害四川省重點實驗室,成都 610072)
早期氣象觀測資料多以紙質記錄為主,應用處理困難,而氣象紙質歷史資料有很高的科學研究價值和很重要的歷史保留意義[1-2]。從20世紀70年代末至今,國內氣象部門依靠“氣候變化應對工程”“山洪地質災害防治氣象保障工程”等多個建設項目,開展歷史紙質氣象資料的數字化工作。數字化技術從早期的人工錄入到現在的利用圖像識別技術進行報表數據識別和自記紙的跡線提取。隨著計算機和網絡技術的發展,針對報表資料,韓瑞等[2]開發了基于DBnet和眾籌策略的氣象紙質表格快速數字化方法及系統;針對自記跡線的數字化,中國氣象局氣象信息中心開發了基于深度學習模型的人工智能自動識別方法,實現自記跡線的高精度識別[3]。氣象數據再分析技術(RA)和氣候變化研究,催生搶救早期氣象觀測記錄的國際合作項目,2019年11月,國際地球大氣環流重建(ACRE)計劃中國、東南亞和日本子計劃聯合學術研討會召開,中國氣象局積極參與了“ACRE CHINA”子計劃項目,讓我們有機會進一步認識早期氣象觀測記錄的價值所在,持續對早期觀測記錄開展拯救、數字化和分析等研究活動[4]。
降水現象是常規地面氣象觀測業務的基本內容之一[5]。2000年前后,中國氣象局開始在臺站布設地面自動氣象觀測系統,逐步實現了人工觀測向自動觀測方式的轉變[6],使得氣象觀測數據直接以數字的方式呈現。早期的降水自記紙雖然記錄了觀測時段降水的全過程信息,但一般只是人工讀取了自記紙的部分定時值,還遠沒有發掘出更多自記紙上氣象觀測數據的價值。本文將四川省有降水自記觀測的151個氣象站歷史降水自記紙記錄,通過技術方法實現數據化,整合自動站正式運行以來的降水數據,最終建立了四川省159 個國家級氣象站自建站有降水觀測以來的完整序列的降水強度數據集,使四川省最早的降水分鐘數據從最早建立自動氣象站的2004年提前到1951年。
四川省分鐘降水數據集(SURF_CLI_SC_PRE_MIN)和小時降水數據集(SURF_CLI_SC_PRE_HOR)包含了四川省區域內(98.10°—108.03°E,26.5°—33.58°N)159 個國家級地面氣象站有降水自記觀測(最早1951年)至2020年逐分鐘和小時降水數據文件以及數據集說明、數據格式說明、臺站信息表、異常處理情況登記表和元數據文檔,其中包含了成都、內江、瀘州3個已經撤銷的國家站近50年的自記觀測數據。數據集的站點(圖1)涵蓋了四川省各區(市、縣),分布較為均勻,對于解析四川省盆地、山地、高原等不同地形地貌降水特征,具有重要意義。

圖1 四川省分鐘、小時降水強度數據集站點分布Fig. 1 Station distribution in the dataset of precipitation intensity per minute or hour in Sichuan Province
1.2.1 數據來源
數據來源于以下幾部分:1)四川省151個國家級氣象站(個別高原站無降水自記觀測)建站有降水自記觀測—自動站正式觀測前一年的自記紙跡線提取分鐘、小時降水數據(R01和R60文件);2)四川省156個國家級自動氣象站運行以來分鐘和小時地面要素月數據(J和A文件);3)個別站自動觀測時J文件丟失而有相應降水自記紙,通過補充提取自記紙跡線而形成的分鐘數據(R1文件)。
1.2.2 技術路線
通過對四川省歷史降水自記紙掃描圖像文件中降水跡線的數字化提取,形成降水分鐘、小時數據文件,結合自動觀測以來的降水數據,形成有自記降水觀測以來長序列、全時段省內國家地面氣象站分鐘、小時降水數據[7]。
1.2.2.1 降水自記記錄的數字化提取
在歷史氣象資料拯救與數字化實施過程中,為保證資料安全及數字化質量、節約成本,需遵循安全性、真實性、內容選擇、全程規范化管理等原則[8]。
利用中國氣象局推廣的“降水自記紙數字化處理系統軟件”,對四川省氣象檔案館館藏的70余萬頁降水自記紙跡線進行逐張跟蹤提取。最終形成降水曲線文件(*.zjr)以及各站參數文件(*.lib)[9]。圖2為提取示意圖。

圖2 降水自記紙跡線整張提取完成示意圖Fig. 2 Complete extraction of self-recording precipitation traces
利用“降水自記紙數字化成果質量檢查和評估軟件”,通過人工和軟件相結合的方式,回放檢查跡線跟蹤準確性,時間和異常處理是否正確,通過軟件統計和挑取的小時數據、趨勢、過程總量、年度最大降水、最長連續降水是否吻合等三級質量檢查,確認提取跡線正確。圖3為質量檢查示意圖[10-11]。結合降水曲線文件和參數文件完成數據轉換,形成自記降水小時(R60)、分鐘(R01)數據文件[9]。

圖3 降水自記紙跡線提取質量檢查示意圖Fig. 3 Quality inspection for the extraction of self-recording precipitation traces
1.2.2.2 自動站降水分鐘數據的獲取
受早期自動站和質量控制技術的局限性影響,各時期對自動站地面觀測分鐘月數據文件(J文件)的質量檢查把握尺度不一,與經過嚴格質量控制的小時月數據文件(A文件)的降水數據存在差異或不匹配情況。數據研發過程中對四川省156個國家級氣象站自動站正式運行后逐月降水數據進行了嚴格的檢查和數據修正(包括格式、氣候界限值、極值以及內部一致性檢查等)。
1.2.2.3 兩類數據融合
降水自記紙跡線提取形成的R01、R60文件分別和J文件中的分鐘降水數據、A文件中的小時降水數據進行格式轉換、融合,分別形成四川省有自記降水觀測以來完整序列的分鐘降水記錄和小時降水記錄。
根據降水數據集制作技術規范,編制數據集格式說明、臺站信息等說明文檔和元數據文檔,建立四川省分鐘、小時降水強度數據集[11-12]。
對數據集的評估重點考慮數字化過程中人為或技術的漏、誤等影響因素以及降水數據本身的屬性,根據質檢規則和數據約束,對數據進行單點極值閾值的質量控制并且對站點時間、空間數據進行比對分析,評估數據的準確性和適用性。
2.1.1 完整性、規范性檢查
該數據集在中國氣象局的評估結果中達到完成率100%,合格率100%。通過了中國氣象局數據成果完整性、規范性、一致性檢查。
2.1.2 數字化部分數據檢查
數字化過程中三級質檢,通過軟件統計核實降水定時、趨勢、過程總量、最大降水、最長連續降水與已有人工觀測記錄的吻合情況,確認了數據正確性。
為避免數字化過程中缺漏提取或自記紙缺失的問題,要檢查自記紙數字化提取的降水數據的完整性。方法是利用數據集分鐘降水數據計算日降水合計值,與同期人工觀測雨量器日降水量R進行比較,檢查降水日數和降水量一致性。對超出誤差范圍的樣本,計為數據不一致,判為疑誤,進行核實修正。根據技術規定誤差范圍如下:雨量器日降水量R≤5.0 mm,絕對誤差≤0.5 mm;雨量器日降水量R>5.0 mm,絕對誤差≤R×10%。
通過對該數據集151個站70多萬頁自記紙的一致性統計對比,共檢測出超誤差范圍的樣本數為5755個,約占總樣本數的0.8%。經人工核實,其中包含有未提取的周記自記紙和部分歷史原因批量蟲蛀和損壞的自記紙,其它經核查,或確認與人工雨量器觀測雨量存在誤差,數字化提取數據無誤,或進行了修正。
2.1.3 數據極值檢查
降水要素的極值問題一直是研究暴雨過程的重要因素,保證數據的準確性尤為關鍵。選取分鐘降水界限值為6 mm,針對數據集中分鐘降水量≥6 mm的數據提出疑誤,進行人工核實。經查,該數據集中分鐘降水量≥6 mm的記錄僅為16條,全部進行了人工校對修正。
自動站J文件的分鐘降水數據經過了研發過程中的嚴格審核,數據集的數據適用性主要集中在對降水自記跡線數字化提取的分鐘降水自記數據(以下簡稱自記提取)和同期人工讀取自記跡線降水數據(以下簡稱人工記錄)的一致性分析,來驗證數字化提取的分鐘降水數據的適用性,進而檢驗數據集的準確性[13]。
以數據集中1980—2000年四川省盆地溫江、德陽、蒲縣、樂山、自貢、安岳6個國家站分鐘降水數據為基礎,用逐分鐘滑動求和分別計算跡線提取的逐年逐5、10、15、20、30、45、60、90、120、180、240、360、540、720、1440 min共15個時段的降水強度極值和時間過程,與對應人工記錄地面氣象觀測年報表相同歷時下降水強度的極值和過程對比分析。
2.2.1 降水極值的分析
圖4a和4b分別是蒲江站各年5 min和30 min歷時自記提取和人工記錄降水強度極值的對比圖,直觀可見5 min歷時個別年份存在一定差異,30 min歷時差異減小。
圖5a~5d分別是溫江站1980—2000年5 min、10 min、30 min和60 min歷時自記提取和人工記錄降水強度極值的相關性。可見隨著降水歷時的延長,兩者相關性線性收斂。

圖5 1980—2000年溫江站5 min(a)、10 min(b)、30 min(c)和60 min(d)歷時自記提取和人工記錄降水強度極值相關性Fig. 5 Correlation of 5-min duration (a), 10-min duration (b), 30-min duration (c) and 60-min duration (d) of precipitation intensity extremes by self and manual records at Wenjiang Station from 1980 to 2000
統計分析1980—2000年6個國家級氣象站自記提取和人工記錄降水強度極值的相關系數(表1)可見,通過數字化提取的降水數據和人工記錄數據相關性比較好,并且歷時越長,相關性越好,相關系數超過0.99。

表1 1980—2000年6個國家級氣象站不同歷時自記提取和人工記錄降水強度極值相關系數Table 1 Correlation coefficient of extreme values of precipitation intensity by self and manual records at 6 national meteorological stations during different periods from 1980 to 2000
2.2.2 時間過程分析
分析各歷時最大降水量時間過程的差異,計算1980—2000年各歷時自記提取和人工記錄最大降水過程的一致性。分別統計自記提取和人工記錄某一年某個時段最大降水出現的時間,如果兩者相同,表示兩種方式選取的此次降水時間過程一致。考慮到自記紙跡線數字化提取和人工記錄兩種方式的誤差,以及大降水時設備異常偏多,自記和人工對異常處理的偏差,將兩者時間差異在60 min以內算作過程一致。多年中某時段最大降水時間過程一致率的算法如下:一致率=(最大降水過程時間差<60 min出現的次數)/統計年數。
以德陽站為例,統計1980—2000年15個歷時最大降水的時間過程,結果見圖6。各歷時的最大降水過程一致率平均為84%。

圖6 1980—2000年德陽站不同歷時自記提取和人工記錄最大降水過程一致率Fig. 6 Consistency rate of self-recorded and manual recorded maximum precipitation process at Deyang Station in different periods from 1980 to 2000
其中45 min降水過程一致率只有29%,說明1980—2000年21年中45 min最大降水自記提取和人工記錄的時間段不一致的較多。核實差異最大的一條記錄1993年45 min最大降水,發現1993年兩次大的降水過程出現在7月15日和7月29日,在5~30 min歷時情況下,自記提取和人工記錄的最大降水過程都選取了7月15日,60~1440 min的最大降水過程都選取的7月29日,而45 min最大降水自記提取選擇了7月15日降水量為16 mm,人工記錄選擇了7月29日的降水,降水量為15.9 mm。這是因為人工記錄和信息化提取之間的差異所致。
根據以上對比分析,說明通過自記跡線提取數字化的分鐘降水數據與人工記錄數據的結果在整體及單次降水過程中的表現較為一致,且歷時越長數據穩定性越高。數字化結果比人工記錄結果更為準確和客觀,能夠較好地替代早期人工記錄的數據結果[14]。
四川省降水強度數據集豐富了歷史氣象觀測降水分鐘數據,并在實際應用中得到驗證。在氣象預報預測業務和數據再分析、氣候變化、災害預警等科學研究和氣象服務中將起到重要的數據支撐作用。
降水強度對于研究降水特征,尤其是對暴雨特征的研究具有重要意義[15]。該數據集能夠準確為歷年、累年降水地區分布、年際變化及暴雨等級特征分析等氣候業務、氣候變化研究提供數據支持。
2017年中國氣象部門聯合住建部門進行暴雨強度公式的編制和修訂,為城市規劃、徑流控制、“海綿城市”建設等提供重要科學依據。四川省氣候中心和部分地市氣象局在暴雨強度公式編制和修訂項目中,利用該數據集的分鐘和小時降水數據,因為數據時間精度高,序列長,準確實現了“不漏場次、不漏最大值”的挑選降雨場次的原則,統計樣本準確可靠。
以雅安市(俗稱“雨城”)為例,根據1980—2014年雅安暴雨強度資料,按《室外排水設計規范》(GB50014—2006,2014版)對各歷時降水的概率分布進行擬合,對單一重現期暴雨強度公式、區間參數公式、暴雨強度總公式進行推求,并對計算結果進行比較分析。最終選擇滿足規范要求且誤差最小的暴雨公式,公式擬合結果見圖7和圖8[16]。

圖7 1980—2014年雅安市暴雨強度-重現期-歷時關系曲線Fig. 7 Relationship curve of rainstorm intensity-return period-duration in Ya’an City from 1980 to 2014

圖8 1980—2014年雅安市不同歷時的暴雨強度頻率曲線Fig. 8 Rainstorm intensity frequency curve of different durations in Ya’an City from 1980 to 2014
四川盆地四面環山,地形特殊,強降水易引發滑坡泥石流災害[17]。降水強度、分布和變化等降水特征分析在防災減災策略特別是汛期洪澇災害預警研究和服務中尤為重要。該數據集能夠滿足任意時段降水過程個例、累計雨量及極值等數據分析對基礎數據的要求。
1981年7月四川發生了一次強烈發展的西南渦暴雨天氣過程,“81·7”大暴雨持續時間長,雨區大,山洪災害造成嚴重傷亡和重大經濟損失。圖9是基于該數據集的分鐘降水數據制作的1981年7月最大30 min降水量的空間分布。

圖9 1981年7月四川省最大30 min降水量空間分布Fig. 9 Spatial distribution of maximum 30 min precipitation in Sichuan Province in July 1981
基于降水自記觀測和自動站觀測的四川省降水數據集,通過對四川省有降水記錄以來151 個國家氣象站降水自記紙跡線的數字化提取,結合自動站觀測的降水數據,形成了四川省有降水記錄以來時間序列最長、時間密度最大的數據產品。通過數據集的研制,最大限度提取了紙質降水記錄的信息,這部分數據可謂首次面世,填補了歷史氣象記錄中逐分鐘降水數據的空白。未來將在此基礎上深度挖掘,編研有關四川省以及不同地區、地形地貌的特色降水數據集,并嘗試做一些降水和人類活動、城市化進程的關聯性研究。
歷史氣象資料數字化的目標是挖掘歷史氣象資料的信息,進行豐富、準確、穩定的歷史氣象資料基礎儲備。依托現代信息技術,我國歷史氣象資料的拯救、數字化等研究工作正在全面開展,已經完成了地面、高空、輻射、農氣等常用歷史氣象資料報表的掃描、錄入,壓、溫、濕、降水和風自記紙的掃描,形成了諸多的數字化產品。但由于歷史氣象資料載體和記錄狀況的繁雜性、技術發展成熟度制約、數字化人才缺乏等因素[1],類似降水自記跡線的數字化提取也僅僅是其中一種類型的數字化嘗試,挖掘隱藏在各種檔案材料中的氣象觀測原始數據,工程量浩大[4],任重而道遠。數字化成果納入氣象數字檔案館、大數據云平臺,應用于數據融合、均一化和數據再分析研究,服務于氣象預報預測、防災減災決策服務、氣候變化研究,在廣泛的領域得到科學共享,才能夠真正體現這些寶貴的歷史氣象資料的科學價值。
Advances in Meteorological Science and Technology2023年4期