薛改萍 次珍 尼瑪次仁
(西藏氣象信息網絡中心,西藏 拉薩 850000)
西藏氣象局在近10年的時間里,在中國氣象局預報與網絡司的精心統一協調組織和具體領導下,共開展了8 期氣象歷史觀測數據資料數字化業務建設工作,對大部分紙質觀測資料開展了圖像掃描、圖像文件整理、基于軟件的數據生成和成果上報等多項數字化業務建設項目。由于氣象業務面向現代化發展和服務經濟社會的需求,特別是超長序列數字化氣象資料在應對氣候變化、精準精細提供預報預測氣象服務及清潔能源建設開發和利用方面具有基礎性數據支撐作用,為持續提升全區氣象觀測資料數據信息化處理水平,西藏氣象檔案館對13個風自記觀測站歷史資料進行數字化采集處理[1]。
西藏共有13 個風自記觀測站,最早觀測時間從1954年6月開始,由于其中相當部分的紙張已有不同嚴重程度的圖紙變質、筆跡模糊、紙張過度磨損等情況。
為更好更高質量的數據保護、拯救、妥善保存及有效利用,需要將所有自記觀測紙掃描,并通過專用軟件將紙張上的風向風速記錄轉為數據,最后形成的數字產品將為西藏高原長年風的氣候研究、經濟社會建設和服務提供基礎數據。
根據中國氣象局《山洪地質災害防治氣象保障工程》(以下稱山洪項目)2019年項目實施方案明確要求,需開展西藏歷史紙質氣象資料數字化建設工作。本研究旨在西藏自治區共13 個風自記觀測站1954—2010年共計134913 萬張[1]EL 型電解風自記紙進行圖像掃描、數字化和質量審核,并最終生成標準的數據集產品。
西藏自治區氣象信息網絡中心在中國氣象局技術組的統一組織和技術指導下順利開展了這項建設工作,需要完成西藏13 個站的EL 型風自記紙的館藏統計、掃描提取有效數據以及制作數據集工作,并按照項目建設技術組統一制定的相關技術解決規范和質量標準上報數字化建設成果。
2.2.1 掃描設備。掃描設備選用柯達i3200E,掃描的分辨率為300dpi,采用彩色底片掃描,該設備具備掃描容量大、速度快,圖像清晰的特點。存儲后圖像文件為JPG格式。
2.2.2 圖像資料借閱。由于自記觀測紙屬于觀測原始記錄,在資料掃描借閱時,原始記錄依據館藏檔案借閱規定不能被借出氣象檔案館,所有圖像資料文件掃描和數據提取必須在西藏氣象檔案館內進行,并按照檔案管理制度有關規定辦理借閱登記手續,完成后按照原有裝訂的順序將資料恢復原狀,及時歸還。同時檔案管理人員還一定要再次進行檢查核對,確保借出的檔案資料收回后真實無誤。
2.2.3 圖像文件預處理。首先需要對EL 型風自記紙按照“風自記紙預處理技術規定”對掃描的風自記圖像文件紙進行預處理,按照氣象檔案館風自記資料詳細準確地登記資料檔案種類、版面規格、站名、站號、年、月、換上前和換下后使用時間是否完整,是否正確,有無出現缺測、備注和數量(有效記錄面的頁數)。掃描模式參數的正確設置是根據掃描資料紙張狀況和根據需要提取的掃描資料數量來確定,主要包括設置掃描資料模式和設置掃描資料分辨率。筆跡不清楚的、有多種不同顏色筆跡的,設置掃描分辨率為150dpi,筆跡清晰可辨的,設置該掃描分辨率為300dpi。對紙質有破損或紙質脆化厲害的資料要及時進行詳細備注,掃描時還要特別注意安全保護。
2.2.4 圖像處理。為保證已掃描好的圖像清晰可靠使用,要提前對掃描好的所有圖像進行預處理,避免出現圖像重頁、錯頁、漏頁、掃描完后黑屏、頁面不齊、傾斜、模糊等圖像問題,要充分利用圖像掃描處理軟件及時除去掃描過程中的一些圖像雜亂點和臟點。同時要進行圖像偏差調整處理,圖像與中間水平線夾角不能大于3度,在視覺感上基本沒有偏斜角度為準。
2.3.1 圖像文件檢查。檢查圖像文件質量分為人工質量檢查和應用程序質量檢查兩個部分。人工質量檢查主要是檢查掃描圖像是否清晰、有無任何歪斜、顛倒、扭曲或變形情況,黑邊和污點是否需要處理,文件命名是否和自記紙標記時間一致等。應用程序質量檢查主要檢查掃描一個圖像文件的完整性,看有沒有錯誤的重命名、漏掃等一系列問題[1]。
2.3.2 數據質量檢查。對數字化完的數據質量必須進行檢查,其結果要有詳細備注,備注的主要內容包括編寫數據集質量檢查報告,包含圖像掃描文件檢查情況、數據提取及問題處理情況、數據集質量文檔制作流程說明等[3]。
按照中國氣象局相關技術標準規定,數字化的最終成果要制作為標準數據集,數據集主要包括:氣象數據集實體存檔文件(datasets)、元數據實體文檔(metadata)、說明解釋文檔(description)、附加說明文檔(documents)、readme.txt文件[3]。
EL 型電接風向風速自記紙數據提取結果文件包括:圖像預處理后提取圖像文件jpg 文件)、風自記跡線文件(gal 跡線文件)、提取效果數據文件(png 文件)、數據庫提取文件(db文件)、風自記紙分鐘數據提取文件(Fm 文件)、小時數據提取文件(Fh 文件)共6類文件。
按照規范要求,必須用四級標志目錄來存儲代表文件與數據上報目錄。
XX_YYYYMM[-CCn](一級目錄:數據省份代碼_年月,年月為報送時間;CCn為每年重報標識,n為每年重報次數)
IIiii(二級目錄:區站號代表區域和站點編號)
Pic(三級目錄:小時圖像文件和小時跟蹤數據文件)
YYYY(四級目錄:代表年份)該目錄下同時存放jpg文件和gal文件
Fm(三級目錄:分鐘風數據文件)
Fh(三級目錄:小時風數據文件)
BZ(三級目錄:備注數據文件)
FZJ-IIiii.db(數據庫文件)
數據集清單見表1。

表1 西藏EL型電解風自記紙掃描圖像文件數據集清單
項目建設成果將對全區氣象檔案館館藏歷史資料由于有不同程度的變質、字跡模糊、紙張磨損等情況有一個質的保護、拯救及保存,進一步提高西藏自治區基礎氣象觀測資料業務的規范化、信息化和現代化建設水平,成果所產生的數字化基礎氣象資料將更便于信息化條件下的資料管理和普遍應用,能有效地幫助提高基礎氣象觀測資料在相關業務和科研的使用效益,在應對氣候變化和建立現代氣象資料業務體系起到積極作用。