陳晴 王俊驕 陳曄峰 楊明 孫曉燕 高婷 吳書成
摘要:目前氣象部門能夠獲取的環境監測數據來源不同,各部門存儲數據的規范也存在差異,各項數據缺乏統一性和完整性。針對上述情況,討論了數據處理的方法,梳理了環境監測數據來源,統一存儲規范將不同來源的環保數據分別進行處理,統一存儲在環境氣象應用數據庫中。對環境監測信息的數據進行初步質量控制,利用克里金算法對數據插值形成網格化產品,為空氣質量預報、空氣污染氣象條件預報業務和相關科研項目提供基礎數據支撐。
關鍵詞:環境氣象應用數據庫;存儲規范;質量控制;克里金算法;空氣質量預報
中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2019)14-59-3

0引言
隨著經濟社會的不斷發展,人們的環保意識在不斷增強,各級政府部門對于環境保護工作也更加重視[1]。圍繞氣象防災減災需求,進一步做好環境氣象數據共享、提升氣象業務中環境氣象數據的支撐保障能力,深化在大氣環境質量監測預警、預報服務、應急響應等方面的合作,與環保廳合作實現數據共享,建立了環境氣象應用數據庫。該數據庫的建設可為全省空氣質量預報、空氣污染氣象條件預報業務和相關科研項目提供基礎數據支撐,實現環保與氣象大氣環境監測資料實時共享,豐富大氣環境預報預警服務信息,有助于共同建立極端氣象條件下空氣質量和突發大氣環境事件監測預報、預警響應、應急聯動的工作機制。
1數據庫設計及實現
1.1數據庫設計
環境氣象應用數據庫包括環保站點信息表、環保數據日報表和環保數據實時報表,分別如表1、表2和表3所示。環保站點信息表記錄環保站點的詳細信息,環保數據日報表按天記錄環保數據,一般當天的日報于次日錄入,環保數據實時報表按小時記錄環保數據,當前小時的數據于下個時次錄入。

1.2數據庫的實現
氣象部門能獲取的環境數據分別來源于4種不同途徑:①中國氣象信息中心內網下載的全國環保站的數據;②省環保監測中心獲取的全省環保站的數據;③省內自建的大氣成分站上傳錄入數據庫的本省自建氣象站數據;④CMACAST廣播通信系統下發的報文中獲取錄入數據庫的周邊省份氣象站數據。
通過分析不同來源的數據屬性,將數據按不同方式、相同規則統一錄入到戶數據庫,方便環保與氣象大氣環境監測資料實時共享。具體數據流程如圖1所示。

(1)全國環保站數據
通過網絡抓取技術獲取從中國氣象局內網上的全國環保站數據。網頁抓取技術是一個自動抓取網頁信息的程序,它是搜索引擎的重要組成部分,為搜索引擎從Web上采集信息資源[2]。傳統網頁抓取技術從包含一個或若干個原始的種子Web頁面的URL開始,最先抓取種子Web頁面并提取該頁面的子鏈接,然后將提取的鏈接加入到待抓取的URL隊列中,在Web頁面的抓取過程中,網頁抓取程序不斷從當前抓取的Web頁面上提取新的子鏈接URL加入到待抓取的URL隊列中去[2]。重復上述過程,直到網頁抓取系統的停止條件得到滿足時才停止抓取網頁。分析網頁屬性將有用的數據信息錄入數據庫。
(2)全省環保站數據
通過WebService接口調用獲取數據,采用SOAP協議登錄服務平臺的Web Service接口后,實時向服務平臺發出數據調用請求,經驗證通過后返回所需要的數據內容。上述基于Web Service方法的數據交換均按照XML規范進行。
(3)本省自建氣象站數據
從省內自建的大氣成分站上傳入庫至數據庫,編寫程序將數據實時同步到環境氣象應用數據庫中。
(4)周邊省份氣象站數據
從國家局的CMACAST廣播系統下發的報文中獲取報文,編寫程序將實時數據錄入環境氣象應用數據庫中。
2數據質量控制
為提高資料的準確率,對環境監測信息的數據進行初步質量控制。大氣中的觀測數據與時間顯著相關,具有良好的時間一致性[3]。根據這一特性,將數據與其時間上前、后的測值相比較,來判斷其數據是否發生異常[4]。時變檢查主要是根據要素在某一時段內可能變化范圍判斷要素值質量[5]。
在實際過程中,設某一要素0時次的觀測值為0,0-1時次的觀測值為-1,0+1時次的觀測值為+1。要檢驗0的值是否在正常范圍內,設定:avg=(-1++1)/2,0>=2avg,初步判定0為異常;0<2avg,初步判定0為正常。對于初步判定是異常的數據,將該數據設為缺測。
3環境氣象數據庫的應用
3.1基于克里金算法的網格化產品生成
由于站點的數據量有限,空間分布是離散的,利用插值通過已知樣點的數據估算未知點的數據,通過一次或多次插值將離散點數據插值成連續的表面數據,進一步形成等值線或者色斑圖后顯示[6]。對已有的環保監測資料進行克里金算法的空間插值,將離散的環保站點數據合成連續的表面數據,進一步形成色斑圖后顯示。目前產品已在省環境氣象預報業務平臺等業務系統中得到應用,豐富大氣環境預報預警服務信息,為政府決策和社會公眾生活提供環境預報預警服務,為生態省建設工作提供數據保障。
3.2克里金算法的插值過程
克里金插值的前提是根據空間場的結構,選擇適當的變異函數模型,并求出變異函數。其計算步驟如下:
①網格化,選擇區域的范圍及網格的大小。
②計算被估點(網格節點的)的坐標。
③根據搜索策略(近點距離搜索和方位搜索)選擇合適的參估點。
④根據已經求出的變異函數,求出方程組的系數。


⑦重復步驟②~⑥,直到網格節點的值全部求出。
4結束語
建立環境氣象數據的入庫機制,梳理環境監測數據來源,統一存儲規范,將不同來源的環保數據按照統一的存儲規范錄入到環境氣象應用數據庫中,實現數據的集中管理。利用時變檢查環境監測數據進行初步質量控制,生成環境監測要素的網格化產品,為全省空氣質量預報提供技術支撐,豐富大氣環境預報預警服務信息,為政府決策和社會公眾生活提供環境預報預警服務。
參考文獻
[1]張霞.基層環境監測站存在的問題與改革措施[C]//2008中國環境科學學會學術年會優秀論文集(下卷),2008: 319 -320.
[2]謝治軍.垂直搜索引擎的主題網頁抓取策略研究[D].重慶:重慶理工大學,2012:8-31.
[3]范文波.地面氣象觀測數據綜合質量控制方法研究與實現[D].江蘇:南京信息工程大學,2016:88-93.
[4]周青,張樂堅,李峰,等.自動站實時數據質量分析及質控算法改進[J].氣象科技,2015,43(5):814-822.
[5]王海軍,楊志彪,楊代才,等.自動氣象站實時資料自動質量控制方法及其應用[J].氣象,2007,33(10):102-109.
[6]吳煥萍,羅兵,王維國,等.GIS技術在決策氣象服務系統建設中的應用[J].應用氣象學報,2008,19(3):380-384.