肖惠珍,邱祥鋒
(廈門精圖信息技術有限公司,福建 廈門 363000)
由于國內外還沒有做過對不同單位監測站數據進行融合的先例,因此通過大量的閱讀文獻和研究,參考國家雙套站的原理進行雨量站數據的融合。國家級雙套自動氣象站在2011年1月正式進行試驗運行。該試點建設工作試圖通過雙套自動氣象站的運行來解決目前單套的自動氣象站存在的一些問題,即是否能解決單套運行的自動站由于設備出現異常故障,周圍環境,如雷、電等影響所造成的氣象數據異常;能否在一定程度上減輕觀測人員的工作量;能否在一定程度上解決目前自動氣象站單套站運行存在的一些問題,預期得到更加準確、有效、穩定的觀測數據及減少對應人工觀測人員的工作量,從而能夠逐漸實現真正意義上的監測數據的自動檢測?;陔p套站的工作意義與我們本次不同單位數據融合的原理和意義基本一致,因此本項目參考雙套站模型,結合實際情況進行分析和融合。
根據各單位監測站點的空間分布位置及類型,根據各單位規定的各個監測點的范圍,通過不同單位監測站監測范圍的空間疊加分析,進而對監測站點進行劃分。將提取的同名站點數據,各單位分別形成泰森多邊形,將各單位的泰森多邊形進行疊加,落于重疊區域的同名站點;進行地形分析:利用DEM提取山谷線和山脊線,排除位于山谷線和山脊線兩邊的同名點。同時利用等高線判斷同名站點的地形地勢在空間上是否符合融合的條件。
(1)泰森多邊形分析。泰森多邊形的方法在水文預報、水文分析計算和分布式水文模型中可廣泛應用。泰森多邊形是荷蘭氣候學家A·H·Thiessen提出的,是一種根據離散分布的氣象站降雨量來計算平均降雨量的方法,即將所有相鄰氣象站連成三角形,作這些三角形各邊的垂直平分線,于是每個氣象站周圍的若干垂直平分線便圍成一個多邊形。用這個多邊形內所包含的一個唯一氣象站的降雨強度來表示這個多邊形區域內的降雨強度,并稱這個多邊形為泰森多邊形。
(2)地形地勢分析。由各個單位監測站點建設的泰森多邊形進行疊加,對落入重疊部分的監測站點再進行地形地勢分析,首先利用DEM提取山谷線和山脊線,排除位于山谷線和山脊線兩邊的同名點。同時利用等高線判斷同名站點的地形地勢在空間上是否符合融合的條件。
基于泰森多邊形計算出來的同名監測站點,將同名站點的歷史雨量數據作為變量,采用相關性分析同名站點之間的相關性系數。當同名站點歷史雨量數據達到強相關的情況下,再進行相關系數的計算,作為雨量數據融合的權重。
關聯性強的監測站距離一定很近,但距離很近的監測站關聯性不一定強。因此,對于同一地點的監測站,我們通過相關系數這個具體的量化指標來判斷監測站之間關聯性的強弱。
(1)相關系數。相關系數是反映變量之間相關關系密切程度的統計指標。選取各單位在2016年全年的時間序列(1a)的日雨量值進行2站之間相關系數計算,通常相關系數大于0.8時,2組變量有很強的線性相關性。
(2)雙累積曲線。雙累積曲線是檢驗2個參數間關系一致性及其變化的常用方法。選取各個單位2016年歷史雨量數據中,每間隔1h時段的雨量值進行雙累積曲線分析,擬合結果如圖1所示。

圖1 監測站點雙累積曲線擬合示例
擬合結果表明,各單位同名雨量監測站點之間相關系數高的雨量站之間雙累積曲線形態一般較好。
(3)關聯站。每個雨量站選取相關系數高、雙累積曲線形態較好的雨量站為其關聯站。根據相關性分析結果,各個同名站點之間相關性都很高,雙累積曲線也十分吻合,因此,對于同名站點可進行雨量數據的融合。
數據融合目的是從多源的各個有效數據中,排查出有可能存在故障或精度不高的數據,用比較準確的數據,按照既定的規則,產生標準的、格式一致的、經得起考驗的、服務于共享的防汛監測數據。
數據整合時,需要對地點接近或相同、類型相同的有效監測數據,按照預設的規則和權重,對各數據進行加權平均,產生對某一標準地點的權威監測數據。
2個同名站點只存在1個缺失值的情況,3個同名站點存在1個缺失值、2個缺失值的情況。異常值系數計算模型如下:
(1)
(2)

(1)2個站點融合規則。1個缺失值,1個有效值的情況則直接用該有效值;2個有效值,且2個有效值的異常系數都小于0.3,則根據2個有效值權重計算。2個有效值,且其中1個有效值的異常系數大于0.3,則剔除該組數據。2個有效值,且2個有效值的異常系數大于0.3,則剔除該組數據。
(2)3個站點融合規則。2個缺失值,只有1個有效值的情況則直接用該有效值;1個缺失值,只有2個有效值,且2個有效值的異常系數都小于0.3,則根據2個有效值權重計算。1個缺失值,只有2個有效值,且一個有效值的異常系數大于0.3,則剔除該組數據。1個缺失值,只有2個有效值,且2個有效值的異常系數都大于0.3,則剔除該組數據。3個有效值,其中3個有效值異常系數都小于0.3,則分別用各站點的權重參與融合計算;3個有效值,但其中2個同名站點的異常系數小于0.3,一個大于0.3,則用異常值小于0.3的2個雨量站的權重進行融合;3個有效值,但其中只有1個有效值的異常系數小于0.3,則剔除該組數據。3個有效值,且3個有效值的異常系數都大于0.3,則剔除該組數據。
2.3.12個有效值權重計算-均方差法
標準差(StandardDeviation),也稱均方差(mean squareerror),是各數據偏離平均數距離的平均數,標準差能反映一個數據集的離散程度。通常,某個指標的標準差越大,表明指標值的變異程度越大,提供的信息量越大,在綜合評價中所起的作用越大,其權重也越大。相反,某個指標的標準差越小,表明指標值的變異程度越小,提供的信息量越小,在綜合評價中所起的作用越小其權重也應越小。
具體計算步驟如下:
Ai為A站點的第i個雨量值,Bi為B站點的第i個雨量值,其中i=1,2,3…,n。
平均值
(3)
(4)
標準差
(5)
(6)
權重
(7)
(8)
計算結果見表1和表3。
2.3.23個有效值權重計算-主成分估計
主成分估計(principal component estimate)是Massy在1965年提出的,它是回歸系數參數的一種線性有偏估計(biased estimate),同其它有偏估計,是為了克服最小二乘(LS)估計在設計陣病態(即存在多重共線性)時表現出的不穩定性而提出的。主成分估計采用的方法是將原來的回歸自變量變換到另一組變量,即主成分,然后用最小二乘法對選取主成分后的模型參數進行估計,最后再變換回原來的模型求出參數的估計。詳見表2。
Delaunay三角網的構建也稱為不規則三角網的構建,就是由離散數據點構建三角網,如圖,即確定哪3個數據點構成一個三角形,也稱為自動聯接三角網。即對于平面上n個離散點,其平面坐標為(xi,yi),i=1,2,…,n,將其中相近的三點構成最佳三角形,使每個離散點都成為三角形的頂點。
三角網格加密方法是:內部點是在三角形的中心內插點,以最近的幾個點為依據根據距離越近貢獻越大的原則確定邊緣上的點。

表1 2個有效值權重

表2 3個有效值權重

表3 2個有效值權重
克里金法提供了一個在有限區域內對空間變量進行無偏最優估計的方法。Borga和Vizzaccaro用線性函數作為普通克里金插值的變異函數和復二次函數曲面擬合的插值方法進行降水插值比較,發現普通克里金法的插值精度較好。
普通克里金(Ordinary Kriging)提供了一個在有限區域內對空間變量進行無偏最優估計的方法,是根據樣本空間位置不同、樣本間相關程度不同,對每個樣品賦予了不同的權重,進行滑動加權平均,以估計待測點的值。
(9)
式中,Z*(x0)—待測點估算值;Z(xi)—第i個樣本點的實測值;n—參與計算的實測樣本個數;λi—第i個樣本點的權重系數。
而權重是根據克里金插值的無偏估計和方差的最小得到。公式如下:
(10)

將進行加密后的監測站點作為克里金差值的方法將離散的測站點差值成連續的區域雨量分布情況,利用ArcGIS的GP服務構建模型,完成差值、裁剪、生成雨量等值線等操作后,得到融合后的雨量值與其他離散雨量站差值的全市雨量分布情況圖,如圖2所示。用歷史雨量值進行驗證,該模型的計算成果與實際情況基本符合。若監測值明顯存在異常,可通過系統交互界面選擇參與模型計算的監測站,再進一步生成全市雨量等值線分布圖。
本文通過雙雨量站原理結合加密差值的模型算法計算出來的融合數據和原始的觀測數據進行校驗,等值面與實際區域面基本吻合,但仍存在著差異,需要在更多歷史雨量數據的驗證過程中不斷修正該模型,最終能夠得到更權威的融合數據模型,此類輸出數據的融合算法需要考慮得更加全面。本文評估算法的思路對雨量監測數據的融合質量評估有一定的借鑒意義。