王金玲



摘 要:本文通過分析比較空間數據內插中反距離加權法和謝別德法的基本原理,并利用SRTM數據對對算法進行測試,結果表明,改進謝別德法的插值效果優于反距離加權法和原始謝別德法。
關鍵詞:反距離加權法;謝別德方法;SRTM
中圖分類號:TB22 文獻標識碼:A
一、 引言
空間數據是用來表示空間實體的位置、形狀、大小及其分布特征諸多方面信息的數據,它可以用來描述來自現實世界的目標,它具有定位、定性、時間和空間關系等特性,在社會各行業、各部門,如城市規劃、交通、銀行、航空航天等領域廣泛應用。隨著計算機技術的發展,空間數據的處理分析顯得尤為重要。通常觀測的空間數據是離散無規律的,而實際應用中除了需要知道某個點的確定值之外,還需要獲取觀測數據區域或某個指定區域范圍內均勻分布的格網值。因此,需要將離散觀測數據進行內插??臻g數據內插在海洋、氣候、石油等地球科學及相關學科廣泛使用,例如,地球科學中的DEM構建、圖形圖像處理,地球重力場中位場數據 等都要進行內插。
常用的空間數據插值法很多,尤其在科學計算領域中的許多軟件均內置了多種內插算法,例如Sufer中就有12種插值算法(http://www.goldensoftware.com)。各種方法有各自優點和缺點,有些算法簡單,如反(逆)距離加權法 、謝別德法、最近鄰點插值法等;有些算法復雜,計算耗時,如最小曲率法、克里金插值法 、多項式回歸法、徑向基函數法 、線性插值三角網法等。其中,與距離倒數有關的反距離加權法和謝別德方法簡單,計算省時,在一般的工程應用中極為廣泛。
本文就反距離加權法和謝別德方法,討論這兩種基本方法的特點,并利用SRTM數據進行分析比較。
二、 原理方法
空間數據插值就是根據已知點的觀測數據 內插計算未知點 的數據處理過程。實際工作中一般要獲取規則格網數據,因此,網格化就是根據一組已知點數據 ,采用空間內插方法生成網格數據的處理過程。這些空間內插方法假設屬性值 是在研究區域內是連續或分段連續的,也就是對于所有點 來說, 存在且是唯一的。此外,內插模型可以是精確的,此時,要求模型精確通過觀測點時。不管采用何種方法,數據的多少、間隔及分布方向對內插結果有影響。網格生成其實就是根據附近點進行加權平均的過程,一般假設每個網格單元或交叉點的值最有可能與其附近點的值接近。模型的一般形式為
式中 為第 個待內插點的內插估值; 為第 個位置在 處的已知或觀測值; 為已知點的總個數; 為與 對應的系數因子,一般滿足
反距離加權法(IDW:Inverse Distance Weight)是一個加權平均插值法,其系數為
其中,對于某個待插點來說, 為一常數,根據式,該方法的一般形式為:
這是一種直觀的加權平均法。在IDW方法中,權 用已知點 到內插點 的距離 倒數表示,故得名反(逆)距離加權法。通常可以表示為
式中 為乘方因子,一般選擇為一整數,取值一般為0~5。
在利用加權函數求取待插點數值中,一般只有臨近點對未知點有顯著影響。同時,為了節約計算時間,也不可能對所有觀測點都進行計算。因此,實際計算中只需選取未知點周圍部分數據進行內插即可,即內插前需要選擇合適的搜索區域,并考慮該區域的形狀與大小。其中,大小可以選擇為一個固定值,即指定一個搜索半徑;也可以根據某種適合的方式確定,例如根據計算中設定一個最少觀測點數,由此每個計算中動態確定大小。搜索區域的形狀或搜索面積可以為圓形、橢圓形,或者上述這些形狀的分片組成。實際處理中,為了達到簡化的目的,搜索區域形狀一般選取為圓形,由此可以考慮兩個基本準則:一是距離準則,即用來計算內插點的觀測點離內插點某個半徑范圍之內;二是點數準則,即采用點數為離待插點最近的 個點。聯合考慮兩個準則就可以避免各自的不足。假設 為搜索半徑, 為所有觀點總數, 為 個數據點所包圍多邊形的最大面積,假設在搜索半徑 范圍內最少點數為 ,那么搜索半徑與最少點數之間有以下簡單關系
謝別德方法是南非地質學家Shepard最早提出的方法,該方法本質上是一種標準的距離倒數法。其權函數為[1]
另外一種改進Shepard方法根據最遠點距離來定權,其中最遠距離也就是指定的搜索半徑 ,與IDW公式相似,該方法的權函數公式為:
上述公式均為平面坐標形式,如果在橢球坐標系中,需要將距離 按橢球坐標計算。本文使用數據即為橢球坐標系下的數據。
三、 實例分析
為了分析IDW和Shepard方法的特性,以數字地形高程模型SRTM進行測試。SRTM的全稱是Shuttle Radar Topography Mission,即航天飛機雷達地形測繪任務,由美國太空總署和國防部國家測繪局聯合實施觀測。SRTM數據每經緯度方格提供一個文件,分辨率有1″和3″兩種,其中3″數據大約為地面距離90米,每個文件包含1201×1201共1442401個采樣點的高度數據。本文選取SRTM中N25E100.hgt文件為例,共有1439898個觀測值,缺少2503個數據,其影像如圖 1所示。該區域地形復雜,起伏大,最高4072米,最低1162米,平均高度2112.7米。除了有兩個區域(100°8′E,25°38′N)和(100°20′E,25°58′N)附近屬于高地,存在明顯的數據缺失外(白色),還有多個小區域缺少數據。由于SRTM本身是格網數據,為了對算法進行驗證,從原始數據中提取少數數據作為已知觀測值,其余數據用來進行檢驗。如影像
圖 2所示,圓圈表示選取的已知數據,共有360579個,其它節點為未知點(實際已知數值用來檢核),需要進行內插,共有1081822個。因此,這是一個以少數已知點內插多數未知點的內插過程,而實際工作中,一般都是以多數已知點來內插少數未知點。
內插處理中,選取乘方因子 ,數據搜索半徑為20″,分別采用基本的IDW方法、Shepard方法和改進的Shepard方法,將圖 2中圓圈點作為已知數據,內插其余節點的高程。將內插結果與已知點聯合,可以得到如圖 3所示高程影像??梢钥闯?,采用內插算法,可以有效填補原始數據的缺損。將內插結果與原始數據相減,可以得到表 1所示的統計結果。可以看出,三種基于距離倒數的方法中,改進謝別德方法最優,平均差異約為-0.6mm,標準差為±13.62m,而IDW方法結果最差,平均差異和標準差分別為-2.8mm和±27.07m。
將差值作地理分布直方圖(圖 4),其中左圖僅繪出差值大于60米的分布圖,右圖僅作出差值小于-60米的分布,在右圖中,為了作圖方便,將負值均轉換為正值作圖。從圖中可以看出,差值大的點位大部分均位于地形復雜變化大的地方。
四、 結語
空間數據插值在科學計算中極為普遍,各種方法均有其優點和不足,實際處理中要根據數據的物理特性及對數據的具體需要來選取最優的算法。在對海量數據處理中,簡單的基于距離倒數的方法更能節約時間,但不一定是最優的方法。為此,基于統計法的kriging方法在很多領域應用更加靈活,但其計算量大,計算耗時。
本文針對距離倒數法中的反距離加權法和謝別德方法,通過實例分析和比較,指出改進謝別德方法優于傳統的反距離加權法和原始的謝別德法。在地形復雜、起伏大的地區,插值精度較低,但算法簡單,計算省時,適宜對海量數據進行內插處理。