劉 彬
(廣東省測繪產品質量監督檢驗中心,廣東 廣州 510075)
斜坡單元是地震、泥石流等斜坡地質災害發育過程中最重要的衡量指標,因此可以通過探究斜坡單元的類型,衡量一片區域地質災害發生的機理、規律,并進行預測分析。在地理信息技術被廣泛應用于地質結構、地理觀測等學科之后,通過GIS進行地質表面的結構分析已經是一種十分普遍的行為。將斜坡單元類型的劃分應用在GIS中,是一個十分復雜的問題,現有的幾種劃分方法都不是很準確。
文獻[1]通過地理信息系統的應用,切割了斜坡單元周邊存在的界限,并基于紋理分水嶺劃分了斜坡單元的分割依據,并經過預處理的DEM圖像,以灰度矩陣的方式,對分水嶺的坡度進行了標記,使其能夠將正負地形中的分水嶺被準確劃分。這種方法相對于其他方法擁有更好的切割效果,但是在坡度的計算上準確度較差。文獻[2]通過敏感性評價獲取了地勢起伏的最佳提取單元,以均點算法計算了坡度的起伏均值,并獲取了平均峰值的分布關系。在不同的網格中計算了坡度提取的最佳面積。這種方法著重分析坡度起伏與峰值的關系,對溝谷斜坡密度的計算幫助不大。文獻[3]利用DEM坡度圖像計算出來同一單元下的數據精度,并通過Python ArcPy程序獲取了最佳統計單元的計算方法。在此過程中需要通過空間計算的方式,因此內存占用較大,運算時間較長,運算結果的準確度也不理想。綜合以上文獻,本文設計了一種以隨機森林算法為核心的GIS斜坡單元類型劃分方法,通過實時更新斜坡單元傾角度數,通過GIS劃定了斜坡單元分類標準,并通過隨機森林優化了斜坡單元劃分算法。
在計算斜坡的坡向剖面時,可以通過坡體底部水流的方向,獲取該單元內斜坡的傾向計算方法。在最小二乘法下[4]。每一個擬合的數據都可以用來計算斜坡單元,其高程可以簡略地看作一種以內部坐標為基準的線性函數,如公式(1)所示:

式(1)中,Td為該DEM圖像中,斜坡單元的內部高程數據;x和y則為斜坡單元擬合數據的內部坐標;ηn、λn、δn均為常數。將以上斜坡單元的線性方程帶入到DEM數據中,可以得到一個單元傾向的三維立體角度,(如圖1所示):

圖1 單元傾向角度
圖1中,坡度高程數據通過擬合計算帶入到x軸和y軸中,可以得到一個夾在x軸和y軸之間的角,這個角θ就是坡度單元傾角。通過求導計算,可以得到該平面的傾向坐標,如公式(2)所示:

式(2)中,ai和bi分別為坡度平面單元傾角的兩個方向參數;xd和yd則為x軸與y軸平面上的兩個單位向量坐標刻度。則結合ai和bi,該傾角判定計算如公式(3)所示:

式(3)中,θn為在第n個斜坡單元中傾角角度;ai和bi的意義如上。將高程及其相關的變量關系構成一個整體性的系統,如公式(4)所示:

式(4)中,HN為在GIS中經過形態局部變量可以改變高程的元素集合;z1、z2、…、zn分別為集合中的第1個、第2個、…、第n個元素。通過近似坐標估計,可以直接得到斜坡單元傾向的更新坐標,如公式(5)所示:

式(5)中,ak和bk分別為更新后的斜坡單元傾向坐標;hk為觀測數據的第k個節點;uk為三維估計的環境質點為坐標估計的近似值。結合以上公式,帶入到公式(3)中,可以直接求出斜坡單元傾向的實時角度。
在GIS中生成斜坡坡度矢量圖層時,首先需要計算平均曲率,此過程不需要通過剖面曲率的計算,只需要計算其斜坡分割面積,并通過坡面的侵蝕劃定地表的局部發育粗糙度[5]。在凸出的地形元素邊界,可以通過劃定極大值或極小值的方式驗證分水嶺的地表傾斜角度,然后去除高程中的尺度變化,使其可以適當增加均值的濾裝置。通過劃定可行域的方式,建立一個柵格化的目標質點,然后通過多邊形頂點的內部結構,判定線段方程的角度與連線中心[6]。尤其是在計算隨機誤差時,通過最小二乘法獲取最優解是最簡單的方式。如果斜坡被外力破壞,則需要通過內外力之差計算不平衡比率的初始應力。在計算中,通過收斂速度的快慢、收斂過程的波動特性以及不平衡力的比率條件,可以直接完成模型中的坍塌或塑形過程,利用GIS的篩選功能,可以直接刪除緩沖區分析中的疊置影像,并生成一個矢量圖層,作為該類型圖的屬性統計標準。所有位置坐標中斜坡高程的計算都可以通過DEM模型中坡向和坡度的提取和計算,在研究區的原始圖像內生成一個具備重分類效果的坡度矢量圖層。
隨機森林算法,可以通過大量的決策樹構建向量模型,并通過這些模型得到隨機分布的決策向量,是每一棵樹都進行斜坡單元分類標準的投票,通過統計這些投票數量,獲取不同的類型劃分信息。在隨機森林算法的回歸模型中,可以通過梳理分析進行獨立變量的條件統計,并利用回歸函數確定獨立變量的概率分布空間,使隨機分布的變量X和獨立變量Y聯合在一起,設定多變的條件概率,從而獲取回歸函數的預測數據。通過原始標記中的樣本,可以將每一個節點的分類作為葉結點的存儲信息,這一類數據需要擁有兩種必要條件,分別是:可以實時更新數據樣本、可以分裂子節點中的規則密度。這樣一來,通過隨機森林算法就可以得到概率的回歸分析模型,如果調整了隨機森林的結構,就可以直接優化隨機森林中的斜坡單元劃分算法。在機器領域,這個預測數據是十分具有代表性的,本文通過這組回歸數據,假設了訓練集的分布規律,將其與預測器聯合在一起,劃定了分類標準,由于預測之中有很多分類器的平均值,可以通過隨機誤差變量的邊緣函數來計算隨機樹的總量,如公式(6)所示:

式(6)中,mg(An,Bm)為兩棵隨機樹An、Bm的均方誤差;UK(An)為隨機向量An被分到正確票數的概率;Bm(uij)為在事件中隨機向量Bm備份到正確票數的概率;I(uk)為指示函數的平均值。在求解邊緣函數的過程中,可以通過構建回歸分析的預測數據,計算線性回歸的最小二乘法,將其與預測數值匹配,可以得到泛化的誤差分析。在斜坡單元類型劃分標準的構建中,通過隨機森林算法可以直接提取影像的基本特征信息,由于每一個圖像在細化到柵格中都具備極大地差別,因此其在應對光暗對比、影響旋轉重疊等方面都具備極大地邏輯性,并具備一定的特征變換規律。可以通過建立已知信號的方式定義這種函數,如公式(7)所示:

式(7)中,an為斜坡單元類型劃分過程中的第n個變換方向。在計算梯度值時,可以通過公式(8)設定圖像的原始文本。

式(8)中,H1(an,bm)、H2(an,bm)、H3(an,bm)分別為在三種類型的像素中,水平梯度的變化規律;an和bm為x軸與y軸上的兩個坐標點;Hbm為在垂直方向上像素點的坐標梯度;Han為在平行方向上,像素點的坐標梯度。結合以上公式,可以直接得到隨機森林分類的路徑(如圖2所示):
圖2中,左邊的樹狀圖案是第一棵樹中的節點,右邊的樹狀圖案是第n棵樹中的節點。在分類的過程中,通過樣本概率分類器計算第一棵樹中的屬性判定條件,可以通過公式(9)來計算:

圖2 隨機森林算法分類路徑

式(9)中,KH為位置類別的樣本在劃分坡度類型時斜坡單元類型劃分的標準路徑長度;ki為在第i個節點中的第一棵樹的參數子集;xi為在第i個節點中的最后一顆樹的參數子集。通過以上算法可以提高斜坡單元類型劃分算法中斜坡密度的精確度,從而實現對劃分方法的優化。
本文設計了一個斜坡單元類型劃分的方法,將其與基于紋理分水嶺的算法、尺度提取算法、利用Python ArcPy的地形最佳算法相對比,分別檢測當溝谷斜坡密度的計算值與實際測量值相等時集水面積閾值的數值,將實驗數據作為判斷四種斜坡單元類型劃分優劣的標準。通過ArcGIS進行衛星地圖的編輯與分析,選取某市山區的地形圖(如圖3所示):

圖3 溝谷斜坡勾繪
圖3中,該衛星地圖中斜坡資源十分豐富,為了得到更準確,更具代表性的實驗數據,在圖3中選擇了四個高度不一的溝谷斜坡。其中,A坡的絕對高度為23.6m,B坡的絕對高度為30.8m,C坡的絕對高度為11.4m,D坡的絕對高度為14.6m。在ArcGIS上通過(如圖4所示)的流程提取坡面單元。

圖4 提取坡面單元流程
在ArcGIS中建立一個坡面單元數據集,作為影像處理與記錄的集合,設定初始坡面DEM的柵格尺寸為300m,通過“功能”模塊提取正向與反向的坡面DEM影像,將提取得到的影像全部保存在數據集中。選擇四個不同深度的坡面A、B、C、D,將其通過線條勾繪成單獨的矢量模型。然后在設置坡面深度,從而提取無坡面的DEM影像,將無坡面DEM同樣存儲在數據集中。通過緩沖區疊加分析工具,結合集水面積數值,計算山谷線走向,并通過“工具”菜單得到山谷線的線形矢量圖層。在計算不同集水面積閾值下的斜坡密度時,可以通過最小二乘法的觀測最優估計來進行判定,如公式(10)所示:

式(10)中,ax-1為通過最小二乘法獲得的最優觀測估計;k1、kx-1分別為集合中第1個和第x-1個觀測對象。通過該最小二乘矩陣方程,可以得到最新的觀測數據,如公式(11)所示:

式(11)中,hx為環境感知質點中通過三維壓縮得到的單獨觀測數據;xi為第i個觀測點的維度特性,也可以標示為正地形下的斜坡密度。更新觀測對象,將其置換成負地形下的斜坡密度,如公式(12)所示:

式(12)中,各項參數如上。通過公式(11)和公式(12)可以得到不同集水面積閾值下溝谷斜坡的密度變化。
在通過四種方法計算溝谷斜坡密度前,首先需要通過實地勘測的方式得到單位面積內溝谷的長度,即溝谷密度的實際測量值。然后使用以上四種方法計算不同集水面積閾值下的溝谷斜坡密度,當集水面積閾值較小時,溝谷斜坡密度的計算值與實際測量值通常存在一定的差距,隨著集水面積閾值的增長,二者之間的誤差會逐漸減小。在該實驗中,通過記錄計算值與實際測量值重疊時,集水面積閾值的數值大小,判斷該方法的有效性和優越性。集水面積閾值越小,則該方法斜坡類型劃分的準確性越高。將通過以上實驗得到的數據結果(如圖5所示):
在圖5的四幅圖像中,當集水面積閾值小于300時,四種方法計算得到的溝谷斜坡密度均沒有與實際測量值相等。在斜坡A中,使用隨機森林算法得到的溝谷斜坡密度,在集水面積閾值為700時,與實際測量值相等。使用紋理分水嶺算法則是在集水面積閾值為900時得到與實際測量值相等的計算值,尺度提取算法和Python ArcPy的最終結果也為900。在斜坡B中,文中方法的數值為500,其他三種算法的數值分別為700、700、1100。斜坡C坡度較小,導致實驗中的整體數值較小,在四種方法下的數值分別為500、700、700、700。斜坡D的四項數值分別為500、900、700、1100。綜合以上實驗數據,在四種斜坡單元類型劃分方法的計算中,使用文中方法可以減小集水面積閾值的設定值,并提高單元類型劃分的準確性。


圖5 集水面積閾值測試
通過ArcGIS與隨機森林算法設計了一種斜坡單元類型的劃分方法,然后通過算法的優化,提高了溝谷斜坡密度計算值的準確度,使其能夠在更小的集水面積閾值中擁有與實際測量值相吻合的數據。又通過實驗與現有的三種算法進行對比,驗證了該算法的有效性和優越性。通過該研究成果,可以提高斜坡地質穩定預測的精準性,具備一定的推廣價值。