楊斌



摘要:在應用現有的OPTICS-PLUS聚類算法于滑坡危險性預測的過程中,降雨等不確定因素直接影響了計算結果的準確性。為了整體提升滑坡危險性預測的準確率,文章提出了基于OPTICS-PLUS算法的一種不確定NNSB-OPTICS聚類算法。前期對OPTICS-PLUS聚類算法進行計算方式優化,總體提高計算過程的效率;中期依據云模型理論和EW型距離公式,與降雨量數據的分布進行結合,導出EH型距離公式,提高不確定數據的準確率。后期通過仿真實驗以及對延安市某區滑坡危險性預測的實際應用結果(滑坡預測精度達到89.8%),證明了該不確定NNSB-OPTICS聚類算法的精準度,具有較高的實際應用價值和可行性。
關鍵詞:滑坡危險性預測;不確定數據處理:NNSB-OPTICS聚類算法
中圖分類號:P642.2
文獻標識碼:A
文章編號:1001-5922(2020)12-0045-04
0 引言
山體滑坡是發生頻次最高、分布范圍最為廣的地質災害之一,給我國居民的生產生活帶來不便,嚴重阻礙了國民經濟發展[1]。滑坡危險性預測受到了具有復雜性和不確定性數據(山坡結構、降雨量、地形地貌等)的影響,給計算工作帶來了障礙。OPTICS-PLUS聚類算法是一種基于密度的聚類算法,但其計算過程耗時長,且難以避免密度臨界值的不精準性和計算者的主觀性,所以在大規模滑坡數據處理方面還存在不足。本文依據OPTICS-PLUS聚類算法對滑坡危險性預測數據的計算進行了優化,衍生出一種專門應用于地質滑坡危險性預測環節的不確定NNSB-OP-TICS算法[2-3]。
1 不確定NNSB-OPTICS聚類算法
1.1 NNSB-OPTICS聚類算法設計
NNSB-OPTICS聚類算法可將收集到的數據劃分為不同的數據隊列,免去了計算者人為劃分密集區和分散區的繁雜步驟,節約了在迭代擴張過程對數據進行排序和反復計算的時間成本,詳情如圖1所示。
NNSB- OPTICS算法優化了oPTIcs算法與OP-TICS-PLUS算法的數據擴張方式,在數據擴張時,對已擴張的數據進行篩減,再根據GPNP指針進行檢索,所以,NNSB-OPTICS算法提高了了數據運算的效率。
1.2 不確定數據處理
降雨是造成山體滑坡的主要因素之一,但在滑坡危險性預測過程中依舊無法對降雨量的取值范圍進行精準的劃分。NNSB-OPTICS聚類算法在較為分散的數據處理中應用性較強,基于此,依據云模型理論和EW型距離公式,可得出EH型距離公式,對相鄰地區的降雨量a (a=1,2,3…)進行不確定降雨量數據(xq)取值,以建立正態云模型數字特征[4]。期望E(x)和超熵He的運算公式如下所示:
在公式(1)、(2)中q為云期望方程的平均數;t為云期望曲線的方差;tmean為t的平均值。
將式(1)和式(2)導入EW型距離中,用He代替不確定數據的取值區間,可得出EH型距離公式,詳情如下:
當He等于0時,可通過EH公式對距離進行計算。He公式主要應用于分散型數據集、不確定性數據集。
2 實驗前期準備
實驗過程中的數據處理均在Windowsl0的操作計算機中運行。數據庫平臺建立于Oracle Database12c,滑坡實驗數據皆是從ArcCIS10.3軟件中取得[5]。
2.1仿真實驗
在實際應用前,為了證明不確定NNSB-OPTICS聚類算法的可行性,分別與基于密度的聚類算法的3種改進法(OPTICS、OPTICS- PLUS、EOPTICS)在UCI數據集中進行了對比實驗。實驗所采用的UCI數據集特性如表1所示,主要測試內容為:聚類算法結果的準確性、高效性、穩定性。
主要采取Micro-Precision標準對實驗結果進行分析判定,計算公式如下:
W為數據集樣本總數,b為聚類數量,ch為聚類樣本數量。MP的取值范圍在[0,1]之間,取值數值越進于l,聚類精準度就越高。在仿真實驗前通過OP-TICS-PLUS算法設定核心點數為GU和相鄰半徑點數集{GU- 0.15,GU, GU+ 0.15},最后對核心點數和相鄰半徑點數集實行數據整合[6-7]。在集合中分別挑取10組參數,每組參數運行10次,共計得到100次的實驗運算結果,選擇一個最小值,選定一個最大值,并對實驗數據均值進行計算,實驗結果均值計算公式如下所示。D為重復的實驗次數=10,OPTICS、EOPTICS、OPTICS-PLUS、NNSB-OPTICS四種算法的運算時間以及數據結果對比如表2、3所示。
由表2可看出,4種運算在UCI數據集的計算中,NNSB-OPTICS的平均數值計算結果相較其他3個算法更具精準度。從最小值和最大值數據差的對比中可以看出,NNSB-OPTICS算法聚類結果穩定性較好。
由表3可得知,相比OPTICS、EOPTICS、OP-TICS-PLUS這3種聚類算法,NNSB-OPTICS算法的運算過程更為節約時間成本,同時可避免人為因素對計算結果的影響。
3 實驗應用
3.1實驗數據來源及數據預處理
對延安市A區進行滑坡危險性預測研究,利用嵌入式GIS軟件,將實驗地區劃分為5672900個等大網格單元(單個單元尺寸為:6mx6m),將5672900個單元網格導人1:5000的DEM中繪制專題圖,從而進一步獲取實驗地區坡向、坡高、坡度等數據[8-9]。參與實驗的數據來源如下:
1)巖土結構數據:采用遙感影像處理軟件(ER-DAS IMACINE)在1:10000的地質圖中運用Normal-ization差值計算法獲取。
2)降雨量數據:對已發生滑坡的地區前后14d降雨量進行統計,對得到的原始數據首先進行預處理;其次,刪除對滑坡影響可忽略不計的數值項,主要以坡度、坡高、坡向等8個屬性項最為本次實驗聚類特征屬性;最后,通過數據預處理,得到數據屬性特征如表4所示。
3.2實驗評估標準
Kappa系數可對實驗結果進行精準率較高的評估,可具體反映出實驗結果的優勢。Kappa系數計算公式如下所示。
3.3 滑坡預測精度評價分析與比較
通過公式(1)、公式(2)、公式(3)對降雨量相似值進行計算。在2種算法中,對降雨量用數值替代,采用Euclid Distance進行相似度計算。最終按照NNSB-OPTICS算法(I)、不確定NNSB-OPTICS算法(Ⅱ)分類,得到表5所示的滑坡危險性預測統計結果。
通過計算可知本文提出的不確定NNSB-OPTICS聚類算法計算結果的精準率遠高于NNSB-OPTICS聚類算法4.4%,說明此方法在滑坡預測中具有可行性。且不確定NNSB-OPTICS聚類算法的Kappa系數更接近于1,表明在針對滑坡危險性預測環節進行同一數據集進行處理時,利用不確定NNSB-OPTICS聚類算法所得到的滑坡預測結果與利用NNSB-OPTICS聚類算法所得結果相比,與實際值的差異更小[10]。原因在于,在建立不確定NNSB-OPTICS滑坡預測模型時,與EH型距離公式進行了充分結合,針對不確定降雨量也刻畫了更為精準的的分布范圍,整體提高了對延安市A區滑坡危險性預測的精準率。
4 結語
綜上所述,根據OPTICS-PLUS算法,結合EW型距離公式和云模型理論提出EH型距離公式,解決了地區降雨量分布不能實時刻畫的難點。本文所得結論表明,不確定NNSB-OPTICS聚類算法計算結果的精準率遠高于NNSB-OPTICS聚類算法4.4%,具有明顯更加精準的計算結果;同時,利用不確定NNSB-OP-TICS聚類算法計算結果與實際值差異更小,更加接近實際的滑坡危險性數值。
參考文獻
[1]周琪,許強,周小棚,等.突發型滑坡危險范圍預測方法研究——以黑方臺焦家6#滑坡為例[J].災害學,2020,35(01):216-221.
[2]吳博,趙法鎖,段釗,等.基于熵權的屬性識別模型在陜西土質滑坡危險度評價中的應用[J].災害學,2018,33(01):140-145.
[3]繆亞敏,朱阿興,楊琳,滑坡危險度制圖精度評價指標的有效性研究[J].自然災害學報,2017,26(02):115-122.
[4]賈玉躍,高毓山,礦山開采誘發邊坡形變規律分析及控制對策[J].金屬礦山,2017( 06):156-159.
[5]繆亞敏,朱阿興,楊琳,等,滑坡危險度制圖中一種新型的負樣本采樣方法[J].地理與地理信息科學,2016,32(04):61-67+127.
[6]繆亞敏,朱阿興,楊琳,等,滑坡危險度評價對BCS負樣本采樣的敏感性[J].山地學報,2016,34 (04):432-441.
[7]繆亞敏,朱阿興,楊琳,等,一種基于地理環境相似度的滑坡負樣本可信度度量方法[J].地理科學進展,2016,35(07):860-869.
[8]宋威,李宏,安全監測在錦屏二級水電站滑坡體應急救援與搶險中的應用[J].水利水電技術,2015,46(07):26-27+31.
[9]陸盟,張潔,文思成,地震作用下滑坡水平運動距離概率預測模型[J].防災減災工程學報,2020,40(01):92-99.
[10]李明波,陳平,陳植華,等,基于多模塊的松散土質滑坡災害綜合預警模型研究[J].西北師范大學學報(自然科學版),2020,56(02):94-100.