999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不確定數(shù)據(jù)的半監(jiān)督動(dòng)態(tài)K-均值算法在滑坡危險(xiǎn)性預(yù)測(cè)上的應(yīng)用

2020-05-21 00:18:32

景德鎮(zhèn)學(xué)院,江西 景德鎮(zhèn) 333000

滑坡災(zāi)害是地質(zhì)災(zāi)害中最重要的災(zāi)害類型之一,具有分布地區(qū)廣、運(yùn)動(dòng)速度快、災(zāi)害損失嚴(yán)重等特點(diǎn)[1]。我國(guó)是滑坡災(zāi)害較為多發(fā)的國(guó)家之一,且近年來(lái)發(fā)生頻率不斷增加,因此,有效的滑坡危險(xiǎn)性預(yù)測(cè)方法仍是現(xiàn)今研究的熱點(diǎn)。

無(wú)監(jiān)督聚類方法已廣泛用于滑坡危險(xiǎn)性預(yù)測(cè)領(lǐng)域,無(wú)監(jiān)督聚類是指在不需要任何先驗(yàn)信息的情況下,通過(guò)抽取數(shù)據(jù)中的“潛在”結(jié)構(gòu),將數(shù)據(jù)劃分到不同類別。張俊等[2]采用K-means 聚類算法,選取7 個(gè)致災(zāi)因子作為滑坡易發(fā)性的評(píng)價(jià)指標(biāo),對(duì)三峽庫(kù)萬(wàn)州區(qū)的滑坡易發(fā)性評(píng)價(jià)體系進(jìn)行分級(jí),實(shí)驗(yàn)證明滑坡易發(fā)性評(píng)價(jià)體系預(yù)測(cè)精度較高。吳亞子等[3]基于灰色聚類法,通過(guò)計(jì)算11 個(gè)因子對(duì)應(yīng)評(píng)價(jià)級(jí)別的基準(zhǔn)劃分值,對(duì)阿里地區(qū)滑坡等地質(zhì)災(zāi)害的危險(xiǎn)性展開(kāi)評(píng)價(jià)預(yù)估,得到了較好的預(yù)測(cè)結(jié)果。阮云凱等[4]采用K-PSO 聚類算法,確定8 個(gè)影響因子并計(jì)算影響因子權(quán)重值,在旭龍水電站庫(kù)區(qū)實(shí)驗(yàn)中的滑坡危險(xiǎn)性預(yù)測(cè)結(jié)果證明與實(shí)際發(fā)育情況具有較高的一致性。雖然無(wú)監(jiān)督聚類在滑坡危險(xiǎn)性預(yù)測(cè)上取得了一些成效,但是仍存在一些明顯的問(wèn)題:首先,傳統(tǒng)聚類算法多應(yīng)用于屬性為確定性的數(shù)據(jù),而在處理滑坡的不確定誘發(fā)因素降雨量的聚類上效果不佳;其次,整個(gè)聚類過(guò)程由于沒(méi)有任何先驗(yàn)信息的指導(dǎo),很可能會(huì)產(chǎn)生沒(méi)有實(shí)際意義的劃分結(jié)果,且聚類精度整體偏低。因此,研究分別從這兩個(gè)方面出發(fā),進(jìn)行優(yōu)化方案的探討。

不確定數(shù)據(jù)作為新型數(shù)據(jù)之一,近年來(lái)受到廣泛關(guān)注。對(duì)于降雨量這類的不確定數(shù)據(jù),傳統(tǒng)針對(duì)確定性數(shù)據(jù)的歐氏距離無(wú)法有效度量其間距。基于此,郭軍鵬[5]提出了一種基于中點(diǎn)和半徑的不確定數(shù)據(jù)距離—Hausdorff 距離,該距離是目前使用較為廣泛的一種不確定數(shù)據(jù)距離,但同時(shí),該距離僅適用于內(nèi)部服從均勻分布的不確定數(shù)據(jù),而在實(shí)際應(yīng)用中,不確定數(shù)據(jù)的內(nèi)部分布通常未知。因此,文中以Hausdorff 距離為基礎(chǔ),擴(kuò)展出一種適用于任意不確定數(shù)據(jù)的uv距離。

利用先驗(yàn)信息來(lái)指導(dǎo)聚類過(guò)程,改善無(wú)監(jiān)督聚類算法的性能,該類算法在數(shù)據(jù)挖掘領(lǐng)域被統(tǒng)稱為半監(jiān)督聚類,先驗(yàn)信息通常是數(shù)據(jù)的類別標(biāo)記或約束關(guān)系。由于在滑坡危險(xiǎn)性預(yù)測(cè)應(yīng)用中,往往存在少量滑坡觀測(cè)點(diǎn)的類別信息,由此提出將先驗(yàn)信息為類別標(biāo)簽的半監(jiān)督聚類應(yīng)用于滑坡危險(xiǎn)性預(yù)測(cè)的設(shè)想。在以類別標(biāo)記為監(jiān)督信息引導(dǎo)聚類過(guò)程的算法研究中,Basu 等[6]首先提出了Seeded-K-均值和Constrained-K-均值算法,它們使用少量帶類別標(biāo)簽的標(biāo)記數(shù)據(jù)形成seeds 集以初始化類中心,進(jìn)而提高整個(gè)數(shù)據(jù)集的聚類性能,但同時(shí),seeds 集的質(zhì)量和規(guī)模對(duì)聚類結(jié)果的影響顯著。因此,文獻(xiàn)[7]提出一種改進(jìn)的半監(jiān)督聚類算法,該算法通過(guò)Tri-training 的迭代過(guò)程及數(shù)據(jù)剪輯的Depuration技術(shù)提高seeds 集質(zhì)量,進(jìn)一步提高了算法的聚類性能,但該算法僅從seeds 集角度進(jìn)行分析改進(jìn),且改進(jìn)方法未結(jié)合應(yīng)用本身特點(diǎn)。因此,本次研究充分考慮滑坡應(yīng)用本身性質(zhì),引入衡量降雨量的uv距離,設(shè)計(jì)了一種基于不確定數(shù)據(jù)的半監(jiān)督動(dòng)態(tài)K-均值算法(USSD-K-均值算法(Uncertain semi-supervised dynamic)),并分別從seeds 集質(zhì)量和算法過(guò)程兩個(gè)角度進(jìn)行優(yōu)化。首先對(duì)初始seeds集進(jìn)行消噪,其次利用滑坡分布的局地集中發(fā)育特點(diǎn)[8]進(jìn)行標(biāo)簽的空間擴(kuò)展,實(shí)現(xiàn)seeds 集優(yōu)化;其次引用隸屬度概念,通過(guò)設(shè)置隸屬度閾值動(dòng)態(tài)更新劃分結(jié)果,有效提高了聚類性能。

本文提出一個(gè)新的不確定數(shù)據(jù)測(cè)度,闡述基于不確定數(shù)據(jù)的半監(jiān)督動(dòng)態(tài)聚類算法的具體步驟,并給出時(shí)間復(fù)雜度分析,通過(guò)實(shí)驗(yàn)對(duì)uv距離及USSD-K-均值算法進(jìn)行性能測(cè)試并對(duì)結(jié)果比較分析,并對(duì)全文工作進(jìn)行總結(jié)及展望。

1 不確定數(shù)據(jù)

1.1 不確定數(shù)據(jù)概念

不確定數(shù)據(jù),即帶有不確定性的數(shù)據(jù)。根據(jù)其不確定性的表示方式,可以將不確定數(shù)據(jù)分為傳輸數(shù)據(jù)的點(diǎn)概率數(shù)、測(cè)量數(shù)據(jù)的區(qū)間數(shù)等[9]。本文所研究的滑坡危險(xiǎn)性應(yīng)用,其不確定誘發(fā)因素降雨量的表現(xiàn)形式為區(qū)間數(shù),因此文中所提不確定數(shù)據(jù)均指區(qū)間數(shù),其定義如下:

定義1給定,稱為一個(gè)區(qū)間數(shù),mL為區(qū)間數(shù)的左端點(diǎn),mU為區(qū)間數(shù)的右端點(diǎn)。特別地,若mL=mU,則變?yōu)橐粋€(gè)確定數(shù)。

1.2 不確定數(shù)據(jù)距離

聚類算法通常按照某種相似準(zhǔn)則將數(shù)據(jù)集劃分成為若干個(gè)簇,通常以數(shù)據(jù)間的距離作為相似度衡量標(biāo)準(zhǔn),而傳統(tǒng)方法僅適用于確定性數(shù)據(jù),因此,尋求一個(gè)能有效衡量不確定數(shù)據(jù)相似度的不確定數(shù)據(jù)距離是不確定性數(shù)據(jù)聚類的關(guān)鍵。基于此,文獻(xiàn)[5]提出了一種基于中點(diǎn)和半徑的不確定數(shù)據(jù)距離—Hausdorff 距離,其定義如下:

定義2對(duì)于區(qū)間數(shù)m=[mL mU],n=[nL nU],令,表示區(qū)間數(shù)的中點(diǎn),表示區(qū)間數(shù)的半徑(X=m,n),則區(qū)間m和n間的Hausdorff 距離:

分析式(1)易看出,在區(qū)間數(shù)內(nèi)部點(diǎn)服從均勻分布的前提下,中點(diǎn)c(X)能有效反映出這些點(diǎn)數(shù)據(jù)的集中位置,半徑r(X)則能直觀刻畫(huà)其離散程度。但在實(shí)際應(yīng)用中,區(qū)間數(shù)內(nèi)部的分布通常難以獲得,因此本文以Hausdorff 距離為基礎(chǔ),擴(kuò)展出一種適用于任意區(qū)間數(shù)的uv距離,以下給出定義:

定義3對(duì)于區(qū)間數(shù)m=[mL mU],n=[nL nU],區(qū)間數(shù)內(nèi)部點(diǎn)可能服從任意分布,則區(qū)間數(shù)m和n間的uv距離定義為:

式中u(X)描述區(qū)間數(shù)的平均值,v(X)則表示區(qū)間數(shù)的平均離差(X=m,n)。

注:假設(shè)一個(gè)任意區(qū)間數(shù)為[X1Xn],。對(duì)于任意分布的區(qū)間數(shù),均值u(X)可以有效反映區(qū)間內(nèi)部數(shù)據(jù)的集中趨勢(shì),而平均離差v(X)能較精準(zhǔn)地刻畫(huà)區(qū)間內(nèi)的離散程度。相較于Hausdorff 距離的局限性,新提出的uv距離適用范圍更廣。在滑坡危險(xiǎn)性預(yù)測(cè)應(yīng)用中,不確定屬性降雨量的數(shù)據(jù)雖然可以獲取,但其分布情況卻無(wú)法獲知,此時(shí)若利用Hausdorff 距離度量相似性會(huì)丟失部分有效信息,導(dǎo)致聚類精度較低。而基于均值和平均差的uv距離可以充分利用區(qū)間內(nèi)的數(shù)據(jù)信息,進(jìn)而有效度量數(shù)據(jù)間的相似性。以下進(jìn)一步給出uv距離為一個(gè)度量空間的證明:

證明*區(qū)間數(shù)集η用表示,設(shè)三個(gè)區(qū)間數(shù)x,y,z∈η

(1)uv(x,y)=|u(x)-u(y)|+|v(x)-v(y)|,其中|u(x)-u(y)|≥0|v(x)-v(y)|≥0,所以u(píng)v(x,y)≥0,滿足非負(fù)性。

(2)|u(x)-u(y)|=|u(y)-u(x)|,同樣|v(x)-v(y)|=|v(y)-v(x)|,故uv(x,y)=uv(y,x),滿足對(duì)稱性。

(3)|u(x)-u(y)|+|u(y)-u(z)|≥|u(x)-u(y)|+|u(y)-u(z)|=|u(x)-u(z)|,同樣地|v(x)-v(y)|+|v(y)-v(z)|≥|v(x)-v(y)|+|v(y)-v(z)|=|z(x)-v(z)|

故uv(x,y)+uv(y,z)≥uv(x,z),滿足三角不等式性。因此uv距離滿足度量空間定義的三個(gè)條件。

2 基于不確定數(shù)據(jù)的半監(jiān)督動(dòng)態(tài)K 均值算法

2.1 半監(jiān)督K-均值算法

K-均值算法是一種使用普遍的聚類算法,傳統(tǒng)K-均值算法屬于無(wú)監(jiān)督聚類算法,它首先隨機(jī)初始聚類中心,其次根據(jù)相似性將數(shù)據(jù)分配到最近的類中心,迭代更新聚類中心,直至目標(biāo)函數(shù)最小化,目標(biāo)函數(shù)表示為:

其中,p表示給定的數(shù)據(jù)對(duì)象,ci為第i類的聚類中心,共有k個(gè)聚類。

不同于K-均值算法隨機(jī)選取初始聚類中心的方法,Basu 等[6]提出的半監(jiān)Seeded-K-均值和Constrained-K-均值算法通過(guò)給出的少量帶類別標(biāo)簽的數(shù)據(jù)形成seeds 集,并根據(jù)seeds 集確定初始聚類中心,相較于完全忽視監(jiān)督信息的傳統(tǒng)聚類算法,半監(jiān)督K-均值算法有效利用了給出的監(jiān)督信息,提高了算法的聚類性能。但基于seeds 集的Seeded-K-均值和Constrained-K-均值算法對(duì)seeds 集的規(guī)模和質(zhì)量十分敏感,若能得到一個(gè)規(guī)模大、質(zhì)量好的seeds 集,算法性能也將得到顯著提高。

因此,為進(jìn)一步提高半監(jiān)督K-均值算法的聚類性能,分別從seeds 集和算法本身提出改進(jìn)方案。

2.2 seeds 集優(yōu)化

在基于seeds 集的半監(jiān)督K-均值算法中,初始聚類中心的質(zhì)量對(duì)聚類效果的影響顯著。因此提出一種seeds 集優(yōu)化方法:首先對(duì)原始seeds 集消噪,通過(guò)檢測(cè)seeds 集中所有數(shù)據(jù)點(diǎn),刪除差異較大的噪聲點(diǎn);其次以去噪后的標(biāo)簽樣本為基礎(chǔ),結(jié)合滑坡分布空間上局地集中發(fā)育的性質(zhì)[8],進(jìn)行標(biāo)簽數(shù)據(jù)的空間擴(kuò)展,最終得到規(guī)模大、質(zhì)量高的seeds 集。

seeds 集由已知帶標(biāo)記的數(shù)據(jù)構(gòu)成,傳統(tǒng)方法把seeds 集直接按類別標(biāo)記劃分成k個(gè)類,并以此確定k個(gè)聚類中心,但是在seeds 集中,可能存在少量這樣的數(shù)據(jù):雖然它帶有類別標(biāo)簽,但它與類中其它數(shù)據(jù)點(diǎn)的相似性卻很小,表現(xiàn)為該點(diǎn)的平均距離遠(yuǎn)大于類內(nèi)其它點(diǎn)的平均距離。將此類點(diǎn)直接劃分到初始類會(huì)直接影響初始中心的計(jì)算,因此首先提出一種方法,剪輯原始seeds 集中的噪聲點(diǎn),其具體方法如下:首先把seeds 集DL中的數(shù)據(jù)按照類標(biāo)號(hào)分成k個(gè)類:C1,C2,…,CK;n1,n2,…,nk表示每個(gè)類中的點(diǎn)數(shù)目,計(jì)算每個(gè)點(diǎn)的平均距離,刪除各類中平均距離明顯較大的點(diǎn)。給出點(diǎn)xi的平均距離公式:

注意:若聚類對(duì)象為確定性數(shù)據(jù)時(shí),點(diǎn)的平均距離用歐式距離計(jì)算;若聚類對(duì)象屬性為不確定數(shù)據(jù)時(shí),點(diǎn)的平均距離用uv距離計(jì)算。

算法1:標(biāo)簽數(shù)據(jù)集的消噪

輸入:標(biāo)簽數(shù)據(jù)集DL

輸出:標(biāo)簽數(shù)據(jù)集DL_

Step 1數(shù)據(jù)集DL按類別標(biāo)號(hào)初始化k個(gè)類:C1,C2,…,Ck。

Step 2計(jì)算k個(gè)類中每點(diǎn)的平均距離avg(xi)(xi∈Ck)。

Step 3每個(gè)類中的點(diǎn)分別按平均距離升序排列,刪除平均距離明顯偏大的點(diǎn)。

Step 4用DL_表示剩下的點(diǎn)組成的標(biāo)簽數(shù)據(jù)及并輸出。

算法1 中,數(shù)據(jù)集劃分成k個(gè)類的時(shí)間復(fù)雜度為O(L),其中L是標(biāo)簽數(shù)據(jù)集的大小,計(jì)算每點(diǎn)的平均距離的時(shí)間復(fù)雜度為O(L2),排序采取快速排序方法,時(shí)間復(fù)雜度為O(Llog2L),因此,標(biāo)簽數(shù)據(jù)集消噪的時(shí)間復(fù)雜度為O(L2)。

由于實(shí)際應(yīng)用中通常可獲得的標(biāo)簽樣本非常少,經(jīng)過(guò)上述方法消噪后的seeds 集雖然質(zhì)量得到提升,但其規(guī)模仍然很小,因此,結(jié)合數(shù)據(jù)集本身具有的空間一致性的性質(zhì)[10],根據(jù)應(yīng)用實(shí)例中滑坡成群分布的基本特點(diǎn)完全符合這一性質(zhì)的實(shí)際情況,并同時(shí)考慮到實(shí)驗(yàn)?zāi)芡ㄟ^(guò)ARCGIS 獲取各滑坡點(diǎn)的空間位置的實(shí)際條件,提出一種標(biāo)簽數(shù)據(jù)空間擴(kuò)展方法。其具體方法如下:首先計(jì)算出消噪后的seeds 集中各類的類平均距離avg(Ck),以avg(Ck)作為各類標(biāo)簽的擴(kuò)展閾值,其次求出k個(gè)類的類中心Ck,以類中心為起點(diǎn),搜索空間范圍內(nèi)滿足空間閾值φ范圍內(nèi)的所有點(diǎn),并比較這些點(diǎn)與Ck的平均距離,若不大于avg(Ck),則將點(diǎn)Ck的類別標(biāo)記賦給此點(diǎn),反之,此點(diǎn)仍為未標(biāo)記數(shù)據(jù)。

首先給出類平均距離的定義,把DL_中的數(shù)據(jù)按照類標(biāo)號(hào)分成k個(gè)類:C1,C2,…,Ck,nk表示第k個(gè)類中的點(diǎn)數(shù)目,avg(xi)表示點(diǎn)xi的平均距離,類平均距離avg(Ck)為類內(nèi)所有點(diǎn)平均距離的平均值,計(jì)算方法如下:

其次,類中心Ck的計(jì)算方法如下:

最后,空間閾值φ實(shí)質(zhì)上是一個(gè)空間范圍,它表示在空間范圍φ內(nèi)的所有點(diǎn)很可能屬于同一個(gè)類,但它的值并不固定,根據(jù)聚類應(yīng)用的不同,φ值也不同。

算法2:標(biāo)簽數(shù)據(jù)集的空間擴(kuò)展

輸入:標(biāo)簽數(shù)據(jù)集DL_,未標(biāo)記數(shù)據(jù)集Ln,空間閾值φ。

輸出:標(biāo)簽數(shù)據(jù)集D*L,未標(biāo)記數(shù)據(jù)集Ln_。

Step 1把數(shù)據(jù)集DL_按類別標(biāo)號(hào)劃分成k個(gè)類:C1,C2,…,Ck,并計(jì)算每個(gè)類的類平均距離avg(Ck)及類中心Ck。

Step 2得求出類中心Ck與Ln集中每個(gè)點(diǎn)的空間位置。

Step 3在未標(biāo)記數(shù)據(jù)集Ln上尋找與類中心Ck在空間上滿足φ的所有點(diǎn),并計(jì)算它與Ck的平均距離。

Step 4若d(Ck,Ln)≤avg(Ck),則Ln的類別標(biāo)記為k,若d(Ck,Ln)>avg(Ck),則點(diǎn)Ln仍為未標(biāo)記數(shù)據(jù)。

Step 5用D*L及Ln_分別表示所有標(biāo)記數(shù)據(jù)點(diǎn)組成的標(biāo)簽數(shù)據(jù)集和未標(biāo)記數(shù)據(jù)點(diǎn)組成的數(shù)據(jù)集并輸出。

算法2 中,計(jì)算類平均距離及類中心的時(shí)間復(fù)雜度為O(L2_),其中,L_是數(shù)據(jù)集DL_的大小。得到類中心及Ln集中點(diǎn)空間位置的時(shí)間復(fù)雜度為O(k+n),其中,k是數(shù)據(jù)集DL_中的類別,n是數(shù)據(jù)集Ln的大小。其次在數(shù)據(jù)集Ln上尋找與k個(gè)類中心空間上滿足φ的點(diǎn)的時(shí)間復(fù)雜度為O(kn)。因此,標(biāo)簽數(shù)據(jù)集的擴(kuò)展的時(shí)間復(fù)雜度為max{O(kn),O(L2_)}。

2.3 基于不確定數(shù)據(jù)的半監(jiān)督動(dòng)態(tài)K-均值算法(USSD-K-均值算法)

不同于傳統(tǒng)聚類算法針對(duì)屬性為確定性數(shù)據(jù)的情形,新提出的用于滑坡危險(xiǎn)性預(yù)測(cè)的USSD-K-均值算法研究的對(duì)象為不確定數(shù)據(jù),因此該算法首先引入新提出的uv距離,其次,相較于傳統(tǒng)半監(jiān)督K-均值算法通過(guò)迭代改善目標(biāo)函數(shù)多次分配所有對(duì)象的方法,USSD-K-均值算法在seeds 集優(yōu)化的基礎(chǔ)上,引進(jìn)隸屬度的概念,通過(guò)遞減隸屬度閾值對(duì)所有對(duì)象進(jìn)行逐步擇優(yōu)劃分,保證每次劃分結(jié)果的質(zhì)量。算法3 給出USSD-K-均值算法的聚類過(guò)程。

算法3USSD-K 均值算法

輸入:標(biāo)簽數(shù)據(jù)集DL,未標(biāo)記數(shù)據(jù)集Ln,空間閾值φ

輸出:聚類結(jié)果

Step 1算法1。

Step 2算法2。

Step 3計(jì)算seeds 集D*L中的初始類中心。

把數(shù)據(jù)集D*L按類別標(biāo)號(hào)劃分成k個(gè)類:C1,C2,…,Ck,計(jì)算每個(gè)類的中心,其計(jì)算方法:

其中,nk為第k類中點(diǎn)的數(shù)目。

Step 4計(jì)算未標(biāo)記數(shù)據(jù)集中的點(diǎn)到各個(gè)類的隸屬度。

隸屬度概念來(lái)源于模糊簇,它度量對(duì)象屬于不同類的程度,通常用于模糊聚類中劃分矩陣的計(jì)算,而本文引入隸屬度概念,通過(guò)設(shè)定隸屬度閾值判斷對(duì)象是否滿足被劃分的依據(jù),通常用Wij表示點(diǎn)Li在類Cj中的隸屬度,其計(jì)算方法如下:

seeds 集D*L中各類的初始中心為未標(biāo)記數(shù)據(jù)集為L(zhǎng)n_(l1,l2,l3,…,ln_),則表示為:

Step 5設(shè)置隸屬度閾值,并通過(guò)降低閾值做逐次劃分。

隸屬度閾值用于判斷數(shù)據(jù)對(duì)象在某類中的隸屬度是否達(dá)到將該對(duì)象劃分到這個(gè)類的標(biāo)準(zhǔn),本文用θ代表隸屬度閾值,若Wij>θ,則可以將對(duì)象li劃分到類cj中。通常將初始θ值設(shè)置為較高值,以保證劃分結(jié)果的高質(zhì)量。β為下降系數(shù),代表每次劃分隸屬度閾值的降低程度,通常根據(jù)實(shí)際應(yīng)用中對(duì)聚類結(jié)果的精度要求設(shè)置。本節(jié)以初始θ值為0.8,下降系數(shù)β為0.9 為例進(jìn)行描述:(值得注意的一點(diǎn)是,前期為保證劃分質(zhì)量,下降系數(shù)設(shè)置為0.9,當(dāng)隸屬度閾值達(dá)到一個(gè)較低的水平,此時(shí)可以增強(qiáng)下降系數(shù),使隸屬度閾值大幅下降,具體地,設(shè)定β=β2):

a) 將初始θ值設(shè)為0.8,計(jì)算Ln_集中所有對(duì)象到各類的隸屬度,若則將對(duì)象li劃分到第j類,若對(duì)象li到每個(gè)類的隸屬度均小于0.8,則它回到未標(biāo)記數(shù)據(jù)集中進(jìn)入下一次劃分,直至對(duì)象Wn_j被比較,第一次劃分結(jié)束。得到新的有標(biāo)簽數(shù)據(jù)集D1未標(biāo)記數(shù)據(jù)集

迭代更新類中心,并根據(jù)隸屬度閾值逐次劃分

……

算法3 中,seeds 集優(yōu)化的總時(shí)間復(fù)雜度為max{O(L2),O(kn)}。其次計(jì)算類中心的時(shí)間復(fù)雜度為O(L*),L*為數(shù)據(jù)集D*L的大小。計(jì)算隸屬度的時(shí)間復(fù)雜度為O(kn_),其中,n_為數(shù)據(jù)集Ln_的大小。根據(jù)隸屬度閾值做不同劃分的時(shí)間復(fù)雜度為O(n2_)。因此,USSD-K-均值算法的整體時(shí)間復(fù)雜度為O(n2_)。

3 實(shí)驗(yàn)

為驗(yàn)證本文提出的uv距離及USSD-K-均值算法在衡量滑坡不確定因素降雨量及預(yù)測(cè)滑坡危險(xiǎn)性上的效果,本次實(shí)驗(yàn)以延安市寶塔區(qū)的某區(qū)域作為實(shí)驗(yàn)對(duì)象,提取相關(guān)數(shù)據(jù),并以給出的少量先驗(yàn)信息為指導(dǎo),分別進(jìn)行對(duì)比實(shí)驗(yàn)。

3.1 實(shí)驗(yàn)準(zhǔn)備

結(jié)合滑坡地質(zhì)災(zāi)害發(fā)生的特征及學(xué)者對(duì)該區(qū)域滑坡災(zāi)害形成機(jī)理的研究,本次實(shí)驗(yàn)選取坡高、坡型、坡度、坡向、植被、巖土體結(jié)構(gòu)、降雨七個(gè)屬性作為滑坡危險(xiǎn)性的評(píng)價(jià)因子。首先利用ARCGIS對(duì)該區(qū)域進(jìn)行柵格劃分,選取尺寸為5 m×5 m 的柵格分辨率,得到152457 個(gè)柵格單元。其次把每個(gè)柵格單元看成一個(gè)點(diǎn),導(dǎo)入到精度為1:5000 的數(shù)字高程度中,可以分別得出每個(gè)點(diǎn)的經(jīng)緯度,并派生出坡型、坡度、坡高和坡向等專題圖。從各專題圖中可以獲取所需的地形地貌等信息,巖土體數(shù)據(jù)從1:1000 的地質(zhì)圖中獲取,植被數(shù)據(jù)通過(guò)EVNI 遙感軟件取得,降雨量數(shù)據(jù)來(lái)源于地調(diào)中心的GIS數(shù)據(jù)庫(kù)[11]。決策因子為滑坡危險(xiǎn)性等級(jí),分為高、中、低三個(gè)危險(xiǎn)性等級(jí),研究區(qū)根據(jù)專家基于區(qū)域特征的分析已經(jīng)選取了326 個(gè)觀測(cè)點(diǎn)并確定其危險(xiǎn)性等級(jí),觀測(cè)點(diǎn)的危險(xiǎn)性等級(jí)包含了高危、中危、低危三個(gè)類別。

3.2 參數(shù)設(shè)置及模型建立

引入不確定數(shù)據(jù)模型—uv距離,在算法過(guò)程中,不確定屬性降雨量的衡量統(tǒng)一使用uv距離。首先以給出的326 個(gè)觀測(cè)點(diǎn)作為標(biāo)記數(shù)據(jù)集形成初始seeds 集DL,根據(jù)危險(xiǎn)性等級(jí)高危、中危、低危將其劃分成3 個(gè)類,利用算法1 進(jìn)行seeds 集消噪,刪除少量噪聲點(diǎn)。其次根據(jù)地質(zhì)與數(shù)據(jù)專家分析滑坡本身空間分布及該區(qū)域地質(zhì)災(zāi)害分布特點(diǎn)得到的結(jié)果,將空間閾值φ設(shè)置為387 m,空間閾值φ在本次滑坡應(yīng)用中的實(shí)際意義為:若某點(diǎn)的危險(xiǎn)性等級(jí)確定,則在其空間范圍387 m 內(nèi)的所有點(diǎn)的危險(xiǎn)性等級(jí)很可能與它一致。以seeds 集消噪后的觀測(cè)點(diǎn)作為DL_集,其余152131 個(gè)觀測(cè)點(diǎn)形成未標(biāo)記數(shù)據(jù)集Ln,閾值φ=387 m,利用算法2 進(jìn)行標(biāo)簽數(shù)據(jù)的空間擴(kuò)展,得到最終seeds 集D*L及未標(biāo)記數(shù)據(jù)集Ln_。最后本次實(shí)驗(yàn)將初始θ值設(shè)置為0.85,下降系數(shù)β為0.9,利用算法3 在數(shù)據(jù)集Ln_進(jìn)行聚類,得到最終聚類結(jié)果。

3.3 評(píng)價(jià)標(biāo)準(zhǔn)

在本次滑坡危險(xiǎn)性預(yù)測(cè)的實(shí)驗(yàn)中,選取內(nèi)部有效性指標(biāo)Silhouette 指標(biāo)[12]作為實(shí)驗(yàn)的聚類評(píng)價(jià)標(biāo)準(zhǔn),用于未知樣本集聚類效果的判斷。它通過(guò)點(diǎn)的緊密度和分離度來(lái)計(jì)算,其計(jì)算方法如下:

其中,式中點(diǎn)x屬于類Cj,a(x)表示點(diǎn)x與Cj中其它點(diǎn)的平均距離,b(x)=min{dis(x,ci)},i=1,2,…,k,且i≠j。從式中易看出Silhouette 指標(biāo)取值在[-1,1]之間,全部樣本的平均Silhouette 值越接近1,表明聚類效果越好。具體地,在滑坡危險(xiǎn)性預(yù)測(cè)實(shí)驗(yàn)中,Silhouette 指標(biāo)值越高,表明其預(yù)測(cè)精度越好。

3.4 實(shí)驗(yàn)分析

3.4.1uv距離效果分析 為驗(yàn)證uv距離在衡量不確定因素降雨量的有效性,在保證其他參數(shù)和步驟均相同的情況下,分別基于歐氏距離、Hausdorff 距離以及新提出的uv距離衡量降雨量,使用新算法比較滑坡危險(xiǎn)性等級(jí)的聚類效果。不同比例數(shù)據(jù)集下三種距離衡量不確定雨量時(shí)算法的聚類效果(圖1)。

從圖1 可見(jiàn),新提出的uv距離衡量不確定因素降雨量時(shí),聚類Silhouette 指標(biāo)值達(dá)到0.8 以上,優(yōu)于利用歐氏距離和Hausdorff 距離衡量降雨量時(shí)的聚類結(jié)果。歐式距離在衡量降雨量時(shí),完全忽略了數(shù)據(jù)的不確定性,因此聚類效果不佳。Huasdorff 距離雖然考慮了其不確定性,但它丟失了部分內(nèi)部重要信息,其衡量效果優(yōu)于歐式距離,但遜于uv距離,其Silhouette 指標(biāo)值平均在0.78 左右。而本文提出的基于均值和平均差的uv距離充分利用了不確定數(shù)據(jù)的內(nèi)部信息,達(dá)到了較好的衡量效果。

3.4.2 USSD-K-均值算法性能分析 為驗(yàn)證USSD-K-均值算法有效性,實(shí)驗(yàn)基于不同比例數(shù)據(jù)集,對(duì)Seeded-K-均值算法、Constrained-K-均值算法和基于Tri-Training 和數(shù)據(jù)剪輯的半監(jiān)督K-均值算法和本文提出的USSD-K-均值算法分別進(jìn)行測(cè)試。圖2 給出Silhouette 指標(biāo)對(duì)比結(jié)果。

從圖2 可以發(fā)現(xiàn)USSD-K-均值算法的聚類效果整體好于Seeded-K-均值算法、Constrained-K-均值算法及基于Tri-Training 和數(shù)據(jù)剪輯的半監(jiān)K-均值算法,具體地看,Seeded-K-均值算法和Constrained-K-均值算法的聚類指標(biāo)Silhouette 值平均在0.70 左右,聚類精度偏低,且隨數(shù)據(jù)集增加,seeds 集所占比例隨之減少時(shí),初始類中心的質(zhì)量無(wú)法保證,聚類精度逐漸降低。而基于Tri-Training和數(shù)據(jù)剪輯的半監(jiān)督K-均值算法通過(guò)優(yōu)化seeds 集提高了聚類精度,Silhouette 值范圍達(dá)到0.82 左右,它的聚類效果雖然高于傳統(tǒng)的半監(jiān)督K-均值算法,但仍未達(dá)到滑坡危險(xiǎn)性預(yù)測(cè)應(yīng)用的預(yù)期標(biāo)準(zhǔn)。本文提出的USSD-K-均值算法從seeds 集優(yōu)化及算法本身兩個(gè)角度進(jìn)行改進(jìn),通過(guò)合理利用滑坡分布的特點(diǎn)進(jìn)行空間擴(kuò)展,并設(shè)置隸屬度閾值擇優(yōu)劃分,其Silhouette 值高達(dá)0.86,優(yōu)于其它算法。根據(jù)對(duì)比不同算法的聚類性能,不難發(fā)現(xiàn)USSD-K-均值算法在滑坡危險(xiǎn)性預(yù)測(cè)上的優(yōu)勢(shì)。

圖1 不同距離的衡量效果對(duì)比實(shí)驗(yàn)Fig.1 Comparison of measuring effect of the different distances

圖2 不同算法聚類效果的對(duì)比實(shí)驗(yàn)Fig.2 Comparison of clustering effects of different algorithms

圖3 seeds 集優(yōu)化的對(duì)比實(shí)驗(yàn)Fig.3 Comparison of seeds optimization

3.4.3 seeds 集優(yōu)化效果分析 為進(jìn)一步明確文中所提出的充分結(jié)合滑坡分布特點(diǎn)的seeds 集優(yōu)化方法的作用,對(duì)未進(jìn)行seeds 集優(yōu)化的USSD-K-均值算法及USSD-K-均值算法也進(jìn)行比較(圖3)。

分析圖3 易得,經(jīng)過(guò)seeds 集優(yōu)化后的聚類效果明顯優(yōu)于未經(jīng)seeds 集優(yōu)化的聚類效果,尤其在樣本數(shù)量增多的情況下,seeds 集的規(guī)模不變,但其所占樣本的比例變少,此時(shí)由seeds 集引導(dǎo)的聚類效果不佳,如圖3 所示,當(dāng)數(shù)據(jù)樣本比例達(dá)到3%時(shí),未進(jìn)行seeds 集優(yōu)化的USSD-K-均值算法的Silhouette 指標(biāo)值僅為0.71。而新提出的USSD-K-均值算法利用除噪和空間擴(kuò)展的方式優(yōu)化seeds 集,通過(guò)在空間閾值內(nèi)尋找相似標(biāo)簽數(shù)據(jù)的方法,在擴(kuò)大seeds 集的同時(shí)保證了質(zhì)量。因此,USSD-K-均值算法在滑坡危險(xiǎn)性預(yù)測(cè)上的聚類效果取得高達(dá)0.86 的平均Silhouette 值,seeds 集優(yōu)化的作用顯著。

4 結(jié)論與展望

本文首先提出一種新的不確定數(shù)據(jù)距離—uv距離,它實(shí)現(xiàn)了滑坡誘發(fā)因素中不確定降雨量的有效刻畫(huà)。其次基于uv距離提出一種基于不確定數(shù)據(jù)的半監(jiān)督動(dòng)態(tài)K-均值算法,首先利用消噪和空間擴(kuò)展優(yōu)化seeds 集,其次引入隸屬度并設(shè)置隸屬度閾值進(jìn)行逐優(yōu)劃分,達(dá)到了提高滑坡危險(xiǎn)性預(yù)測(cè)精度的目的。實(shí)驗(yàn)結(jié)果分別驗(yàn)證了uv距離衡量不確定數(shù)據(jù)的有效性及USSD-K-均值算法預(yù)測(cè)滑坡危險(xiǎn)性的良好性能。

研究中所提出的空間擴(kuò)展方法有效結(jié)合了數(shù)據(jù)集本身具有的空間一致性的性質(zhì)及滑坡成群分布的特點(diǎn),該方法中的空間閾值φ用于控制空間擴(kuò)展的規(guī)模,其取值對(duì)聚類結(jié)果影響顯著,且根據(jù)滑坡分布區(qū)域的不同,φ值也會(huì)變化。因此分析φ對(duì)計(jì)算結(jié)果的影響及研究不同區(qū)域內(nèi)φ的取值將是我們下一步工作的重點(diǎn)。

主站蜘蛛池模板: jizz在线观看| 一区二区三区成人| 精品视频一区二区三区在线播| 97国产在线视频| 亚洲大尺码专区影院| 国产黑丝一区| www.91在线播放| 久久96热在精品国产高清| 国产成熟女人性满足视频| 日韩无码白| 亚洲精品国偷自产在线91正片| 中国一级特黄大片在线观看| 在线免费a视频| 丰满人妻久久中文字幕| 日韩毛片在线播放| 国产激爽大片在线播放| 国产成人精品男人的天堂| yjizz国产在线视频网| 国产免费人成视频网| 成年A级毛片| 久久中文字幕2021精品| 精品三级网站| 亚洲成人免费看| 色哟哟国产精品| 久久精品视频一| 久久香蕉国产线看观看式| 九一九色国产| 亚洲免费福利视频| 8090成人午夜精品| 欲色天天综合网| 午夜激情福利视频| 精品第一国产综合精品Aⅴ| 日韩免费成人| 国产亚洲欧美日韩在线一区二区三区| 国产91全国探花系列在线播放| 在线欧美日韩| 久久亚洲黄色视频| 免费a在线观看播放| 秘书高跟黑色丝袜国产91在线| 国产在线小视频| 日本欧美精品| 欧洲高清无码在线| 久久黄色毛片| 亚洲欧美日韩另类在线一| 日本亚洲欧美在线| 婷婷开心中文字幕| 亚洲AV无码不卡无码| 亚洲无码在线午夜电影| 成人小视频在线观看免费| 国产呦精品一区二区三区网站| 狠狠色狠狠色综合久久第一次| 青青久在线视频免费观看| 国产女人综合久久精品视| 国产超薄肉色丝袜网站| 国产黄在线观看| 54pao国产成人免费视频| 久久久久青草大香线综合精品| 国产一线在线| 亚洲人免费视频| 久久精品人人做人人| 国产va在线| 亚洲精品无码在线播放网站| 国产成人综合久久| 亚洲欧美日韩中文字幕在线| a级毛片在线免费| 久久香蕉国产线看精品| 五月天在线网站| 麻豆精品视频在线原创| 亚洲一区无码在线| 精品人妻一区二区三区蜜桃AⅤ| 成人午夜免费观看| 国产精品色婷婷在线观看| 亚洲视频三级| 日本黄色不卡视频| 91福利一区二区三区| 波多野吉衣一区二区三区av| 色悠久久久久久久综合网伊人| 色婷婷色丁香| 亚洲精品卡2卡3卡4卡5卡区| 亚洲一道AV无码午夜福利| 人妻丰满熟妇av五码区| 97一区二区在线播放|