999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主動學習與半監督技術相結合的海冰圖像分類

2019-05-17 08:56:42韓彥嶺李鵬張云徐利軍王靜
遙感信息 2019年2期
關鍵詞:海冰分類監督

韓彥嶺,李鵬,張云,徐利軍,王靜

(上海海洋大學 信息學院,上海 201306)

0 引言

海冰是極地及中高緯度地區的海洋災害之一,海冰的漂流、凍結和融化將對海洋生產作業產生重要影響。當部分海域發生大面積海冰災害時,會對近岸港口、航海船只、海上資源開采平臺造成不可估量的財產損失。為了正確評估海冰冰情確保財產安全,需加強海冰檢測的研究并提高海冰類型識別能力[1]。

相較于其他傳統的海冰檢測方式,遙感海冰檢測技術因能提供全天候、大面積、實時、準確的海冰信息,現已被廣泛應用于海冰檢測中。一般地,海冰遙感檢測方式可大致分為監督分類、非監督分類和半監督分類。其中監督分類方法因為操作方便,可加入先驗知識,檢測精度高等特點,在海冰檢測中具有較大的優勢[2]。支持向量機(support vector machine,SVM)[3]是一種典型的監督分類方式,因為其對高維、小樣本數據具有很好的泛化能力,近幾年在遙感分類領域備受關注[4]。

監督分類的訓練模型依賴標簽訓練樣本的數量和質量,然而由于海冰覆蓋區域地理環境的特殊性,對海冰遙感圖像進行大量人工標注是一項非常耗時、困難的工作[5],尤其對地物類別交錯復雜的區域進行標注,標簽樣本的質量往往難以得到保證。正因為人工標注上的困難,使得分類中獲取大量高質量的訓練樣本往往很困難。針對上述的這種情況,本文提出將主動學習(active learning,AL)[6]與半監督學習(semi-supervised learning,SSL)[7]相結合,利用少量的標簽樣本及未標簽樣本一起建立模型解決海冰分類問題。

主動學習是一個人機交互的迭代過程[8]。在每次迭代過程中,分類器不再是被動地接受標簽樣本,而是通過采樣算法主動地選擇對于當前分類器模型最有價值的未標簽樣本,經人工標注后添加到標簽樣本集中,再利用更新后的標簽樣本集重新訓練當前分類器模型。這一過程不斷迭代,直到滿足迭代的停止條件。利用主動學習,可以有效避免標注那些信息量低的樣本,縮減標注時間及成本,從而在較小標注代價的情況下,獲得較高的分類精度。

主動學習借助采樣策略實現在較小的標注樣本的情況下,獲得較高的分類精度。但是主動學習訓練模型階段仍然依賴于專家標注樣本。而半監督學習可以充分利用未標簽樣本中隱含的信息,更好地刻畫地物類別分布,進一步減少人工標注的成本,并可獲得更精確的分類模型。半監督學習也先從少量標簽樣本開始訓練模型,不斷擴充未標簽樣本加入訓練樣本集來更新當前分類器。直推式支持向量機 (transductive support vector machine,TSVM)[9]是一種典型的半監督學習方法,在建立模型階段直接使用未標簽樣本。

盡管AL(監督學習)與TSVM(半監督分類)工作機制不同,但它們在減少人工標注成本、提高分類器精度方面具有內在相似性,將這2種方法進行結合是可行的。因此本文提出將主動學習技術和半監督技術相結合應用到海冰監測中,以期獲得更加精確的海冰分類模型,為海冰監測的進一步深入研究提供理論依據。

1 基于主動學習與半監督學習的海冰分類

1.1 主動學習

1)主動學習。主動學習這一概念首先是由Angluin[10]提出,通過迭代擴充標簽樣本集選擇有價值的樣本交由專家標注,利用擴充后的訓練樣本集更新分類模型。一般地,主動學習過程可以用形如 (C,Q,E,T,U)[11]五元模型描述。其中,C是從標簽樣本T訓練得到的監督分類器模型;Q是用于從未標注樣本池U中選擇最具信息量樣本的采樣函數;E是對選擇的最具信息量樣本進行標注的人類專家。

采樣函數Q是主動學習最核心的部分。分類模型通過采樣函數主動地選取信息含量大的未標簽樣本交由專家標注。不同的采樣函數也是區分不同主動學習算法優劣的關鍵環節。邊緣采樣(margin sampling,MS)是不確定性采樣的典型方法,然而MS方法僅適用于二類(two-class)SVM分類問題[12]。Joshi等提出了一種基于最優標號和次優標號(best vs second-best,BvSB) 的主動學習方法[6],可以較好地解決實際分類問題中的多類(multi-class)分類情況。

基于不確定性的采樣策略面臨的一個重要問題:當SVM分類面通過一個未標記樣本密集區域時,那么存在大量樣本分布在分類邊界附近,同一聚類的樣本通常具有相同的標記,若將大量樣本交由專家標記,勢必會增加人工標注成本。為解決這個問題,我們提出同時考慮通過差異性標準選擇差異性較大的樣本,盡量減少所選樣本的冗余。因此本文采用不確定性準則與差異性準則結合的方式選擇對當前分類器最具信息量的樣本。其中不確定性采樣策略選擇BvSB采樣方法;差異性準則采用改進的聚類算法實現差異性標準(enhanced clustering-based diversity,ECBD)。通過BvSB-ECBD方式,實現樣本信息量和信息冗余之間的平衡,盡量在主動學習的每次迭代中選出最具代表性的樣本。

2)基于BvSB-ECBD的主動學習查詢策略。首先簡單介紹下BvSB方法。假設一組未標簽樣本集U={x1,x2,…,xn},Y={y1,y2,…,yk}為所有可能出現的標簽。利用已建立的訓練模型,對未標簽樣本xi進行標簽預測,并計算樣本xi屬于每個類別的概率P(yi|xi)。BvSB方法只考慮最優標號和次優標號的概率,即P(yBest|xi)和P(ySecond-Best|xi),避免了其他類別的干擾,BvSB主動學習準則可以描述為:

(1)

式中:argmin()為括號中樣本xi差值最小的值所對應的下標i作為Cuncertainty(xi)的輸出值。Cuncertainty(xi)的值越小,代表樣本的信息含量越高,越有利于提高分類模型預測的精度。通過BvSB主動學習算法從樣本集合U中,選擇k個Cuncertainty(xi)值較小的樣本,經標注后添加到訓練樣本集中。根據BvSB不確定性采樣所選擇的k個樣本(x1,x2,…,xk),再利用ECBD主動學習算法進行差異性選擇。首先,利用徑向基核函數(radial basis function,RBF)將選出的k個樣本映射到高維的特征空間中(通過解決高維空間中線性可分的情況,來解決原始空間中線性不可分的問題),在特征空間中將BvSB主動學習選擇的k個樣本劃分成h(h

(2)

1.2 半監督學習

1)TSVM半監督學習。TSVM這一概念是由Vapnik[3]首先提出。其主要思想是利用較少的標簽樣本和大量易獲取的未標簽樣本共同建立分類模型[7],提高分類器的泛化能力。下面將對TSVM的原理進行簡單介紹。

(3)

2)融合主動學習思想的TSVM查詢策略。因為未標簽樣本數量龐大,因此基于主動學習選擇信息含量大的樣本的思想對TSVM未標簽樣本選擇模塊進行改進,利用未標簽樣本查詢函數,在保證未標簽樣本所含信息量大的同時,避免大量冗余信息樣本的加入。

(4)

式中:SV是支持向量集;αi和b是用來確定最優分類超平面的參數。對于海冰分類的問題,利用RBF核函數作為分類器的核函數,即k(·,·)。通過融入主動學習的算法思想從半標簽樣本集中選擇信息含量大的樣本[15-16]添加到訓練集中,其數學模型可表示為:

C(x)=f1(x)-f2(x)

(5)

H={x|x∈U,0≤C(x)≤2}

(6)

通過置信度C(x)確立一批信息含量豐富的未標簽樣本集。其中x代表未標簽樣本,f1(x)和f2(x)則是在多個二類分類模型中構成的一對多分類框架下的最高和次高的決策函數的值。通過劃定C(x)的范圍確立信息含量更高的半標簽樣本集H,其中C(x)的值越接近于2越有利于優化分類超平面 (即分布在分類超平面附近的樣本)[16]。通過采樣算法從H中選擇γ個樣本。對于選中的這部分半標簽樣本,它們同樣存在冗余信息的情況。因此需要對選出的γ個樣本進一步篩選。本文利用RBF核函數將選出的這部分樣本映射到高維特征空間中,并在特征空間中用核余弦相似性準則從已選擇的γ個樣本選擇ρ(ρ<γ)個半標簽樣本。核余弦角相似性準則公式表示為[17]:

(7)

2 主動學習與半監督技術相結合的海冰分類算法

主動學習和半監督學習都基于減少人工標注代價并提高分類精度的共同出發點,在實現方法上也具有內在的相關性。本文將基于BvSB+ ECBD的主動學習和TSVM半監督學習結合引入到遙感海冰圖像分類中,在提高分類精度的基礎上進一步減少初始標簽訓練樣本的數量。

首先,通過主動學習迭代一定的次數選擇信息量大、有代表性的標簽樣本,獲得較可靠的分類器后再對未標簽樣本進行預測;再利用融合主動學習的半監督學習算法,從大量未標簽樣本中選擇信息含量高的樣本作為半標簽樣本,利用標簽樣本集與半標簽樣本集共同訓練TSVM分類模型。將主動學習與半監督技術的結合的優點在于:一方面利用主動學習算法主動選擇最有價值的樣本加入到標簽樣本集中解決海冰檢測中標簽樣本不足的問題;另一方面可以充分利用大量未標簽樣本的信息進一步減少標注成本并提高分類精度。

2.1 算法實現框架

本文提出的海冰圖像分類算法包括2個模塊,即AL模塊和TSVM模塊,分類框架圖如圖1所示。

1)主動學習模塊。首先確立未標簽樣本集U,并將訓練樣本集T1設置為空。在初始分類時,從未標簽樣本U中隨機選取k個未標簽樣本,經人工標注后,建立初始的標簽訓練樣本集T1,更新未標簽樣本集U和訓練樣本集T1。用訓練樣本集T1建立初始的SVM分類器,對未標簽樣本集U中的樣本進行預測,并獲取未標簽樣本屬于每個類別的標號概率信息,即p(yi|x),yi∈Y,x∈U。

圖1 基于AL-TSVM的海冰分類總體框架圖

對于主動學習采樣模塊,采用不確定性與多樣性結合的方式來選擇未標簽樣本,即BvSB-ECBD。根據BvSB準則,首先從U中選取k個不確定性高的樣本,記為kBvSB。再基于ECBD多樣性準則從kBvSB個樣本中選擇hBvSB-ECBD個未標簽樣本,將hBvSB-ECBD個樣本經人工標注后,添加到訓練樣本集T1中,利用更新后的T1重新訓練SVM分類器。這一過程重復進行,直到迭代的次數達到預先設定迭代次數后停止。

2)半監督學習模塊。當滿足主動學習的停止條件后,將主動學習最后一次迭代確立的標簽訓練集T1作為TSVM初始的標簽訓練樣本集T2。對于TSVM模塊,從剩余的未標簽樣本集U中定義樣本池psemi。首次利用初始的標簽訓練集T2來建立分類器模型,將主動學習思想融入半監督樣本選擇中,從psemi中確立半標簽樣本集。通過決策值來選取在區間[0,2]內的γ個半標簽樣本,再利用核余弦角相似性度量法則,從γ個半標簽樣本中選擇ρ個最具代表性的半標簽樣本。最終,將ρ個半標簽樣本添加到T2中,更新訓練樣本集T2和半標簽樣本池psemi。更新后的T2就包含標簽樣本集與半標簽樣本集,利用更新后的T2建立TSVM分類模型,通過迭代的方式不斷擴大訓練樣本集T2,利用每次更新后的T2重新訓練分類模型,這一過程重復進行直到滿足條件迭代次數才停止。

2.2 算法描述

具體的AL-TSVM算法描述如算法1所示。

3 實驗與分析

3.1 數據描述

為了檢驗提出方法的可行性,利用2016年1月27日渤海鲅魚圈區附近海域Landsat-8數據進行實驗。因為海冰實測數據難以獲取,用相同場景4.77 m分辨率的天地圖遙感圖像作為基準數據,然而實驗數據與基準數據有3 d的時間差,但對于沿岸海域,海冰的分布基本一致,海冰受潮汐、洋流等外界影響因素可降低至最低。因此,選擇2幅圖像中沿岸重疊的區域進行海冰圖像分類實驗。圖2(a)是選取實驗區域圖像,圖2(b)是從圖像中選取訓練數據區域分布圖。紅色代表白冰,綠色代表灰冰,藍色代表灰白冰。其中實驗中的訓練樣本與測試樣本如表1所示。

圖2 實驗數據

類別訓練樣本的數目測試樣本的數目白冰 430300灰冰 423300灰白冰450300共計 1 303900

3.2 實驗設置

本次實驗使用支持向量機作為基礎分類器,以RBF核函數作為支持向量機分類器的核函數。對于支持向量機中所用到的兩個參數:RBF核函數g和正則化參數c,對訓練樣本集用5倍交叉驗證,估計不同c、g參數的性能。對于主動學習模塊,隨機從未標簽樣本池中選出9個樣本建立初始標簽樣本集,通過主動學習查詢函數每次選擇6個樣本添加到主動學習的訓練樣本集中,更新當前分類模型。對于TSVM模塊,利用半標簽樣本采樣算法每次添加6個半標簽樣本加入直推式支持向量機的訓練樣本集中。利用更新后的樣本集訓練分類器。并對相同場景內的基準圖像區域使用混淆矩陣進行性能性評估,并用總體的平均分類精度顯示算法的性能。

3.3 BvSB-ECBD-TSVM與主動學習方法的精度比較

圖3是BvSB-ECBD-TSVM方法與主動學習及隨機采樣方法總體分類精度的比較。從圖3可以看出,隨機采樣得到的最終分類精度只達到89.76%,而采用主動學習最終分類精度達到92%。這是因為隨機采樣算法對樣本的選擇具有較大的隨機性,并不能確保所選樣本的信息量,而主動學習是主動地選擇一部分信息含量高的未標簽樣本進行標注,避免了樣本選擇的隨機性,可有效提高分類器模型的泛化能力。

圖3 BvSB-ECBD-TSVM與隨機及主動學習分類精度的比較

相對于隨機采樣算法,主動學習建立的分類模型可進一步提高分類精度。然而不同的主動學習方法,因為采樣方式不同,它們的性能也存在著差異。從圖3可以看出:在獲得相同分類精度的情況下,BvSB-ECBD方法的迭代次數明顯小于BvSB與Entropy的迭代次數。例如,當BvSB-ECBD的分類精度達到89.36%時,只需要4次迭代,而BvSB方法則需要迭代6次,Entropy方法則需要迭代7次才能達到近似的精度。這也說明了BvSB-ECBD方法基于多樣性與不確定性2個準則選擇的樣本更具信息量和代表性,更加有利于提高海冰的分類精度。

當BvSB-ECBD主動學習過程迭代8次,已經確定了一定數量的標簽樣本。TSVM半監督學習在已建立的標簽樣本集的基礎上,再利用半標簽樣本,優化分類超平面,進一步地提高分類精度。從圖3可以看出,BvSB-ECBD-TSVM的最終分類精度可達到96.54%,相對于BvSB-ECBD最終的分類精度,精度提高了6.78%。這表明在BvSB-ECBD主動學習后,TSVM算法可利用那些分布在標簽樣本周邊的半標簽樣本調整分類超平面。在標簽樣本的基礎上,通過半標簽樣本采樣算法選出半標簽樣本建立預測準確率更高的TSVM分類模型。

3.4 主動學習迭代次數對分類精度的影響

因為半監督學習對初始標簽樣本集具有一定的敏感性[16],本文進行了主動學習迭代不同次數的標簽樣本集對TSVM分類精度的影響實驗。在實驗中TSVM初始標簽樣本集是由BvSB-ECBD方法確定的,利用10組獨立的數據實驗,并取它們總體精度的平均值來顯示分類結果。

表2表示的是BvSB-ECBD主動學習迭代不同次數確立的標簽訓練樣本集對后續TSVM分類精度的影響。從表2中可知:當BvSB-ECBD只迭代2次的情況下,后續TSVM所得到的分類精度要低于BvSB-ECBD迭代次數更多時所得到的TSVM分類精度。當BvSB-ECBD只迭代2次時,TSVM總體的分類精度會存在一定的波動;而當BvSB-ECBD迭代4次時,總體分類精度隨著TSVM迭代次數的增加相對穩定;當BvSB-ECBD迭代8次時,總體分類精度的波動明顯減少,這是因為TSVM對初始標簽樣本集比較敏感,雖然BvSB-ECBD可以選擇可靠的標簽樣本,但是當標簽訓練樣本數量較少時,TSVM選擇的半標簽樣本對分類超平面的優化存在歧義,存在著部分樣本標簽類別誤判的情況,會導致TSVM分類精度下降,因此需要主動學習迭代一定的次數,以獲得足夠數量的標簽樣本。但是隨著主動學習迭代次數的增加,標簽樣本集的數量不斷擴大,人工標注的工作量也在增加,為了在標注成本與分類精度之間取得平衡,本文采用BvSB-ECBD迭代8次時確定的標簽樣本集作為后續TSVM分類器的初始標簽樣本。

表2 不同大小的BvSB-ECBD標簽訓練樣本集對TSVM總體分類精度的影響 %

3.5 不同主動學習方法與TSVM結合的分類精度比較

圖4是不同的主動學習方法迭代8次后分別與TSVM結合的分類精度圖(其中,前8次迭代由不同主動學習方法分別得到的分類精度,9到15次則代表結合TSVM后總體的分類精度)。從圖4可以發現:在主動學習的前8次迭代中,本文BvSB-ECBD方法所獲得的海冰總體的分類精度要明顯高于其他方法的精度,說明在少量的初始標簽樣本的情況下,利用BvSB-ECBD方法可獲得更高質量的標簽樣本。BvSB-ECBD-TSVM與其他結合方法相比,BvSB-ECBD-TSVM仍然獲得最高的分類精度,并且明顯高于只采用主動學習(BvSB-ECBD)的分類結果,這一方面說明TSVM對主動學習選擇的標簽樣本集比較敏感,高質量的標簽樣本可以改進TSVM的分類精度,另一方面也說明與TSVM結合后,利用大量的未標簽樣本所包含的信息,確實可以提高分類精度。

從圖4也可以觀察到:Random-TSVM這種結合方式的分類精度不夠穩定,并且分類精度和其他方法比起來精度明顯偏低,這是因為隨機采樣方式,對樣本的選擇具有較大的隨機性,導致總體上分類精度較低而且不穩定。綜上,本文建議的BvSB-ECBD-TSVM方法在進行海冰檢測過程中具有較好的優勢。

圖4 不同方法與TSVM結合的分類精度的比較

3.6 海冰實驗分類效果圖

為了更清晰地展示提出建議的方法對海冰分類的效果,本文選取部分海域進行海冰分類實驗。圖5(a)是選擇的實驗海域的原始海冰圖像;圖5(b)是選擇的部分標簽樣本集;圖5(c)是基準圖像的分類圖,其中紅色代表白冰,綠色代表灰冰,藍色代表灰白冰;圖5(d)表示的是BvSB-ECBD-TSVM方法的分類結果圖。本實驗中的海冰總體平均分類精度可達到96.31%。我們選擇最后一次得到的預測標簽與基準標簽計算Kappa系數,Kappa系數為92.15%。從實驗結果可以看出,本文建議的方法結合了主動學習和半監督方法的優勢,利用少量的標簽樣本,借助于主動學習方法選擇出高信息量和代表性的樣本進行標注,并充分利用大量未標簽樣本包含的信息,達到了較好的海冰分類效果,可以有效用于海冰檢測。

圖5 海冰檢測分類結果

4 結束語

針對遙感海冰檢測中標簽樣本獲取困難、遙感圖像標注成本較高及海冰檢測精度偏低等問題,本文提出一種將主動學習和半監督技術相結合的方法進行海冰檢測,并將該方法與其他傳統方法進行了對比分析。實驗結果表明,BvSB-ECBD-TSVM方法可在較少的人工標注成本的情況下,在總體上獲得較優的檢測性能,具體總結如下:

①主動學習可選擇一批信息含量豐富且有代表性的樣本建立分類模型。因主動學習采樣策略不同,導致最終的分類精度表現出一定的差異性,基于BvSB-ECBD的采樣方式要優于其他采樣方法。

②從實驗中可知,半監督學習可以充分利用未標簽樣本的分布信息可進一步提高分類精度。通過主動學習與半監督學習結合的方式可解決海冰分類中因標簽樣本不足導致分類器泛化能力受限的問題。這種結合方式,提高分類精度的同時進一步減少人工標注樣本的工作量。

③因為半監督學習對初始標簽樣本具有一定的敏感性,本文利用主動學習選擇一批信息含量豐富的標簽樣本,并作為TSVM初始的標簽樣本。實驗結果表明,合理的主動學習迭代次數可以達到標注成本和分類精度之間的平衡,實現用盡量少的標注成本獲得更高的分類精度,達到較好的海冰分類效果,為海冰檢測提供了一種新的方式。

猜你喜歡
海冰分類監督
末次盛冰期以來巴倫支海-喀拉海古海洋環境及海冰研究進展
海洋通報(2021年3期)2021-08-14 02:20:38
分類算一算
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
基于SIFT-SVM的北冰洋海冰識別研究
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
應用MODIS數據監測河北省近海海域海冰
河北遙感(2014年4期)2014-07-10 13:54:59
主站蜘蛛池模板: 国产成人亚洲精品无码电影| 91一级片| 国产正在播放| 色噜噜狠狠色综合网图区| 欧美亚洲国产精品第一页| 999在线免费视频| 午夜成人在线视频| 国产丝袜啪啪| 午夜激情福利视频| 色视频国产| 精品无码国产一区二区三区AV| 精久久久久无码区中文字幕| 成人在线视频一区| 美女高潮全身流白浆福利区| 国产乱人伦AV在线A| 国产精品刺激对白在线| 久久久久国产精品熟女影院| 色综合成人| 国产国拍精品视频免费看| 激情视频综合网| 中日韩一区二区三区中文免费视频| 国产精品分类视频分类一区| 亚洲欧美在线综合一区二区三区| 青青青国产在线播放| 亚洲AⅤ无码国产精品| 无码精油按摩潮喷在线播放| 在线视频亚洲色图| 亚洲天堂啪啪| 九色在线观看视频| 日本成人不卡视频| 亚洲天堂区| 制服丝袜国产精品| 精品一区二区三区无码视频无码| 国产va在线| 国产午夜无码片在线观看网站 | 国产成人亚洲综合A∨在线播放| 亚洲三级视频在线观看| 久久久久人妻一区精品色奶水| 亚洲第一香蕉视频| 大香网伊人久久综合网2020| 国产精品自拍合集| 无码啪啪精品天堂浪潮av| 国产亚洲精品97AA片在线播放| 亚洲国产综合第一精品小说| 88av在线播放| 草草影院国产第一页| 尤物成AV人片在线观看| 美女扒开下面流白浆在线试听 | 亚洲av中文无码乱人伦在线r| 露脸一二三区国语对白| 在线精品欧美日韩| 91精品国产自产在线老师啪l| 波多野结衣视频一区二区| 欧美一级黄色影院| 成人国产精品2021| 色窝窝免费一区二区三区| 色婷婷亚洲综合五月| 久操线在视频在线观看| 日韩激情成人| 国产va欧美va在线观看| 国产网站免费看| 九色免费视频| 国产一区二区丝袜高跟鞋| 中文字幕色在线| 国产成人无码AV在线播放动漫| 永久免费精品视频| 免费无码又爽又黄又刺激网站| 四虎影视国产精品| 久久精品午夜视频| 国产一区免费在线观看| 日本午夜影院| 粉嫩国产白浆在线观看| 亚洲区欧美区| 免费观看精品视频999| 波多野结衣国产精品| 亚洲精品福利网站| 欧美人与牲动交a欧美精品| 国产h视频免费观看| 亚洲,国产,日韩,综合一区 | 精品夜恋影院亚洲欧洲| 无码丝袜人妻| 亚洲欧洲日产国码无码av喷潮|