陳立偉,房赫,朱海峰
(哈爾濱工程大學 信息與通信工程學院,黑龍江 哈爾濱 150001)
隨著遙感技術的迅速發展,高光譜圖像(hyperspectral image,HSI)在土地覆蓋物分類中得到了廣泛的應用[1-3]。訓練一個HSI 分類器,通常需要大量的標記樣本,而標記樣本的采集過程既昂貴又費時[4-5]。主動學習(active learning,AL)方法可以有效解決HSI 標記樣本少的問題[6-7]。在AL方法中,多視圖主動學習(multiview active learning,MVAL)方法可以從多個視圖中提取互補信息,大大減少訓練樣本的數量[8-10]。
學者們對MVAL 的樣本選擇方法展開了廣泛研究:文獻[11]提出了自適應最大不一致(adaptive maximum disagreement,AMD)的樣本選擇方法,該方法利用各分類器對樣本預測結果的不一致性選擇樣本;文獻[12] 提出了加權投票熵(weighted voting entropy,WVE)的樣本選擇方法,由于不同視圖對于不同類別的區分能力不同,該方法通過各視圖的權重體現了不同視圖對樣本的辨別能力的差異;文獻[13]提出了一種IEUE 樣本選擇方法,該方法綜合考慮了視圖內和視圖間的不確定性。這些方法均取得了良好的分類結果,但是這些方法只考慮了樣本的不確定性,沒有考慮樣本的多樣性,導致所選樣本中存在冗余。并且,隨著迭代次數的增加,不同視圖訓練的分類器會趨同,具有相同的分歧程度的樣本越來越多,樣本冗余問題會進一步加劇[11-14]。
目前,學者們對MVAL 中所選樣本的多樣性研究較少。文獻[15]提出了一種用于MVAL 的基于聚類的多樣性樣本選擇方法,該方法采用局部聚類密度度量方法對HSI 樣本進行聚類,采用光譜角距離作為聚類的距離準則。然而,該方法在聚類過程中只使用了光譜信息,沒有考慮樣本的空間信息,由此選出的相似樣本會產生同譜異物的問題[16-17]。
本文提出了一種基于超像素分割[18]的MVAL多樣性樣本選擇方法。HSI 的超像素分割方法同時基于樣本的光譜特性和空間特性,可以有效地避免樣本選擇過程中的同譜異物問題。
在MVAL 中,多個視圖訓練的多個分類器,彼此獨立并互相補充,共同對樣本選擇過程和得到最終分類結果起作用[19]。分類器對不同樣本的預測結果的一致性直接與樣本間的相似性有關,因此本文又提出了一種基于多視圖預測標簽一致性的樣本選擇方法。
基于MVAL 的HSI 分類的基本流程是:首先將HSI 的全部已標記樣本分為訓練集和候選集,然后對HSI 采用某種視圖生成方法得到多個視圖。每個視圖分別訓練一個分類器,并使用每個分類器對全部樣本進行預測,得到其預測的結果和精度。根據預測結果,使用MVAL 樣本選擇策略從候選集中選出信息量大的樣本。依次迭代,直到滿足停止條件。根據各個分類器的預測結果得到最終的分類結果和分類精度[20-21]。停止條件一般為達到了最大迭代次數或分類精度達到某個值。基于MVAL 的HSI 分類的基本流程圖如圖1 所示。

圖1 基于MVAL 的HSI 分類的基本流程Fig.1 Basic flow chart of HSI classification based on MVAL
本文使用了3D-Gabor 濾波視圖生成方法,通過使用不同頻率和方向的3D-Gabor 濾波器將原始HSI轉換成多個具有不同頻譜空間特征的數據集[22]。利用這些數據集提供的頻譜空間信息,將HSI 的光譜和空間信息結合起來。3D-Gabor 內核為

式中:ω為波向量的中心頻率;φ為波向量和光譜維度的夾角;ωx、ωy、ωλ分別是樣本的特征向量在高光譜圖像的橫縱坐標軸x、y和光譜方向 λ上的投影;θ是樣本的特征向量在地面x、y上的投影與x軸的夾角;g(x,y,λ)是在(x,y,λ)域的三維高斯包絡線。頻率和方向的參數設置為:。當φ=0時,波向量與不同的 θ矢量方向相同,共13 個方向。HSI 經3DGabor 濾波后,得到65個不同頻率和方向的Gabor 立方體,得到的Gabor立方體與原始HSI 大小相同。
然后,采用文獻[13]中提出的FR 準則衡量視圖的充分性。從得到的全部視圖中選出充分性最大的5 個視圖作為MVAL 的多視圖。FR 準則為

式中:Ds為初始標記訓練樣本;r為地物類別數量;(μi?μj)(μi?μj)T為第i、j類的均值類間散射矩陣;(μi?x)(μi?x)T+(μj?x)(μj?x)T為第i、j類的方差類內分散矩陣。
傳統樣本選擇方法通過比較各分類器對樣本的不同預測結果個數,衡量樣本的不確定性,并從候選集中選出不同預測結果個數最多的樣本進行查詢。該方法稱為自適應最大不一致策略(adaptive maximum disagreement,AMD)。具體表達式為

式中:Lk(xi)為第k個分類器對樣本xi的分類結果,共有K個分類器;DC為候選集;|·|count為其中不同元素的個數。
針對MVAL 樣本選擇過程中存在冗余樣本的問題,本文提出了基于超像素分割和基于預測標簽一致性的兩種MVAL 多樣性樣本選擇策略。在MVAL 的傳統AMD 樣本選擇方法后,使用提出的多樣性方法對所選樣本進行進一步篩選,減少訓練樣本個數,從而降低人工標記成本。
傳統的超像素分割方法有Meanshift、簡單線性迭代聚類(simple linear iterative clustering,SLIC)、歸一化分割(normalized cut)、基于熵率(entropy rate)等。其中,SLIC 算法能夠根據HSI 的同質性和非均勻性特點進行超像素分割,使不同超像素的空間相干性大大降低。同時只需設置一個預分割超像素數量參數即可在運行速度、緊湊整齊度等方面有一定優勢[23]。因此,本文采用SLIC 超像素算法[24]用于HSI 的MVAL 多樣性樣本選擇過程。
利用SLIC 超像素方法對MVAL 樣本選擇過程進行多樣性改進的步驟為:首先對整個HSI 進行SLIC 超像素分割,分割后的HSI 數據如圖2。設共得到k個超像素,每個樣本xi均對應一個超像素標簽Li,同一超像素的樣本的超像素標簽相同。然后使用一種樣本選擇方法(如AMD 策略)選出不確定性最大的m個樣本,記為XAMD=[x1x2···xm]。再從這m個樣本找出屬于相同超像素的樣本。接下來對其中屬于同一個超像素的樣本,隨機選出其中一個作為代表,剩下的樣本放回候選集中。令選出的樣本必須來自不同的超像素,從而實現樣本選擇過程的多樣性改進。

圖2 高光譜圖像的SLIC 超像素分割圖Fig.2 SLIC superpixel segmentation schematic of hyperspectral images
得到超像素標簽的表達式為

提出的基于超像素的多樣性樣本選擇方法的定義公式為

式中XSLIC為XAMD經過提出的基于超像素的多樣性樣本選擇方法后得到的最終所選樣本。unique函數的具體過程如圖3。

圖3 unique 函數的流程Fig.3 Flow of unique function
此方法先對原始HSI 進行超像素分割,該過程同時考慮了樣本的空間相鄰性和光譜相似性。將HIS 中光譜相似且空間相鄰的樣本判別為相似樣本,放入一個超像素區域中。通過超像素分割方法得到相似樣本可以有效地避免同譜異物問題,從而更好地進行多樣性樣本選擇。
在HSI 分類的MVAL 方法中,每個分類器均對樣本進行預測。對于兩個特別相似的樣本,各分類器對它們的分類結果大概率相同。基于MVAL方法特有的多視圖特點,以及每個視圖分別訓練分類器的特點,提出一種基于預測標簽一致性的去冗余算法。該算法通過比較分類器對不同樣本預測結果的一致性,找出所選樣本中的相似樣本,并去掉其中冗余樣本。此方法的定義為

式中:xi,xj∈UC,且xi≠xj;D為樣本xi和xj的相似程度,D越大,xi和xj越相似。
基于預測標簽一致性的多樣性樣本選擇方法如圖4 所示。首先使用一種樣本選擇方法(如AMD策略)選出一批信息量大的樣本{X1,X2,···,X8},然后對從中找出預測標簽完全相同的樣本。從圖4中可以看出,樣本X1與樣本X3的預測標簽完全相同,均為[3,4,4,6,7];樣本X5與樣本X6的預測標簽完全相同,均為[6,6,7,12,7]。從樣本X1和樣本X3中隨機選擇一個作為代表加入訓練集,如樣本X1,其余樣本放回候選集;再從樣本X5和樣本X6中隨機選擇一個作為代表加入訓練集,如樣本X5,其余樣本放回候選集,最終選擇的訓練樣本為{X1,X2,X4,X5,X7,X8}。從圖4 中可以看出,訓練樣本數由8 個減少為6 個,通過基于預測標簽一致性的去冗余方法可以實現去除多余的訓練樣本的目的,減少人工標記成本。

圖4 基于預測標簽一致性的多樣性樣本選擇方法示意Fig.4 Graphical representation of a diversity sampling method based on predictive label consistency
為了驗證本文算法的有效性,采用了2 個常用的高光譜圖像進行仿真實驗,分別是Indian Pines 數據集和Salinas 數據集。Indian Pines 數據集包括16 個類別,共有21025 個樣本,其中有真實標簽的樣本為10249 個;Salinas 數據集也包括16 個類別,共有111104 個樣本,其中有真實標簽的樣本為54129 個。
本文使用綜合精度(OA)、平均精度(AA)、Kappa 系數(Kappa)對兩組對比實驗結果進行定量比較。
OA 方法通過混淆矩陣判別總體分類精度,具體表達式為

式中:N為全部樣本數;n為類別總數;mi為 將樣本正確分類到第i類的數量。
AA 表示在每個類別中分類正確的樣本所占的比重。如果各類別樣本數量相同,則平均分類精度AA 與總體分類精度OA 相同。AA 的表達式為

Kappa 系數用來表示分類圖與真實圖像的一致性。Kappa 系數的具體表達式為

本節主要驗證本文提出的兩種多樣性樣本選擇方法的效果,并將提出的基于超像素分割的多樣性選擇方法和基于預測標簽一致的去冗余算法分別簡稱為方法A 和方法B。采用選取的2 組HSI 數據進行3 組實驗。第1 組:使用傳統AMD策略進行樣本選擇,記為AMD。第2 組:先使用AMD 策略進行樣本選擇,再將所選樣本使用方法A 去除冗余,最后將去冗余后的所選樣本加入訓練集,進行MVAL,記為AMD+A。第3 組:將方法A 換成方法B,其他操作與第2 組實驗相同,記為AMD+B。將第2、3 組實驗結果與第1 組實驗結果進行對比,驗證這2 種方法的有效性。
以上所有實驗均使用MLR 分類器[25],采用3D-Gabor 濾波視圖生成方法,視圖數量為5。3 組數據使用相同頻率和方向的3D-Gabor 濾波器,濾波后均得到65 個Gabor 立方體,再通過FR 準則選出充分性前5 的立方體作為MVAL 的5 個視圖。實驗前,分別在Indian Pines 數據集和Salinas 數據集中有真實標簽的樣本中選出一部分樣本作為初始訓練樣本。具體方法為:從每個類別中隨機選出5 個樣本作為初始訓練樣本,共80 個樣本。其余的有真實標簽的樣本為候選樣本,測試樣本為有真實標簽的全部樣本。在AMD樣本選擇方法中,每次迭代最多選擇15 個樣本,共迭代20 次。在方法A 中,超像素的邊長為4×4,超像素個數大約為總樣本數除以16,超像素中光譜和空間的權重因子為0.5。
為了進一步測試方法的效果,本文對比了實驗中每5 次迭代對應的分類精度以及各組實驗的耗時情況。Indian Pines 數據集的AMD 和AMD+A 實驗迭代過程中的分類結果如表1 所示。Salinas 數據集的AMD 和AMD+A 實驗迭代過程中的分類結果如表2 所示。

表2 Salinas 數據集的AMD+A 與AMD 的實驗結果Table 2 Experimental results of AMD+A and AMD in the Salinas dataset
從表1、2 可以看出:無論迭代次數是多少,通過基于超像素分割的多樣性選擇方法改進后得到的實驗精度基本不變,而訓練樣本數量均有不同程度的減少。

表1 Indian Pines 數據集的AMD+A 與AMD 的實驗結果Table 1 Experimental results of AMD+A and AMD in the Indian Pines dataset
兩個數據集在AMD 和AMD+A 實驗中得到的最終分類結果如表3 所示,分類結果對比圖如圖5、6 所示。

圖5 用方法A 改進前后的實驗結果分析(Indian Pines)Fig.5 Comparison of experimental results before and after improvement with method A (Indian Pines)

表3 AMD+A 與AMD 實驗的最終結果Table 3 Final results of the AMD+A and AMD experiments

圖6 用方法A 改進前后的實驗結果分析(Salinas)Fig.6 Comparison of experimental results before and after improvement with method A (Salinas)
由AMD 和AMD+A 的對比實驗結果可以看出:3 個HSI 數據集在兩組實驗中的OA、AA、Kappa 值區別不大,分類結果圖也無明顯差別,然而兩個數據集在AMD+A 實驗中用到的訓練樣本總數比AMD 實驗中分別減少了10.2%、17.1%,耗時僅增加了3.49 s、24.92 s。Indian Pines 數據集的AMD 和AMD+B 實驗迭代過程中的分類結果如表4 所示。Salinas 數據集的AMD 和AMD+B 實驗迭代過程中的分類結果如表5 所示。

表4 Indian Pines 數據集的AMD+B 與AMD 的實驗結果Table 4 Experimental results of AMD+B and AMD in the Indian Pines dataset

表5 Salinas 數據集的AMD+B 與AMD 的實驗結果Table 5 Experimental results of AMD+B and AMD in the Salinas dataset
從表4、5 中可以看出:無論迭代次數是多少,通過基于預測標簽一致的去冗余算法改進后得到的實驗精度基本不變,而訓練樣本數量均有不同程度的減少。兩個數據集在AMD 和AMD+B實驗中得到的最終分類結果如表6 所示,分類結果對比圖如圖7、8 所示。

圖7 用方法B 改進前后的實驗結果分析(Indian Pines)Fig.7 Comparison of experimental results before and after improvement with method B (Indian Pines)

表6 AMD+B 與AMD 實驗的最終結果Table 6 Final results of AMD+B and AMD experiments

圖8 用方法B 改進前后的實驗結果分析(Salinas)Fig.8 Comparison of experimental results before and after improvement with method B (Salinas)
由AMD 和AMD+B 的對比實驗結果可以看出:3 個HSI 數據集在兩組實驗中的OA、AA、Kappa 值區別不大,分類結果圖也無明顯差別,然而兩個數據集在AMD+B 實驗中用到的訓練樣本總數比AMD 實驗中分別減少了8.2%、25.4%。AMD+B 比AMD 實驗的耗時增加0.88 s、14.34 s。
通過觀察以上實驗結果可以看出,AMD+A方法和AMD+B 方法相對于傳統AMD 方法具有明顯優勢。從實驗結果來看,將本文提出的兩種樣本多樣性選擇方法用在傳統AMD 樣本選擇方法后,OA、AA、Kappa 及分類結果圖均無明顯變化,訓練樣本數量均有不同程度的減少。使用這兩種改進方法雖然會少量地增加耗時,但增加的時間成本與節省的人工標記成本相比可以忽略不計。
本文基于SLIC 超像素分割方法和各視圖預測結果的一致性,提了出2 種MVAL 多樣性樣本選擇方法,有效地解決了傳統MVAL 樣本選擇過程存在冗余樣本的問題。在2 組HSI 中進行實驗,驗證了這兩種方法能夠有效地去除傳統樣本選擇過程中的冗余樣本,在分類精度不變的前提下,減少訓練樣本總數,進而減少人工標記成本。