劉 煊,渠慎明,2*
(1.河南大學(xué) 軟件學(xué)院,開封 475001;2.河南大學(xué) 智能網(wǎng)絡(luò)系統(tǒng)研究所,開封 475001)
高光譜圖像是由成像光譜儀接收的數(shù)十上百個波段所反射回來的地物的光譜特性組成。高光譜圖像由兩個空間維和一個光譜維構(gòu)成,光譜維中的光譜向量代表了高光譜圖像中相應(yīng)像素獨特的光譜特征。由于光譜特征在特征識別方面的優(yōu)勢,目前高光譜圖像處理技術(shù)已經(jīng)被廣泛應(yīng)用到各種場景中[1-2],例如精準(zhǔn)農(nóng)業(yè)[3]、海洋監(jiān)測[4]以及城鄉(xiāng)規(guī)劃[5]等。在這些應(yīng)用場景中,高光譜圖像分類起到了重要作用。近年來,一些空譜聯(lián)合分類算法被用來提升分類精度[6-8]。這些方法用于學(xué)習(xí)訓(xùn)練樣本標(biāo)簽是可行的,然而在實際應(yīng)用中并非如此。
有監(jiān)督的高光譜圖像分類算法要求樣本是標(biāo)記完成的,但是手動標(biāo)記過程非常困難,僅憑視覺解釋的訓(xùn)練樣本并不可靠。具體來說,引入誤標(biāo)簽的原因有如下幾點:(1)全球定位系統(tǒng)會對目標(biāo)對象的空間位置產(chǎn)生不準(zhǔn)確的估計,導(dǎo)致很難確定高光譜像素的精確位置;(2)對于一些場景,比如海洋和濕地,這樣的場景人類無法到達(dá),在這種情況下,基于人類視覺解讀的訓(xùn)練樣本標(biāo)簽不可避免會產(chǎn)生噪聲;(3)當(dāng)標(biāo)記一個包含許多不規(guī)則形狀土地覆蓋物的場景時,人工貼標(biāo)簽的過程中會產(chǎn)生錯誤。
為了解決訓(xùn)練樣本的誤標(biāo)簽問題,對計算機(jī)視覺領(lǐng)域進(jìn)行了深入的研究。LU等人[9]提出一種基于曼哈頓距離優(yōu)化的學(xué)習(xí)模型來檢測弱噪聲標(biāo)簽。FOODY等人[10]發(fā)現(xiàn),噪聲標(biāo)簽會影響基于支持向量機(jī)的機(jī)載制圖分類。雖然許多研究已經(jīng)解決了計算機(jī)視覺領(lǐng)域的噪聲標(biāo)簽問題,但由于高光譜圖像的高維和非線性結(jié)構(gòu),這些方法不能直接擴(kuò)展到高光譜圖像誤標(biāo)簽分類中。最近幾年,關(guān)于帶有噪聲標(biāo)簽的高光譜圖像分類算法得到了關(guān)注。KANG等人[11]首次提出了基于光譜檢測和邊緣保持濾波的噪聲標(biāo)簽檢測和校正方法。TU等人[12]通過融合光譜角度和局部離群值因子來檢測高光譜圖像中的噪聲標(biāo)簽,實驗結(jié)果表明,該算法能有效地檢測出有噪聲的標(biāo)簽。密度峰值(density peak,DP)聚類算法作為一種魯棒的聚類算法首次在科學(xué)雜志上被提出[13]。TU等人[14]首次利用DP聚類算法來檢測高光譜圖像訓(xùn)練樣本中的誤標(biāo)簽,基于DP聚類的高光譜圖像誤標(biāo)簽檢測算法在檢測過程中沒有考慮相鄰光譜像素之間的空間相關(guān)性。為了解決這一問題,TU等人[15]提出一種新的基于空間DP聚類(k-spatial density peak,K-SDP)的噪聲標(biāo)簽檢測算法,該算法通過加入中心樣本的鄰域樣本來進(jìn)一步檢測中心樣本的異常程度。然而,參考文獻(xiàn)[14]和參考文獻(xiàn)[15]中沒有考慮原始高光譜圖像中存在稀疏噪聲的問題。參考文獻(xiàn)[16]中提出一種基于核熵分量分析(kernel entropy component analysis,KECA)的噪聲標(biāo)簽檢測方法,但是,該算法在檢測過程中沒有考慮到訓(xùn)練樣本的上下文信息。多種基于約束能量最小化(constrained energy minimum,CEM)算法已被廣泛應(yīng)用于高光譜圖像處理中。ZOU等人[17]提出一種用于高光譜圖像目標(biāo)檢測的二次約束能量最小化檢測器。此外,ZHANG等人[18]提出一種混合稀疏性和CEM的檢測器,以提高目標(biāo)檢測的性能。CEM也有效地應(yīng)用到了高光譜圖像誤標(biāo)簽檢測上。TU等人[19]提出了一種層次約束能量最小值(hierarchical constrained energy minimum,HCEM)方法來檢測經(jīng)過監(jiān)督任務(wù)訓(xùn)練的原始訓(xùn)練集的錯誤標(biāo)記樣本,該方法可以準(zhǔn)確地去除原始訓(xùn)練集的噪聲標(biāo)簽,有效地提高監(jiān)督分類任務(wù)的性能。但是,該算法的一個缺點是使用原始的光譜角制圖算法(spectral angle mapping,SAM)來衡量光譜向量的相似度。原始的SAM是一種全局性的描述指標(biāo),當(dāng)部分波段屬性值有變化、或全部波段屬性值具有不同的變化值時,往往導(dǎo)致光譜角余弦的失真。
為了解決參考文獻(xiàn)[14]~參考文獻(xiàn)[16]和參考文獻(xiàn)[19]中所出現(xiàn)的問題,本文作者提出基于低秩稀疏和改進(jìn)光譜角制圖的密度峰值聚類算法(low rank sparse-normalized spectral angular mapping density peak clustering,LRS-NSAMDP)。相比于DP聚類算法[14]和K-SDP[15]算法,本算法的改進(jìn)是去除原始高光譜圖像中的稀疏噪聲,提取高光譜圖像中的低秩成分,降低每一類樣本中的加權(quán)平均局部密度,從而減少了光譜向量中的誤標(biāo)簽數(shù)目,提高了分類精度。相比于基于層次約束能量最小值的高光譜圖像誤標(biāo)簽分類算法[19],本算法對原始的SAM算法進(jìn)行改進(jìn),將光譜向量在波段上的屬性值除以該光譜向量的模進(jìn)行歸一化,相比于SAM算法降低了同類像元之間的光譜角,使同類像元更加接近,從而更容易檢測出訓(xùn)練樣本中的像元之間差異較大的誤標(biāo)簽。通過以上兩個改進(jìn),相比于其它先進(jìn)的遙感圖像誤標(biāo)簽分類算法,提升了總體精度(overall accuracy,OA)、平均精度(average accuracy,AA)和kappa系數(shù)。
一幅原始高光譜圖像Y≡[y1,y2,…,yQ],Q代表每一波段的像素數(shù)。由于高光譜圖像相鄰波段之間的高相關(guān)性,根據(jù)線性回歸理論和最小二乘法理論[20],假設(shè)zi為傳感器在第i波段讀取的相關(guān)系數(shù)向量,所以有:
zi=Z?iβi+ξi
(1)

(2)


(3)

40年來,特別是黨的十八以來,云南鐵路抓住國家西部大開發(fā)和云南面向南亞東南亞輻射中心建設(shè)的機(jī)遇,積極爭取國家政策支持,鐵路投資、規(guī)劃項目落地和開通運(yùn)營里程保持高位增長。
SAM是KRUSE等人在1993年提出的[22],把圖像中的每一個像元的光譜視為一個高維向量,通過計算兩向量之間的夾角來度量光譜間的相似性,夾角越小,兩光譜越相似,屬于同類地物的可能性越大,因而可根據(jù)光譜角的大小來辨別未知數(shù)據(jù)的類別。分類時,通過計算未知數(shù)據(jù)與已知數(shù)據(jù)間的光譜角,并把未知數(shù)據(jù)的類別歸為最小光譜角對應(yīng)的類別中,如下式所示:

(4)
式中,L為波段數(shù),A和B分別表示兩個光譜向量在L個波段上的屬性值,α為光譜角。夾角越小,余弦值較大;相反夾角大,相應(yīng)的余弦值就較小。
圖1是所提出的LRS-NSAMDP的流程圖。主要分為5個步驟:(1)基于低秩稀疏表示的高光譜圖像低秩特征提取;(2)計算各個類中訓(xùn)練樣本間的距離;(3)訓(xùn)練樣本局部密度的計算;(4)檢測誤標(biāo)簽訓(xùn)練樣本;(5)支持向量機(jī)分類。

Fig.1 Flow chart of LRS-NSAMDP algorithm


(5)
式中,?表示克羅內(nèi)克乘積,‖·‖表示矩陣的范數(shù),I表示單位矩陣,Z表示相關(guān)系數(shù)矩陣,z為向量化Z,M為掩模,φ(z)表示正則化函數(shù),δ是正則化系數(shù),y為向量化圖像Y。設(shè)掩模Mp作用在未觀測到的像素p所對應(yīng)的高光譜圖像yp,所以有:

(6)


(7)


(8)
(9)

dl=[dl,l1,dl,l2,…,dl,lj]T
(10)
為了計算訓(xùn)練樣本間的局部密度,定義截止距離dc,計算方式如下:

(11)
式中,S(t)為將Dj的上三角矩陣中的非零元素從最小到最大排序得到的矩陣,Nj為第j重樣本總數(shù),θ為隨機(jī)參數(shù),〈·〉為四舍五入運(yùn)算。根據(jù)得到的dc矩陣計算每一類的局部密度ρ=∑exp[-(Dj/dc)2]。
根據(jù)每一類中每一個訓(xùn)練樣本的局部密度,誤樣本可以通過線性閾值決策函數(shù)計算得到:

(12)

Kennedy Space Center(KSC)數(shù)據(jù)集是由AVIRIS高光譜儀于1996年在佛羅里達(dá)州肯尼迪太空中心采集的512像素×614像素大小的高光譜圖像,包含224個波段,經(jīng)過噪聲去除后還剩下176個波段,空間分辨率是18m,有13個地物類別,總樣本大小為5211。
University of Pavia(PaviaU)數(shù)據(jù)集是由ROSIS高光譜儀在帕維亞大學(xué)上空采集的610像素×340像素大小的高光譜圖像,共包含9類地物115個波段,去掉含噪聲波段后,其余103個波段作為實驗數(shù)據(jù)集,總體樣本大小為42776。本算法的實驗以及對比算法實驗的運(yùn)行環(huán)境為12G內(nèi)存,英特爾酷睿i5 2.2GHz的CPU,開發(fā)環(huán)境為MATLAB R2018a。圖2和圖3分別給出了兩種數(shù)據(jù)集的假彩色圖像、地物真值圖和每一類物種。

Fig.2 KSC dataseta—false color image b—ground object truth map c—name of each species

Fig.3 PaviaU dataseta—false color image b—ground object truth map c—name of each species
本算法提出的兩個參數(shù)分別為:計算局部密度的隨機(jī)參數(shù)θ和檢測誤標(biāo)簽訓(xùn)練樣本的隨機(jī)參數(shù)λ,圖4和圖5中分別展示了在KSC和PaviaU兩個數(shù)據(jù)集上的不同參數(shù)下對OA的影響。為了證明算法的有效性,后續(xù)實驗使用廣泛應(yīng)用在高光譜圖像分類算法中的支持向量機(jī)(support vector machine,SVM)作為分類器,具體使用LIBSVM工具箱中的分類器,SVM的參數(shù)采用交叉驗證的方式來確定。對于KSC數(shù)據(jù)集,對每一類隨機(jī)選取25個真實樣本和5個不確定標(biāo)記樣本,對于PaviaU數(shù)據(jù)集,對每一類隨機(jī)選取50個真實樣本和10個不確定標(biāo)記樣本。

Fig.4 On KSC dataset, the parameter θ and λ coefficient of different local densities λ impact on OA

Fig.5 On PaviaU dataset, the parameter θ and λ coefficient of different local densities λ impact on OA
根據(jù)圖4和圖5可以看出,隨機(jī)參數(shù)θ在兩個數(shù)據(jù)集上的波動范圍相較于系數(shù)λ較小,比如在PaviaU數(shù)據(jù)集上,最大的局部密度只比最小的局部密度高2%左右,而在KSC數(shù)據(jù)集上最大的局部密度比最小的局部密度要高15%以上,因此決定本算法的精度值主要是隨機(jī)參數(shù)θ。從圖4和圖5還可以看出,在KSC數(shù)據(jù)集上,當(dāng)取θ=11、λ=0.2時,可以取得局部最優(yōu)的OA值;PaviaU數(shù)據(jù)集上,當(dāng)取θ=20、λ=0.2時,可以取得局部最優(yōu)的OA值。因此對于一個新的數(shù)據(jù)集,建議取θ=20、λ=0.2作為提出算法的參數(shù)設(shè)置。



Table 1 Umber of false labels in each class detected by different detection algorithms under different uncertain samples
為了驗證改進(jìn)光譜角制圖算法的優(yōu)越性,在此將多種距離度量算法應(yīng)用在本算法當(dāng)中,比如,歐幾里得距離(Euclidean distance,ED)[23]、光譜信息散度(spectral information divergence,SID)[24]、相關(guān)系數(shù)(correlation coefficient,CC)[25]以及SAM[22]。根據(jù)表2可以明顯看出,本文中提出的歸一化光譜角相似度算法取得了較優(yōu)的分類精度,因此后續(xù)的對比實驗采用本文中提出的歸一化光譜角相似度算法來度量距離。

Table 2 Classification performance of KSC dataset under the false labeles detected by different distance measurement algorithms
將本算法和先進(jìn)的誤標(biāo)簽檢測算法進(jìn)行對比,具體包括SVM算法[26]、DP聚類算法[14]、K-SDP算法[15]、KECA算法[16]和HCEM算法[19]。本算法的實驗參數(shù)采用第3.2節(jié)中給出的參數(shù),為了保持對比算法在最優(yōu)的條件下進(jìn)行對比,所有參數(shù)采用文獻(xiàn)中給出的默認(rèn)參數(shù)。在KSC數(shù)據(jù)集上,實驗采用每一類25個正確樣本加5個不確定樣本、25個正確樣本加15個不確定樣本。在PaviaU數(shù)據(jù)集上,實驗采用每一類50個正確樣本加10個不確定樣本、50個正確樣本加20個不確定樣本。限于篇幅,圖6和圖7中分別展示了在KSC數(shù)據(jù)集上25個正確樣本加5個不確定樣本和PaviaU數(shù)據(jù)集上50個正確樣本加10個不確定樣本下的不同誤標(biāo)簽檢測算法隨機(jī)一次地物分類圖。表3和表4中分別展示了不同誤標(biāo)簽檢測算法在KSC和PaviaU數(shù)據(jù)集上隨機(jī)運(yùn)行10次后求平均值的分類精度表格。

Fig.6 Feature classification map (25T+5U) obtained by different algorithms in KSC dataset

Fig.7 Feature classification map (50T+10U) obtained by different algorithms in PaviaU dataset

Table 3 Classification accuracy under different false label algorithms on KSC dataset

Table 4 Classification accuracy of PaviaU dataset with different false label algorithms
根據(jù)圖6可知,本文中提出的LRS-NSAMDP算法和真實地物分類圖更相似,證明了相比于SVM、DP、K-SDP、KECA和HCEM算法,本文中提出的算法可以有效地去除帶有誤標(biāo)簽的訓(xùn)練樣本。由表3可以看出,當(dāng)每一類訓(xùn)練樣本中包含5個不確定樣本時,本文中提出的算法的OA值要比SVM的OA值高5.86%,此外,和兩個高光譜圖像誤標(biāo)簽檢測算法DP聚類和K-SDP聚類相比,本算法對原始高光譜圖像提取了低秩成分,提高了原始高光譜的質(zhì)量。根據(jù)第3.3節(jié)可知,本算法相比于DP聚類和K-SDP聚類可以有效減少訓(xùn)練樣本中的誤標(biāo)簽,在KSC數(shù)據(jù)集上的不同誤標(biāo)簽樣本下,都提升了分類精度。相比于KECA算法,本算法使用改進(jìn)的光譜角制圖算法充分獲取每一類訓(xùn)練樣本間的上下文信息,在每一類包含5個不確定的訓(xùn)練樣本上OA提升2.76%。相比于使用未改進(jìn)光譜角制圖的HCEM算法,本算法克服了原始光譜角余弦的失真問題,能夠抑制誤差,在每一類包含15個不確定的訓(xùn)練樣本上OA提升1.26%。同時根據(jù)圖7和表4可以得出同樣的結(jié)論,例如,當(dāng)每一類訓(xùn)練樣本中包含10個不確定樣本時,本算法相比于SVM、DP、K-SDP、KECA和HCEM算法,OA分別提高了6.76%,4.58%,3.94%,2.38%,1.24%,在兩種數(shù)據(jù)集上充分證明了本算法的有效性。
圖8中給出了不同訓(xùn)練集下使用不同誤標(biāo)簽檢測算法的總體精度柱狀圖。其中包括本算法和5種不同對比算法進(jìn)行10次重復(fù)實驗后獲得的OA平均值。

Fig.8 OA obtained by using different false label detection algorithms in different training sets
可以看出,本算法相比于SVM、DP、K-SDP、KECA和HCEM算法,兩個數(shù)據(jù)集上都提高了OA值,證明了在誤標(biāo)簽的檢測過程中,提出的算法相比于對比算法更具有魯棒性。
表5中給出本方法在兩個數(shù)據(jù)集上所有檢測失敗的不確定樣本數(shù),檢測失敗的不確定樣本造成檢測算法的誤差。其中,6×13表示在訓(xùn)練樣本中所有的不確定樣本數(shù)目,6表示每一類中的不確定樣本數(shù)目,13表示類的數(shù)目(實驗數(shù)據(jù)重復(fù)5次求得平均值),其它類推。首先明顯看出,本算法所有檢測失敗的不確定樣本相比于DP算法和K-SDP算法檢測失敗的不確定樣本數(shù)目少,證明本算法檢測性能優(yōu)越。仍然會出現(xiàn)檢測誤差的原因主要還是算法本身造成的。(12)式采用簡單的線性閾值決策函數(shù),該函數(shù)可能會導(dǎo)致無法準(zhǔn)確度量、檢測、去除臨界值附近的待檢測樣本,造成系統(tǒng)誤差。此外,本算法采用改進(jìn)SAM算法來衡量光譜相似度和利用光譜信息,在檢測過程中并沒有利用到遙感圖像的空間信息,這也會造成系統(tǒng)誤差,可以采取自適應(yīng)調(diào)節(jié)的軟閾值決策函數(shù)、聯(lián)合樣本之間的空間上下文信息等來減少系統(tǒng)誤差。另一方面,測量儀器、設(shè)備裝置和環(huán)境會導(dǎo)致隨機(jī)誤差,可以通過增加求平均值的次數(shù)以及使用最小二乘法求得最優(yōu)值來減少隨機(jī)誤差。但是隨機(jī)誤差仍是不可以避免的。

Table 5 Detection performance of false labels for the proposed method on two datasets
