儲(chǔ)岳中,劉 恒,張學(xué)鋒
(安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 馬鞍山 243002)
稀疏表示已被證明非常適合遙感圖像分類,國(guó)內(nèi)外學(xué)者業(yè)已提出很多行之有效的基于稀疏表示的遙感圖像分類算法。宋相法等[1]根據(jù)遙感圖像像元的稀疏特征和光譜信息分別構(gòu)造隨機(jī)森林,通過(guò)投票機(jī)制進(jìn)行圖像分類,獲得了較好的分類評(píng)價(jià)指標(biāo);何同弟等[2]設(shè)計(jì)自適應(yīng)稀疏表示分類器并用于高光譜遙感圖像分類,有效提高了高光譜影像的分類精度;A SOLTANI-FARANI等[3]根據(jù)高光譜遙感圖像內(nèi)部的空間關(guān)系提出一種結(jié)構(gòu)化字典構(gòu)建方法,并通過(guò)線性SVM實(shí)現(xiàn)圖像分類;Ni等[4]采用光譜正切面的方法提取每類像元的特征空間,以此衡量之間的相似度,取得了較好的高光譜圖像分類效果;劉璐等[5]基于聯(lián)合域流形距離的快速AP聚類進(jìn)行字典學(xué)習(xí),提出一種基于空域和極化域的稀疏表示分類方法,有效保持極化SAR數(shù)據(jù)結(jié)構(gòu)的同時(shí)降低了算法的時(shí)間復(fù)雜度;陳善學(xué)等[6]將馬爾可夫隨機(jī)場(chǎng)引入加權(quán)條件稀疏表示算法,在不增加算法計(jì)算開(kāi)支的情況下,提取高光譜圖像的空間信息,將條件稀疏模型與光譜信息散度模型結(jié)合,使算法能夠有效提高高光譜圖像分類精度。
針對(duì)稀疏表示在圖像目標(biāo)分類領(lǐng)域的研究,目前主要集中在字典學(xué)習(xí)和分類策略方面,相關(guān)算法對(duì)圖像的幾何特征、訓(xùn)練數(shù)據(jù)的規(guī)模和數(shù)據(jù)的時(shí)效性等過(guò)于依賴,有些算法的計(jì)算復(fù)雜度依然過(guò)高,稀疏字典的構(gòu)建策略仍然很不成熟。近年來(lái),遷移學(xué)習(xí)被廣大學(xué)者關(guān)注和研究。通俗理解,遷移學(xué)習(xí)是指一種學(xué)習(xí)對(duì)另一種學(xué)習(xí)的影響。為此,本文將遷移學(xué)習(xí)的理念引入到圖像分類算法設(shè)計(jì)中,將前一次已標(biāo)記數(shù)據(jù)中的代表數(shù)據(jù)信息遷移到后續(xù)學(xué)習(xí)中,結(jié)合稀疏表示的方法,提出一種基于遷移AP聚類的遙感圖像分類算法,實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有相關(guān)算法相比,本文算法在分類成功率上具有一定的優(yōu)越性。
Wright等提出稀疏表示分類(sparse representation-based classification,SRC)方法[7],該方法首先利用訓(xùn)練數(shù)據(jù)建立一個(gè)過(guò)完備字典D,假設(shè)訓(xùn)練樣本集X={x1,x2,…,xN}∈RM,則字典學(xué)習(xí)形式如下
(1)


(1)求測(cè)試樣本y在字典D下的稀疏系數(shù)
(2)
(2)計(jì)算殘差(重構(gòu)誤差)

(3)

(3)分類策略
(4)
則可判定測(cè)試樣本y屬于重構(gòu)誤差最小的第i*類。
近鄰傳播(affinitypropagation,AP)聚類是近年來(lái)提出的一種聚類算法[8]。AP聚類相比其它經(jīng)典聚類算法,優(yōu)點(diǎn)如下:①無(wú)需初始化樣本集的類別數(shù);②聚類中心點(diǎn)是原始數(shù)據(jù)集中實(shí)際存在的數(shù)據(jù)點(diǎn),而非構(gòu)建點(diǎn);③對(duì)初始參數(shù)不敏感,多次運(yùn)行算法得到的結(jié)果完全一樣;④聚類結(jié)果誤差平方和低于大多聚類算法,算法魯棒性強(qiáng)。因此,本文通過(guò)AP聚類方法來(lái)學(xué)習(xí)圖像數(shù)據(jù)分類器。AP聚類是根據(jù)樣本集數(shù)據(jù)點(diǎn)間的相似度矩陣(S={s(i,j)})進(jìn)行聚類,為找出合適的聚類中心,AP算法在迭代過(guò)程中,傳遞并更新吸引度和歸屬度兩類消息,這兩類消息傳遞情況如圖1所示,AP算法的迭代過(guò)程可參考文獻(xiàn)[9]。

圖1 數(shù)據(jù)點(diǎn)之間傳遞消息
數(shù)據(jù)標(biāo)定是廣大研究人員在機(jī)器學(xué)習(xí)、模式識(shí)別等領(lǐng)域要面臨的問(wèn)題,我們經(jīng)常假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)服從同一分布,實(shí)際上很多情況下,這種假設(shè)并不滿足。更多的情況是,由于數(shù)據(jù)獲取有時(shí)間差,好不容易標(biāo)定的數(shù)據(jù)要被丟棄,而另外又有一批新的數(shù)據(jù)要重新標(biāo)定,但前面已標(biāo)定數(shù)據(jù)仍然有一定的參考價(jià)值。在此背景下,遷移學(xué)習(xí)受到國(guó)內(nèi)外學(xué)者廣泛研究。遷移學(xué)習(xí)的基本思想是運(yùn)用已有的知識(shí)來(lái)訓(xùn)練新的模型,這種方法一方面放寬了訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)服從同一分布的要求,另一方面也降低了分類模型對(duì)訓(xùn)練數(shù)據(jù)規(guī)模的要求。因此,可以通過(guò)遷移學(xué)習(xí)來(lái)解決一些目標(biāo)領(lǐng)域中標(biāo)簽數(shù)據(jù)少甚至沒(méi)有的學(xué)習(xí)問(wèn)題[10]。
本文擬采用遷移學(xué)習(xí)方法,為AP聚類重新構(gòu)建更具代表性的數(shù)據(jù)集。在數(shù)據(jù)遷移過(guò)程中,以前一次聚類學(xué)習(xí)所獲得的聚類中心為據(jù),從訓(xùn)練樣本集中按近鄰原則選擇一定比例(遷移比例)的數(shù)據(jù)構(gòu)建新的樣本集,這些被選中的樣本由于聚類中心的作用,要比原始數(shù)據(jù)代表性強(qiáng),一定程度上減少了噪聲數(shù)據(jù)的影響,在此基礎(chǔ)上繼續(xù)聚類,直到滿足樣本重構(gòu)誤差條件。
面對(duì)圖像分類任務(wù),傳統(tǒng)AP聚類算法的中心代表點(diǎn)的精準(zhǔn)度易受噪聲數(shù)據(jù)的影響。為此,本文利用遷移學(xué)習(xí)的思想,首先利用AP算法獲取訓(xùn)練樣本的初始劃分,然后從源域?yàn)槊總€(gè)類中心遷移一批樣本,對(duì)新形成的樣本集再次聚類,在此基礎(chǔ)上為每個(gè)類利用K-SVD算法學(xué)習(xí)一個(gè)超完備字典,隨后再根據(jù)重構(gòu)誤差最小化原則更新樣本類別標(biāo)簽。顯然對(duì)初始樣本集的第一次AP聚類,中心代表點(diǎn)的吸引度和歸屬度能量一定體現(xiàn)出噪聲數(shù)據(jù)的作用,在隨后的遷移過(guò)程中,只是選擇了一部分離中心點(diǎn)近的樣本重新組建更有代表性的樣本集,對(duì)新組建樣本重新聚類對(duì)應(yīng)的中心代表點(diǎn),由于剔除了噪聲數(shù)據(jù)的影響,要比初始中心代表點(diǎn)更為精準(zhǔn)。具體算法流程見(jiàn)表1。

表1 算法流程
圖2為華盛頓地區(qū)SAR圖像中分割出來(lái)的12座橋梁目標(biāo)。要識(shí)別12座橋梁目標(biāo),需要補(bǔ)充樣本,為此,對(duì)原始SAR圖像每隔6°旋轉(zhuǎn)一次,采用雙立方插值,以此模擬從不同角度成像得到的SAR圖像。對(duì)每次旋轉(zhuǎn)得到的SAR圖像進(jìn)行手工分割,共獲取720幅橋梁圖像,子圖像大小為50×50,樣本集中包括每座橋圖像各60幅,再增加偽目標(biāo)圖像60幅,樣本集合計(jì)780幅圖像。在目標(biāo)識(shí)別前,首先利用Radon變換對(duì)其進(jìn)行特征提取,然后再對(duì)所提特征值進(jìn)行奇異值分解,并從大到小取前25個(gè)奇異值作為各圖像樣本的特征向量,聚類前將特征向量歸一化到[0,1]區(qū)間。這些預(yù)處理工作在驗(yàn)證本文算法前已經(jīng)完成。

圖2 12座橋梁目標(biāo)圖像
對(duì)利用特征向量所表示的SAR橋梁圖像數(shù)據(jù)集,根據(jù)訓(xùn)練數(shù)據(jù)占比ξ的不同取值隨機(jī)選擇一些樣本作為訓(xùn)練集,基于前文所提算法構(gòu)建超完備字典,此時(shí)字典中就已包含了類別信息,再基于重構(gòu)誤差最小化原則對(duì)測(cè)試樣本進(jìn)行分類,最后利用測(cè)試數(shù)據(jù)的總體分類精度(OCA)和Kappa系數(shù)來(lái)評(píng)價(jià)分類精度。為了降低實(shí)驗(yàn)數(shù)據(jù)選擇的偶然性,我們使用10次實(shí)驗(yàn)的平均總體分類精度和Kappa系數(shù)值。表2給出了本文算法在取不同參數(shù)時(shí)的分類結(jié)果。圖3給出了遷移樣本比例對(duì)總體分類精度的影響趨勢(shì)。圖3表明,一方面訓(xùn)練數(shù)據(jù)占比的提高會(huì)提高分類精度,但隨著遷移樣本比例的提高,總體分類精度反而下降,這主要是因?yàn)檫^(guò)高的遷移比例,會(huì)因噪聲數(shù)據(jù)的引入而影響分類精度,從而說(shuō)明按比例遷移部分代表數(shù)據(jù)構(gòu)建超完備字典,是本文算法的關(guān)鍵所在。

表2 SAR橋梁圖像分類結(jié)果

圖3 遷移比例與總體分類精度的關(guān)系
為了比較本文算法同已有文獻(xiàn)經(jīng)典算法的性能差別,這里選擇80%數(shù)據(jù)占比來(lái)構(gòu)建訓(xùn)練數(shù)據(jù)集,以測(cè)試數(shù)據(jù)最高總體分類精度為指標(biāo),在同等實(shí)驗(yàn)環(huán)境下,基于稀疏表示的經(jīng)典算法BoW-RF[11]、SC-RF[1]、ASP[2]、CDL-SRC[5]、SOMP[12]和本文算法(TAP-SRC)的最高分類精度和算法用時(shí)見(jiàn)表3。從表3數(shù)據(jù)可看出,針對(duì)SAR橋梁圖像,本文算法取得最高總體分類精度。算法用時(shí)方面本文算法并不是最優(yōu)的,但相對(duì)部分算法有些優(yōu)勢(shì),在算法用時(shí)沒(méi)有大幅增加的情況下,總體分類精度獲得最高效果,說(shuō)明這種改進(jìn)還是值得的。

表3 不同算法最高分類精度和算法用時(shí)
本文在研究遷移學(xué)習(xí)和稀疏學(xué)習(xí)理論的基礎(chǔ)上,提出了一種基于遷移AP聚類和稀疏學(xué)習(xí)相結(jié)合的遙感圖像分類算法。算法對(duì)遷移AP聚類結(jié)果利用K-SVD算法學(xué)習(xí)超完備字典,然后按重構(gòu)誤差最小化原則更新類別標(biāo)簽,當(dāng)總體誤差性能指標(biāo)不達(dá)標(biāo)或?qū)W習(xí)次數(shù)未達(dá)閾值時(shí),再重新聚類和學(xué)習(xí)字典,最后利用最終的超完備字典按重構(gòu)誤差最小化原則對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,合適的遷移比例可以確保分類器獲得更好的總體分類精度,與基于稀疏學(xué)習(xí)的經(jīng)典算法比較結(jié)果,也體現(xiàn)出本文算法較好的分類性能。但本文算法中的遷移比例是通過(guò)手工設(shè)置的,針對(duì)不同圖像數(shù)據(jù)集,如何合理設(shè)置或自動(dòng)尋找遷移比例,將是下一步研究的主要工作。
[1]SONG Xiangfa,JIAO Licheng.Classification of hyperspectral remote sensing image based on sparse representation and spectral information[J].Journal of Electronics & Information Technology,2012,34(2):268-272(in Chinese).[宋相法,焦李成.基于稀疏表示及光譜信息的高光譜遙感圖像分類[J].電子與信息學(xué)報(bào),2012,34(2):268-272.]
[2]HE Tongdi,LI Jianwei.Hyperspectral remote sensing image classification based on adaptive sparse representation[J].Systems Engineering and Electronics,2013,35(9):1994-1998(in Chinese).[何同弟,李見(jiàn)為.基于自適應(yīng)稀疏表示的高光譜遙感圖像分類[J].系統(tǒng)工程與電子技術(shù),2013,35(9):1994-1998.]
[3]SOLTANI-FARANI A,RABIEEH R,HOSSEINI SA.Spatial-aware dictionary learning for Hyperspectral image classification[J].IEEE Transactions on Geoscience and Remote Sen-sing,2015,53(1):527-541.
[4]NiD,Ma H.Classification of Hyperspectral image based on sparse representation in tangent space[J].IEEE Transactions on Geoscience and Remote Sensing,2015,12(4):786-790.
[5]LIU Lu,LIU Shuai,JIAO Licheng,et al.Combined dictio-nary learning based sparse representation for PolSAR image classification[J].Journal Huazhong University of Science & Technology(Natural Science Edition),2016,44(2):81-85(in Chinese).[劉璐,劉帥,焦李成,等.采用聯(lián)合域字典稀疏表示的極化SAR圖像分類[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,44(2):81-85.]
[6]CHEN Shanxue,QU Longyao,HU Can.Spatial correlation constrained weighted conditional sparse representation for hyperspectral image classification[J].Systems Engineering and Electronics,2016,38(2):442-449(in Chinese).[陳善學(xué),屈龍瑤,胡燦.基于空間約束加權(quán)條件稀疏表示高光譜圖像分類[J].系統(tǒng)工程與電子技術(shù),2016,38(2):442-449.]
[7]ZHANG Kang,GU Xingsheng.Affinity propagation based improved group search optimizer clustering algorithm[J].Journal of System Simulation,2015,27(9):266-274(in Chinese).[張康,顧幸生.基于近鄰傳播的改進(jìn)組搜索優(yōu)化聚類算法[J].系統(tǒng)仿真學(xué)報(bào),2015,27(9):266-274.]
[8]Bai Tianxiang,Li Youfu,Zhou Xiaolong.Learning local appearance with sparse representation for robust and fast visual tracking[J].IEEE Transactions on Cyberneics,2014,45(4):663-675.
[9]CHU Yuezhong,XU Bo.RBF neural network classifier based on manifold analysis and AP algorithm[J].Journal Huazhong University of Science & Technology(Natural Science Edition),2012,40(8):93-97(in Chinese).[儲(chǔ)岳中,徐波.基于流形分析與AP算法RBF神經(jīng)網(wǎng)絡(luò)分類器[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,40(8):93-97.]
[10]ZHUANG Fuzhen,LUO Ping,HE Qing,et al.Survey on transfer learning research[J].Journal of Software,2015,26(1):26-39(in Chinese).[莊福振,羅平,何清,等.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報(bào),2015,26(1):26-39.]
[11]VanGemert JC,Veenman CJ,Smeulders WM,et al.Visual word ambiguity[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(7):1271-1283.
[12]Yi C,Nasrabadi NM,Tran TD.Hyperspectral image classification using dictionary based sparse representation[J].IEEE Transactions on Geoscience and Remote Sensing,2011,49(10):3973-3985.