曾現(xiàn)靈,張立燕,胡榮華
(1. 首都師范大學(xué) 資源環(huán)境與地理信息系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室,北京100048;2. 首都師范大學(xué) 三維信息獲取與應(yīng)用教育部重點(diǎn)實(shí)驗(yàn)室,北京100048)
基于主動(dòng)學(xué)習(xí)的高光譜異常檢測(cè)SVDD算法
曾現(xiàn)靈1,張立燕2,胡榮華1
(1. 首都師范大學(xué) 資源環(huán)境與地理信息系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室,北京100048;2. 首都師范大學(xué) 三維信息獲取與應(yīng)用教育部重點(diǎn)實(shí)驗(yàn)室,北京100048)
針對(duì)SVDD算法在高光譜圖像異常檢測(cè)中存在的計(jì)算量過大的問題,提出基于主動(dòng)學(xué)習(xí)的SVDD異常檢測(cè)算法。因?yàn)镾VDD計(jì)算復(fù)雜度與訓(xùn)練樣本的數(shù)量成指數(shù)增加,將主動(dòng)學(xué)習(xí)的思想引入算法中。這種方法主動(dòng)地選擇構(gòu)建超球體的支持向量樣本,剔除對(duì)于構(gòu)建超球體貢獻(xiàn)不大的樣本,大大減少了進(jìn)行計(jì)算的數(shù)據(jù)量。
高光譜圖像;異常檢測(cè);支持向量數(shù)據(jù)描述;主動(dòng)學(xué)習(xí)

高光譜圖像可以通過觀測(cè)地物的圖像特征和光譜特征來表達(dá)地物的物理性質(zhì),并廣泛應(yīng)用于環(huán)境檢測(cè)、農(nóng)作物和森林資源的檢測(cè)評(píng)估以及資源探查。基于不同地物的譜庫,通過光譜特征匹配搜索地物,并通過異常檢測(cè)算法[1-3],避免譜庫和實(shí)際輻射光譜的不匹配。其中,Banerjee提出的支持向量數(shù)據(jù)描述(support vector data description,SVDD)方法[3],引入非參數(shù)背景模型,用背景的最小封閉超球建立判別函數(shù)來檢測(cè)異常像元,避免了一般統(tǒng)計(jì)學(xué)方法假定背景符合獨(dú)立同分布的高斯模型而產(chǎn)生的虛警問題,但是計(jì)算量很大。為此,將主動(dòng)學(xué)習(xí)的思想引入SVDD異常檢測(cè)算法,主動(dòng)地選擇構(gòu)建超球體的支持向量樣本,剔除對(duì)構(gòu)建超球體貢獻(xiàn)不大的樣本,大大減少了進(jìn)行計(jì)算的數(shù)據(jù)量。
主動(dòng)學(xué)習(xí)[4]是根據(jù)學(xué)習(xí)進(jìn)程,主動(dòng)選擇最佳樣本進(jìn)行學(xué)習(xí),從而有效地降低樣本的復(fù)雜度[5]。主動(dòng)學(xué)習(xí)基于建模思想從未帶類別標(biāo)注的樣本空間選擇有效信息,而不是被動(dòng)地接受訓(xùn)練樣本提供的信息。主動(dòng)學(xué)習(xí)主動(dòng)選擇那些蘊(yùn)含信任度最低的信息的樣本,提高了初始分類器的整體預(yù)測(cè)準(zhǔn)確率。主動(dòng)學(xué)習(xí)是一個(gè)閉路循環(huán)的過程,其主要步驟為:
1)根據(jù)先驗(yàn)知識(shí)或者隨機(jī)地從未標(biāo)注候選樣本集中選擇若干樣本進(jìn)行人工標(biāo)注,構(gòu)造初始訓(xùn)練樣本集,利用這些帶標(biāo)注的樣本訓(xùn)練一個(gè)分類器。
2)采用主動(dòng)學(xué)習(xí)算法,從剩余的未標(biāo)記樣本中選擇最有利于分類器性能的樣本,標(biāo)注類別并加入訓(xùn)練樣本集,重新訓(xùn)練分類器。
3)未標(biāo)記候選樣本集為空或達(dá)到某一個(gè)特定指標(biāo),迭代停止;否則重復(fù)上述步驟。
主動(dòng)學(xué)習(xí)方法已經(jīng)成功應(yīng)用于很多領(lǐng)域,如文本分類[6]、遙感影像分類[7]和圖像檢索[8]等。在保證分類精度的前提下,可以大量減少訓(xùn)練所需的數(shù)據(jù)量[6,9,10]。在本文中,主動(dòng)學(xué)習(xí)方法應(yīng)用于高光譜圖像的異常檢測(cè),極大地減少了計(jì)算所需時(shí)間。
SVDD的思想是將具有共同特性的一類樣本約束于能夠?qū)⒃擃愔袠颖景鼑某騼?nèi),尋找滿足該要求的最小封閉超球并用判別準(zhǔn)則使一類樣本與其他類分開。基于核的SVDD方法就是利用映射函數(shù)將數(shù)據(jù)從輸入空間映射到高維特征空間,在特征空間中求取最小封閉超球。
設(shè)一類訓(xùn)練樣本集為X={xi,i=1,2,…,m},xi∈Rn,m是訓(xùn)練樣本集的數(shù)目,用映射函數(shù)Φ(xi)代替xi,得到:

設(shè)測(cè)試樣本為y,判決式為:

在上面的公式中,映射函數(shù)內(nèi)積運(yùn)算能夠通過核函數(shù)K(x,y)=〈Φ(x),Φ(y)〉表達(dá),選用徑向基(RBF)函數(shù)作為核函數(shù),表示為K(x,y)=exp(-‖x-y‖2/σ2)。判別式簡(jiǎn)化為:

在概率框架下,一個(gè)主動(dòng)的學(xué)習(xí)器可以通過選擇對(duì)分類器最有價(jià)值的樣本來減少用于計(jì)算的樣本的數(shù)量。本文中,我們提出基于主動(dòng)學(xué)習(xí)的SVDD方法:可以選擇對(duì)分類器來說最有價(jià)值的樣本進(jìn)行訓(xùn)練,大大減少了高光譜圖像奇異值檢測(cè)的計(jì)算量。
3.1 算法描述
算法描述如下:
輸入:未標(biāo)記訓(xùn)練樣本集。
第一步:在未標(biāo)記訓(xùn)練樣本集中選擇n個(gè)樣本,構(gòu)建初始訓(xùn)練樣本集。
第二步:根據(jù)訓(xùn)練樣本集訓(xùn)練分類器。
第三步:根據(jù)訓(xùn)練器訓(xùn)練樣本集。
第四步:選擇最靠近超球面的樣本,即對(duì)訓(xùn)練器最有價(jià)值的樣本,然后將這些樣本添加到訓(xùn)練集中,并將這些樣本從樣本集中刪除。
第五步:如果候選樣本集為空或者達(dá)到某一個(gè)指標(biāo),終止計(jì)算并輸出分類器,否則返回第二步。
輸出:分類器。
3.2 算法概述
基于主動(dòng)學(xué)習(xí)的SVDD算法的步驟如下:
1)選擇背景像元收集窗的維數(shù)。在圖1中,外區(qū)像元用于選擇背景像元,內(nèi)區(qū)為待檢測(cè)像元。內(nèi)區(qū)和外區(qū)的大小根據(jù)預(yù)期目標(biāo)的幾何尺寸來確定。

圖1 背景像元收集窗
2)選擇核函數(shù)參數(shù)。
3)在內(nèi)區(qū),用背景像元收集窗從局部鄰域中得到背景類樣本。根據(jù)主動(dòng)學(xué)習(xí)選擇樣本訓(xùn)練分類器,得到支持向量,用局部背景數(shù)據(jù)描述模型參數(shù)。
4)如果像元 的SVDD值小于檢測(cè)閾值,那么這個(gè)像元屬于背景像元,否則為異常。
4.1 仿真數(shù)據(jù)
用海水光譜(圖2a)作為背景,堤岸光譜(圖2b)作為奇異點(diǎn)。圖像大小100×100,波段數(shù)113。背景由20×20的海域光譜(圖2a)拼接而成。仿真數(shù)據(jù)的第32波段圖像如圖3所示。圖中,1點(diǎn)為5×5的正方形奇異目標(biāo),2和3點(diǎn)為包含5個(gè)像元點(diǎn)的條形奇異目標(biāo),4點(diǎn)為10×4的長(zhǎng)方形奇異目標(biāo),5點(diǎn)為4×10的長(zhǎng)方形奇異目標(biāo)。

圖2 仿真數(shù)據(jù)包含地物的光譜曲線

圖3 仿真數(shù)據(jù)32波段圖像
4.2 實(shí)驗(yàn)結(jié)果
分別用SVDD方法和基于主動(dòng)學(xué)習(xí)的SVDD方法對(duì)仿真數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。背景窗的大小為13×13-5×5,選擇核函數(shù)參數(shù) ,奇異值檢測(cè)的結(jié)果如圖4、圖5。從圖中可以看出,大部分奇異點(diǎn)被檢測(cè)出來。
分別對(duì)這兩種方法用維度不同的背景像元窗進(jìn)行仿真數(shù)據(jù)的異常檢測(cè),如圖6和圖7所示。對(duì)比可知,背景像元窗越小,虛警率越高。采用不同背景像元窗所耗時(shí)間見表1。

圖4 SVDD檢測(cè)結(jié)果

圖5 基于主動(dòng)學(xué)習(xí)的SVDD檢測(cè)結(jié)果

圖6 不同背景窗的SVDD檢測(cè)結(jié)果

圖7 不同背景窗的基于主動(dòng)學(xué)習(xí)的SVDD檢測(cè)結(jié)果

表1 2種算法計(jì)算時(shí)間比較表

圖8 2種算法計(jì)算時(shí)間
從圖8可以看出,SVDD算法的計(jì)算時(shí)間是基于主動(dòng)學(xué)習(xí)的SVDD算法的4.1~8.1倍。
[1] Harsanyi J C. Detection and Classification of Subpixel Spectral Signatures in Hyperspectral Image Sequences[D]. Baltimore:University of Maryland , 1993
[2] Reed I S, Yu X. Adaptive Multiple-band CFAR Detection of an Optical Pattern with Unknown Spectral Distribution [J]. IEEE Transactions on Acoustics Speech and Signal Processing, 1990, 38(10):1 760-1 770
[3] Banerjee A. A Support Vector Method for Anomaly Detection in Hyperspectral Imagery [J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(8):2 282-2 291
[4] Lewis D D, Gale W A. A Sequential Algorithm for Training Text Classifiers[C].17th Annual International ACM SIGIR Conference,New York, 1994
[5] 龍軍,殷建平,祝恩,等. 主動(dòng)學(xué)習(xí)研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2008,45(增刊):300-304
[6] Tong S, Koller D. Support Vector Machine Active Learning with Applications to Text Classification[J]. The Journal of Machine Learning Research, 2002(2): 45-66
[7] Tuia D, Ratle F, Pacifici F, et al. Active Learning Methods for Remote Sensing Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47(7): 2 218-2 232
[8] Gosselin P H, Cord M. Active Learning Methods for Interactive Image Retrieval[J]. IEEE Transactions on Image Processing,2008, 17(7): 1 200-1 211
[9] Baldridge J, Osborne M. Active Learning for HPSG Parse Selection[C].7th Conference on Natural Language Learning at HLT-NAACL,2003
[10] 宮秀軍,孫建平,史忠植. 主動(dòng)貝葉斯網(wǎng)絡(luò)分類器[J]. 計(jì)算機(jī)研究與發(fā)展, 2002, 39(5): 574-579
P237.3
B
1672-4623(2014)04-0058-03
10.11709/j.issn.1672-4623.2014.04.020
曾現(xiàn)靈,碩士,研究方向?yàn)楦吖庾V遙感圖像處理及應(yīng)用。
2013-08-27。
項(xiàng)目來源:國家自然科學(xué)基金資助項(xiàng)目(41201075);北京市教委資助項(xiàng)目(KM201210028012)。