黃曉冬,孫亮,劉勝藍
(1.解放軍信息工程大學信息系統工程學院,450001,鄭州;2.大連理工大學電子信息與電氣工程學部,116024,大連)
?
一種判別極端學習的相關反饋圖像檢索方法
黃曉冬1,孫亮1,劉勝藍2
(1.解放軍信息工程大學信息系統工程學院,450001,鄭州;2.大連理工大學電子信息與電氣工程學部,116024,大連)
針對基于支持向量機(SVM)的相關反饋圖像檢索方法計算復雜度高、缺乏判別能力以及圖像特征提取不充分的問題,提出一種基于判別極端學習的相關反饋圖像檢索(DELM)方法。在圖像特征提取階段,通過連接圖像的顏色、紋理及邊緣直方圖實現圖像的特征提取,解決了以往多數檢索方法僅使用單一圖像特征造成的圖像描述不充分的問題;在檢索的反饋階段,將最大邊際準則(MMC)引入到極端學習機中,通過分析極端學習機隱層空間的類內離散度和類間離散度得到包含判別信息的分類模型,并給出降維和不降維兩種形式,以提高相關反饋圖像檢索系統的檢索能力。DELM方法能有效應用于基于內容的圖像檢索中,并顯著提高圖像檢索的性能。實驗結果表明,DELM方法和采用SVM、ELM和最小類別方差ELM的方法相比,在Corel-1K數據集下檢索平均準確率分別提高了11.06%、5.28%和6.40%。
圖像檢索;相關反饋;支持向量機;極端學習機;判別信息
近年來,隨著電子信息技術及互聯網圖像資源的迅速發展,人們對圖像檢索的需求越來越強烈。基于內容的圖像檢索方法(content-based image retrieval,CBIR)主要包含特征提取、高維特征向量降維、相似度匹配以及檢索結果分類等幾個環節,往往存在維度災難和語義鴻溝等問題。目前主要通過維數約簡方法來解決維度災難問題,而針對語義鴻溝問題,目前主流的方法是采用相關反饋技術(relevance feedback,RF),利用人的主觀認知能力提高CBIR系統檢索的準確性。
區別于傳統的CBIR只進行一次分類,RF-CBIR系統需要根據反饋回來的信息進行再學習。目前已有大量的相關反饋方法用于改善圖像檢索的性能。He等人提出一種半監督學習方法[1],在相關反饋中較好地保持了查詢圖像的局部空間信息。為解決排序問題,Kundu等人提出了一種基于圖的相關反饋圖像檢索機制[2],提高了檢索準確率。此外,基于支持向量機(support vector machine,SVM)的主動學習算法也被用于RF-CBIR中,如半監督的SVM批處理主動學習算法[3]、集成的SVM學習機[4]等。然而,由于RF-CBIR中有標簽的樣本數量很少,因此基于SVM的算法很難獲得令人滿意的分類結果。
近年來,基于極端學習機(extreme learning machine,ELM)的方法在高維數據的處理分類中得到了廣泛應用。Huang等人證明了通過隨機增加激活函數作為節點,SLFNs可以近似于任意的連續目標函數[5]。基于此,他們又提出了增量ELM算法[6]和凸增量ELM算法[7]。文獻[8]提出的魯棒的ELM算法改善了離群點問題對ELM算法精度的影響,但是沒有充分利用未標記樣本。文獻[9]提出了一種基于圖的半監督ELM算法,提高了ELM的泛化能力。除了上述關于ELM的理論改進之外,一些基于ELM方法的應用也相繼提出。文獻[10]提出一種魯棒的激活函數(robust activation function,RAF),該方法將Gaussian核函數中的歐氏距離轉化為余弦度量,避免了離群點對核函數的影響,提高了ELM算法的性能,并應用于人臉識別中。文獻[11]提出一種基于ELM的RF-CBIR系統框架,檢索性能明顯優于基于SVM的算法,但是該方法沒有利用數據的類判別信息。為處理人體運動識別中的分類問題,最小類別方差ELM算法(minimum class variance ELM,MCVELM)[12]將線性判決分析(linear discriminant analysis,LDA)引入到ELM隱層的特征值降維中,保證類內離散度最小來實現降維。基于此方法的啟發,并考慮到LDA容易出現小樣本問題,本文將最大邊際準則(maximum margin criterion,MMC)[13]引入到ELM中,提出一種包含判別信息的ELM算法(discriminative ELM,DELM)。該算法通過分析ELM隱層特征空間中的類內離散度和類間離散度得到了一種判別分類模型,增強了分類器的判別能力。實驗結果表明,本文算法能夠有效應用于圖像檢索,取得了較好的檢索結果,同時避免了小樣本問題。

(1)
式中:vj=[vj1,vj2,…,vjN]T為連接網絡第j個隱層節點和輸入節點的輸入權值;βj=[βj1,βj2,…,βjm]T為連接網絡第j個隱層節點和輸出節點的輸出權值;bj為第j個隱層節點的偏置值。
式(1)可以寫成矩陣形式O=Gβ,則網絡隱層輸出矩陣為

圖1 單隱層前饋神經網絡
(2)
(3)

(4)
式(4)可以利用梯度下降算法求解。由式(4)可知,SLFNs網絡的解可通過線性系統T=Gβ的最小二乘解得到β。
當網絡輸出節點選擇一個線性激活函數時,β可以通過β=G?T計算,其中G?=(GTG)-1GT是GT的MP廣義逆矩陣。G?可以利用奇異值分解法和最小二乘法計算。同時,為防止過擬合現象,希望求解的權值盡可能小,因此ELM的優化模型可以用下式表示
(5)
式中:ξi=[ξi,1,ξi,2,…,ξi,m]T是m個輸出節點關于訓練樣本xi的訓練誤差向量。式(5)可以通過拉格朗日方法轉化為無約束最優化問題求解β。
ELM算法可以概述如下:

(2)根據激活函數計算隱層輸出矩陣G;
(3)計算網絡輸出權值β=G?T。
2.1 LDA及MMC的優化模型

(6)


MMC中2個不同類的距離d(mi,mj)定義為
(7)

(8)

2.2 判別極端學習機(DELM)
傳統的ELM直接利用隱層輸出矩陣G計算輸出權值β。實際上,在ELM的隱層特征空間中有許多非常重要的結構。MCVELM算法[12]在ELM空間中只對訓練數據的類內離散度矩陣求最小化,與此對應,本文同時考慮最小化類內離散度,最大化類間離散度來構造一個基于ELM的分類器。



(9)

(10)
根據式(10)得到DELM分類器的輸出函數為

(11)

(12)
根據式(12)得到帶降維的DELM分類器的輸出函數為

(13)

2.3 基于DELM的反饋算法
在CBIR系統中基于SVM的相關反饋方法已經得到廣泛應用,然而,當SVM中特征維數非常大時引起的過擬合問題卻使系統性能不令人滿意。此外,SVM需要產生大量的支持向量,導致分類的時間復雜度增加。為了解決上述問題,本文針對CBIR系統提出了基于DELM的相關反饋方法。
在RF-CBIR系統中,用戶可以對上一步的檢索圖像進行標記。通過將檢索圖像作為訓練樣本再學習,可以得到一個基于DELM分類器的二分類學習算法。給定一個反復變換的樣本集(xi,ti),xi∈RD表示包含一幅圖像的顏色、紋理、形狀特征的特征向量,ti是xi的標簽,ti∈[1,-1],DELM分類器的輸出函數為f(xi)=(f1(xi),…,fm(xi))。然后,構造一個基于DELM算法的分類器,把剩余圖像分成相關類和不相關類。基于此原理,經過幾次反饋后,依據與查詢圖像的關聯度將圖像進行排序可以得到更好的結果。具體步驟如下:
(1)利用傳統的圖像檢索算法對查詢樣例進行檢索,得到前N幅圖像;
(2)通過用戶標注,將這N幅圖像分為兩類,相關的標記為正例集合U+,不相關的標記為負例集合U-;

(4)利用式(11)或(13)構造基于DELM算法的分類器;
(5)計算數據集中每幅圖像的輸出向量,通過選擇分類器f(xi)中輸出向量的第一個值得到與查詢圖像的相似距離,因此,每幅圖像的得分Ii可以表示為Ii=f1(xi);
(6)依據圖像的得分進行排序,并返回最新的檢索結果。
選擇Sigmoid函數作為ELM的激活函數。上述算法過程與基于SVM的相關反饋框架[15]十分相似,但是由于利用了ELM分類器,該算法比基于SVM的相關反饋要快幾千倍,并且在完成相同的任務時性能表現更好。實驗結果闡明了算法的有效性。圖2給出了基于DELM的RF-CBIR系統工作流程圖。

圖2 基于DELM的RF-CBIR系統工作流程圖
3.1 實驗設置
本實驗采用的圖像數據集為Corel-1K、Corel-5K和Corel-10K。Corel-1K包含10類總計1 000張圖片,有汽車、恐龍、食物等等。Corel-5K和Corel-10K數據集比Corel-1K更大。這3個數據集的基本信息如表1所示。

表1 實驗數據集分布


表2 圖像特征描述子的維數
3.2 實驗結果及分析
本實驗的數據集中的所有圖片都輪流作為查詢圖片。用于評價數據集的查準率和查全率的定義與文獻[18]一致。
表3為N=20時采用4種方法對2種特征在Corel-1K數據集上的檢索準確率比較。通過表3可以看到,在Corel-1K數據集中,多數情況下DELM要比SVM、ELM和MCVELM的性能更好,這主要是因為在DELM空間中圖像的類別能保持較好的結構。本文發現一個比較有意思的結果是MSD的檢索結果要優于FD1,這說明一個好的特征描述子對提高圖像檢索性能十分重要,達到較高的查準率所需要的反饋次數也更少。由于基于MSD的檢索結果非常相似,因此很難對基于MSD特征的相關反饋方法給進行評價,所以表4和表5只列出FD1特征的檢索結果來評價不同的相關反饋算法。
通過表3~5可以看到,第一次相關反饋的結果更利于評價相關反饋方法的性能。因此,在N為20、30、40、50,反饋次數為1時,給出不同數據集上基于FD1特征的不同方法的查準-查全率曲線,如圖3所示。從圖3可以看出:由于查找范圍與查全率是正相關的,因此隨著查全率的增加,參與反饋的樣本數增多,相關反饋效果越來越好,但是檢索平均準確率降低,這是因為檢索準確率和查全率成反比;DELM的效率和MCVELM相似,主要原因是這2種方法在實現降維時都有著相似的處理過程。DELM中降維的時間復雜度為O(D3),這是比ELM多出的額外時間,因此DELM需要花費更多的時間來得到反饋函數,但是這一點在圖像特征的維數不大(小于500)時的影響非常小。

表3 N=20時采用2種特征對4種方法在Corel-1K數據集上的檢索準確率比較
注:P、P1、P2、P3、P4分別表示原始圖像檢索準確率和經過1、2、3、4次相關反饋后的檢索準確率;黑體數據為比較最優值。
表4N=20時采用4種方法對FDI特征在Corel-5K數據集上的檢索準確率比較

方法P/%P1/%P2/%P3/%P4/%SVM24.7827.1229.1029.9330.35ELM24.7830.2634.1736.8139.41MCVELM24.7830.0433.7536.6638.83DELM24.7830.5134.1737.1439.73
表5N=20時采用4種方法對FDI特征在Corel-10K數據集上的檢索準確率比較

方法P/%P1/%P2/%P3/%P4/%SVM23.9025.8326.8427.2727.56ELM23.9027.1230.9233.2935.68MCVELM23.9026.5830.1133.3035.77DELM23.9027.1230.8633.2635.68

(a)Corel-1K

(b)Corel-5K

(c)Corel-10K圖3 反饋次數為1時在不同數據集上基于FD1特征的不同方法的查準-查全率曲線
本文深入分析了ELM特征空間的分類結構,并針對CBIR系統的相關反饋提出了一種判別極端學習的相關反饋圖像檢索方法-DELM。該方法的主要優點如下:①DELM包含了隱層特征空間的類內離散度和類間離散度,增強了基于ELM的相關反饋算法的判別能力;②DELM可以根據用戶需求選擇是否包含降維方法,避免了小樣本問題。基于標準數據集下的實驗結果表明,ELM的相關方法比基于SVM的方法更有效。此外,第一次的反饋結果也說明了圖像特征的提取在圖像檢索過程中的重要性。
[1] HE X. Incremental semi-supervised subspace learning for image retrieval [C]∥Proceedings of the 12th Annual ACM International Conference on Multimedia. New York, USA: ACM, 2004: 2-8.
[2] KUNDU M K, CHOWDHURY M, BULS R. A graph-based relevance feedback mechanism in content-based image retrieval [J]. Knowledge-Based Systems, 2015, 73: 254-264.
[3] HOI S C H, JIN R, ZHU J, et al. Semi-supervised SVM batch mode active learning for image retrieval [C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2008: 1-7.
[4] WANG X Y, CHEN J W, YANG H Y. A new integrated SVM classifiers for relevance feedback content-based image retrieval using EM parameter estimation [J]. Applied Soft Computing, 2011, 11(2): 2787-2804.
[5] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications [J]. Neurocomputing, 2006, 70(1): 489-501.
[6] HUANG G B, CHEN L, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes [J]. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892.
[7] HUANG G B, CHEN L. Convex incremental extreme learning machine [J]. Neurocomputing, 2007, 70(16): 3056-3062.
[8] HORATA P, CHIEWCHANWATTAN S, SUNAT K. Robust extreme learning machine [J]. Neurocomputing, 2013, 102: 31-44.
[9] LIU S, FENG L, XIAO Y, et al. Robust activation function and its application: semisupervised kernel extreme learning method [J]. Neurocomputing, 2014, 144: 318-328.
[10]馮林, 劉勝藍, 張晶, 等. 高維數據中魯棒激活函數的極端學習機及線性降維 [J]. 計算機研究與發展, 2014, 51(6): 1331-1340. FENG Lin, LIU Shenglan, ZHANG Jing, et al. Robust activation function of extreme learning machine and linear dimensionality reduction in high-dimensional data [J]. Journal of Computer Research and Development, 2014, 51(6): 1331-1340.
[11]LIU S, WANG H, WU J, et al. Incorporate extreme learning machine to content-based image retrieval with relevance feedback [C]∥Proceeding of the 11th World Congress on Intelligent Control and Automation. Piscataway, NJ, USA: IEEE, 2014: 1010-1013.
[12]IOSIFIDIS A, TEFAS A, PITAS I. Minimum class variance extreme learning machine for human action recognition [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(11): 1968-1979.
[13]LI H, JIANG T, ZHANG K. Efficient and robust feature extraction by maximum margin criterion [J]. IEEE Transactions on Neural Networks, 2006, 17(1): 157-165.
[14]HUANG G B, ZHOU H, DING X, et al. Extreme learning machine for regression and multiclass classification [J]. IEEE Transactions on Systems, Man, and Cybernetics: Part B Cybernetics, 2012, 42(2): 513-529.
[15]張磊, 林福宗. 基于支持向量機的相關反饋圖像檢索算法 [J]. 清華大學學報(自然科學版), 2002, 42(1): 80-83. ZHANG Lei, LIN Fuzong. Support vector machine based relevance feedback algorithm in image retrieval [J]. Journal of Tsinghua University (Science and Technology), 2002, 42(1): 80-83.
[16]OJALA T, PIETIKINEN M, MENPT. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[17]LIU G H, LI Z Y, ZHANG L, et al. Image retrieval based on micro-structure descriptor [J]. Pattern Recognition, 2011, 44(9): 2123-2133.
[18]LIU G H, YANG J Y, LI Z Y. Content-based image retrieval using computational visual attention model [J]. Pattern Recognition, 2015, 48(8): 2554-2566.
[本刊相關文獻鏈接]
周遠,周玉生,劉權,等.一種適用于圖像拼接的DSIFT算法研究.2015,49(9):84-90.[doi:10.7652/xjtuxb201509015]
毛彥斌,張選平,楊曉剛.偽DNA密碼圖像加密算法研究.2015,49(9):91-98.[doi:10.7652/xjtuxb201509016]
劉凱,張立民,孫永威,等.利用深度玻爾茲曼機與典型相關分析的自動圖像標注算法.2015,49(6):33-38.[doi:10.7652/xjtuxb201506006]
符均,牟軒沁,季文博.亮色分離的飽和圖像校正方法.2014,48(10):101-107.[doi:10.7652/xjtuxb201410016]
岳桂華,滕奇志,何小海,等.巖心三維圖像修復算法.2014,48(9):37-42.[doi:10.7652/xjtuxb201409007]
任茂棟,梁晉,唐正宗,等.數字圖像相關法中的優化插值濾波器.2014,48(7):65-70.[doi:10.7652/xjtuxb201407012]
靳峰,馮大政.利用空間序列描述子的快速準確的圖像配準算法.2014,48(6):19-24.[doi:10.7652/xjtuxb201406004]
張琳彥,朱利.以多幅圖像非幾何約束線段匹配重建建筑物外立面三維線段模型.2014,48(4):15-19+25.[doi:10.7652/xjtuxb201404003]
袁飛,朱利,張磊.利用超圖圖割的圖像共分割算法.2014,48(2):20-24.[doi:10.7652/xjtuxb201402004]
王芳梅,范虹,YiWANG.利用改進CV模型連續水平集算法的核磁共振乳腺圖像分割.2014,48(2):38-43.[doi:10.7652/xjtuxb201402007]
馬元魁,張樹生,白曉亮.用球面混合曲率圖像比較三角網格模型的相似性.2012,46(5):97-101.[doi:10.7652/xjtuxb 201205017]
史金鋼,齊春.一種雙約束稀疏模型圖像修復算法.2012,46(2):6-10.[doi:10.7652/xjtuxb201202002]
吳攀超,王宗義,林欣堂.采用局部差分模型描述的彩色圖像配準技術.2011,45(10):30-37.[doi:10.7652/xjtuxb201110 006]
徐勝軍,韓九強,趙亮,等.用于圖像分割的局部區域能量最小化算法.2011,45(8):7-12.[doi:10.7652/xjtuxb201108 002]
羅濤,牟軒沁.一種胸部X射線攝影圖像中結節檢測的多尺度匹配濾波器.2011,45(4):30-35.[doi:10.7652/xjtuxb 201104006]
趙海峰,姚麗莎,羅斌.改進的人工魚群算法和Powell法結合的醫學圖像配準.2011,45(4):46-52.[doi:10.7652/xjtuxb201104009]
陳蓉,孫劍,徐宗本.彩色圖像分割中基于圖上半監督學習算法研究.2011,45(2):11-14.[doi:10.7652/xjtuxb201102003]
(編輯 劉楊)
A Retrieval Method of Relevance Feedback Images Based on Discriminative Extreme Learning
HUANG Xiaodong1,SUN Liang1,LIU Shenglan2
(1. Institute of Information System Engineering, PLA Information Engineering University, Zhengzhou 450001, China; 2. Faculty of Electronic Information and Electrical Engineering, Dalian University of Technology, Dalian 116024, China)
A novel retrieval method of relevance feedback images based on discriminative extreme learning, named DELM, is proposed to concern the high computational complexity, low discriminant ability and insufficient image feature extraction of content-based image retrieval (CBIR) with the relevance feedback (RF) methods based on support vector machine (SVM). The proposed method extracts image features in the phase of image feature extraction through color, texture and edge histogram of the image to solve the problem that image feature extraction of the existing methods that based on single feature is insufficient. A maximum margin criterion (MMC) is introduced to extreme learning machine (ELM) in the phase of retrieval feedback. A classification model including discriminative information is obtained through analyzing discrete degrees within and between scatters of feature space in ELM hidden layer, and two versions of DELM are proposed to improve the retrieval performance of RF based image retrieval system, that is, a dimension reduction free based version and a dimension reduction based version. The DELM method is effectively applied to CBIR, and significantly improves the quality of retrieval performance. Experimental results on Corel-1K dataset and comparisons with the methods using SVM, ELM, and minimum class variance ELM (MCVELM) show that the average retrieval precision of the DELM method increases by about 11.06%, 5.28% and 6.40%, respectively.
image retrieval; relevance feedback; support vector machine; extreme learning machine; discriminative information
10.7652/xjtuxb201608016
2016-03-20。 作者簡介:黃曉冬(1991—),男,碩士生;孫亮(通信作者),男,教授。 基金項目:國家自然科學基金資助項目(61372172)。
時間:2016-06-28
http:∥www.cnki.net/kcms/detail/61.1069.T.20160628.2026.002.html
TP391
A
0253-987X(2016)08-0096-07