王春華, 韓 棟
(黃淮學(xué)院 a. 動(dòng)畫(huà)學(xué)院, b. 信息工程學(xué)院, 河南 駐馬店 463000)

算法利用多層卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)圖像屬性的抽象和學(xué)習(xí),構(gòu)建了從像素到特征,再到屬性的三級(jí)語(yǔ)義層次模型,利用稀疏表示方法深入挖掘圖像類(lèi)與圖像屬性之間的內(nèi)在聯(lián)系,結(jié)合先驗(yàn)知識(shí)得到圖像屬性分類(lèi)器.整個(gè)分類(lèi)算法由圖像預(yù)處理、屬性分類(lèi)器訓(xùn)練、屬性預(yù)測(cè)、相關(guān)性知識(shí)挖掘和樣本學(xué)習(xí)五部分組成.在圖像預(yù)處理階段主要采用特定的處理方法消除圖像冗余信息和像素之間的相關(guān)性,算法采用ZCA白化實(shí)現(xiàn).在屬性分類(lèi)器訓(xùn)練階段將圖像對(duì)象類(lèi)具有多個(gè)屬性的情況轉(zhuǎn)換成多個(gè)單屬性問(wèn)題求解,利用多個(gè)卷積層和池化層疊加形成的深度卷積神經(jīng)網(wǎng)絡(luò)模型得到圖像深度屬性預(yù)測(cè)模型,采用有監(jiān)督的訓(xùn)練方式對(duì)屬性分類(lèi)器進(jìn)行訓(xùn)練.在屬性預(yù)測(cè)階段利用前一階段中得到的圖像深度屬性預(yù)測(cè)模型對(duì)測(cè)試圖像集進(jìn)行屬性預(yù)測(cè),得到測(cè)試圖像集和各個(gè)屬性之間的對(duì)應(yīng)關(guān)系.在相關(guān)性知識(shí)挖掘階段利用稀疏表示模型計(jì)算圖像屬性與圖像類(lèi)別之間的相關(guān)性.在樣本學(xué)習(xí)階段結(jié)合屬性預(yù)測(cè)階段得到的圖像深度屬性預(yù)測(cè)值和屬性類(lèi)別之間的稀疏表示系數(shù),采用直接屬性預(yù)測(cè)模型實(shí)現(xiàn)圖像分類(lèi).算法的總體流程如圖1所示.
訓(xùn)練用圖像集表示為P={p1,p2,…,pe},pi∈Rw×w×c,其中,w表示圖像的大小,c表示圖像 的通道.為了消除光照等外部因素對(duì)圖像的影響,需要對(duì)圖像進(jìn)行歸一化處理,得到歸一化的圖像集為Γ={q1,q2,…,qe},qi∈Rw×w×c.歸一化公式為

圖1 算法總體流程圖Fig.1 Overall flow chart of algorithm
(1)
式中:mean()為均值計(jì)算;var()為方差計(jì)算;ε為歸一化因子,用于防止分母出現(xiàn)0的情況,并在一定程度上抑制實(shí)驗(yàn)過(guò)程中產(chǎn)生的噪聲.
歸一化圖像集采用ZCA對(duì)圖像進(jìn)行白化處理,降低特征之間的相關(guān)性,減輕信息冗余度,并且使白化后的數(shù)據(jù)最大程度上接近原始數(shù)據(jù).將每個(gè)圖像qi變換成列向量li,li的長(zhǎng)度為w×w×c.將所有圖像列向量組成矩陣Ψ并求該矩陣的協(xié)方差矩陣C=cov(Ψ),對(duì)C進(jìn)行特征值分解[V,D]=eig(C).基于特征值分解結(jié)果對(duì)Ψ進(jìn)行縮放操作,其表達(dá)式為

(2)
式中:ξ為白化因子,作用與ε相同;diag(V)為取對(duì)角線元素.最后對(duì)矩陣ΨPCAwhite進(jìn)行白化處理,得到圖像的白化處理結(jié)果矩陣ΨZCAwhite,其處理公式為
ΨZCAwhite=ΨPCAwhiteVT
(3)
每個(gè)圖像包含多個(gè)屬性特征,算法對(duì)每個(gè)屬性特征設(shè)計(jì)一個(gè)基于深度卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)器,再將每個(gè)分類(lèi)器的結(jié)果進(jìn)行組合得到最終的屬性預(yù)測(cè)結(jié)果.每個(gè)圖像深度屬性預(yù)測(cè)模型由輸入層、特征提取層和輸出層組成,輸入層用于接收經(jīng)過(guò)ZCA白化后的圖像數(shù)據(jù),輸出層為L(zhǎng)ogistic二值分類(lèi)器,1和0分別表示圖像是否具有該屬性.特征提取層以一個(gè)卷積層和一個(gè)池化層構(gòu)成基本單元,包括多個(gè)基本單元.卷積層利用卷積核對(duì)輸入進(jìn)行卷積操作得到特征圖.由于圖像是RGB圖像,因此,每個(gè)輸入圖像xi和卷積核都是三維的,將每個(gè)卷積核與對(duì)應(yīng)的各維輸入圖像進(jìn)行卷積,并疊加相應(yīng)的偏差項(xiàng)得到特征圖,即

(4)
(5)
采用后向傳播算法對(duì)卷積核k和偏置系數(shù)b等參數(shù)進(jìn)行訓(xùn)練.對(duì)于全連接神經(jīng)網(wǎng)絡(luò),用Wl表示第l層與第l-1層之間的連接權(quán)值,B為偏置系數(shù)向量,則第l層的輸出向量也可表示為
Xl=f(WlXl-1+Bl)
(6)
定義神經(jīng)元靈敏度δl和平方誤差代價(jià)函數(shù)Ed分別為
δl=f ′(WlXl-1+Bl)(Yn-Tn)
(7)

(8)


(9)

(10)

(11)
(12)
得到各參數(shù)的梯度值后,采用基于Dropout的隨機(jī)批量梯度下降法對(duì)網(wǎng)絡(luò)中各參數(shù)進(jìn)行迭代更新,直到模型收斂到誤差不再減小時(shí)停止,得到最終的神經(jīng)網(wǎng)絡(luò)各參數(shù)值.


(13)
(14)



(15)
在訓(xùn)練階段,算法采用圖像深度屬性預(yù)測(cè)模型訓(xùn)練多個(gè)屬性分類(lèi)器.在測(cè)試階段,利用訓(xùn)練階段得到的屬性分類(lèi)器計(jì)算測(cè)試樣本屬性a的概率p(ax),其表達(dá)式為
(16)
從屬性a到分類(lèi)標(biāo)簽z可表示為
(17)
式中,p(az)可以看作先驗(yàn)知識(shí),并且有
(18)

(19)
在判斷圖像的具體所屬類(lèi)時(shí),通過(guò)判斷圖像樣本在哪個(gè)類(lèi)別標(biāo)簽下的p(zx)最大,即可認(rèn)為該圖像樣本屬于相應(yīng)的類(lèi),即
(20)
為了驗(yàn)證算法的合理性和準(zhǔn)確性,選擇Shoes數(shù)據(jù)集作為測(cè)試對(duì)象.在Shoes數(shù)據(jù)集中選取每個(gè)Shoe的前1 000幅圖像作為實(shí)驗(yàn)對(duì)象.深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)置為5層,下采樣系數(shù)為0.25,ZCA白化因子為0.1,歸一化因子為5.
該實(shí)驗(yàn)的目的是驗(yàn)證在有監(jiān)督條件下的屬性預(yù)測(cè)精度.從Shoes數(shù)據(jù)集中選擇8 000幅圖像作為訓(xùn)練樣本,再另選4 500幅作為測(cè)試樣本.選擇pointy、open、bright、covered、shiny、high、long、formal、sporty、feminine作為實(shí)驗(yàn)處理屬性,隨著運(yùn)算次 數(shù)的增加,各屬性的預(yù)測(cè)精度如圖2所示.由圖2可知,隨著運(yùn)算次數(shù)的增加,各個(gè)屬性的預(yù)測(cè)精度趨于收斂,當(dāng)運(yùn)算次數(shù)增加到一定次數(shù)時(shí),屬性預(yù)測(cè)精度穩(wěn)定地收斂于特定值.

圖2 屬性預(yù)測(cè)精度Fig.2 Attribute prediction accuracy
將本文算法與支持向量機(jī)SVM和深度置信網(wǎng)絡(luò)DBN進(jìn)行對(duì)比,驗(yàn)證該算法的性能.實(shí)驗(yàn)中DBN由兩層受限波爾茲曼機(jī)構(gòu)成,輸入數(shù)據(jù)與本文算法相同.SVM采用基于χ2核函數(shù)的非線性支持向量機(jī),可分為兩種情況,第一種情況是輸入數(shù)據(jù)與本文算法相同,記為SVM_1.第二種情況是輸入數(shù)據(jù)為原始數(shù)據(jù)降維后的特征提取結(jié)果,記為SVM_2.屬性預(yù)測(cè)結(jié)果如表1所示.

表1 屬性預(yù)測(cè)結(jié)果Tab.1 Attribute prediction results
由實(shí)驗(yàn)結(jié)果可知,由于DBN模型無(wú)法構(gòu)建深層網(wǎng)絡(luò)結(jié)構(gòu),只有兩層受限波爾茲曼機(jī)的DBN模型在屬性預(yù)測(cè)方面的準(zhǔn)確度低于本文算法的屬性預(yù)測(cè)準(zhǔn)確度.此外,兩種SVM模型在屬性預(yù)測(cè)方面的準(zhǔn)確度也低于本文算法的屬性預(yù)測(cè)準(zhǔn)確度,并且SVM_2的準(zhǔn)確度高于SVM_1的準(zhǔn)確度,這表明SVM模型更適用于已經(jīng)提取好的特征.因此,本文算法具有最好的屬性預(yù)測(cè)效果.
從Shoes數(shù)據(jù)集中選擇6種鞋子(flats、rain-boots、stiletto、clogs、high-heels、sneaker)作為訓(xùn)練類(lèi)別,再選4種鞋子(boots、pumps、athletic-shoes、wedding-shoes)作為測(cè)試類(lèi)別,則這10種類(lèi)別共有210種組合方式.實(shí)驗(yàn)前排除掉訓(xùn)練樣本中只包括正樣本或負(fù)樣本等對(duì)分類(lèi)無(wú)貢獻(xiàn)的極端組合方式,可用的組合方式剩余104種,在這些剩余的組合中隨機(jī)選擇10組進(jìn)行多次實(shí)驗(yàn).采用與前述實(shí)驗(yàn)相同的DBN和SVM模型作為對(duì)比,在零樣本情況下的平均預(yù)測(cè)精度如表2所示.某次實(shí)驗(yàn)的屬性預(yù)測(cè)精度如圖3所示.
由平均屬性預(yù)測(cè)精度和某次實(shí)驗(yàn)屬性預(yù)測(cè)精度可知,在零樣本的情況下,屬性預(yù)測(cè)精度普遍低于有監(jiān)督情況下屬性預(yù)測(cè)精度.雖然在sporty等個(gè)別屬性時(shí)本文算法的預(yù)測(cè)精度小于對(duì)比算法模型,但是在大部分屬性中本文算法均優(yōu)于對(duì)比算 法模型,因此在零樣本情況下,本文算法同樣具有最強(qiáng)的屬性學(xué)習(xí)能力.

圖3 單次實(shí)驗(yàn)屬性預(yù)測(cè)精度Fig.3 Attribute prediction precisionof single experiment
4種算法在零樣本下的圖像分類(lèi)平均識(shí)別率為:本文算法為52.3%,DBN為37.1%,SVM_1為29.4%,SVM_2為35.4%.某次實(shí)驗(yàn)對(duì)4類(lèi)鞋的分類(lèi)結(jié)果如圖4所示.圖4中,橫軸表示每類(lèi)鞋的分類(lèi)數(shù),縱軸表示每類(lèi)鞋的實(shí)際樣本數(shù),例如,在圖4a中,athletic_shoes的樣本數(shù)為1 000,其中分類(lèi)為athletic_shoes為202張,boots為189張,pumps為17張,wedding_shoes為592張,即對(duì)角線上元素為正確分類(lèi)的數(shù)量,其余元素為錯(cuò)誤分類(lèi)的數(shù)量.由圖4可知,本文算法在對(duì)角線上元素之和大于DBN和兩種SVM對(duì)角線元素之和,表明本文算法的正確分類(lèi)識(shí)別率高于DBN和兩種SVM算法.
本文提出了一種深度學(xué)習(xí)結(jié)合知識(shí)挖掘的零樣本圖像自適應(yīng)控制分類(lèi)算法.該算法采用有監(jiān)督學(xué)習(xí)的方式對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并且利用無(wú)監(jiān)督訓(xùn)練和BP算法的方式實(shí)現(xiàn)卷積核的學(xué)習(xí),設(shè)置多個(gè)卷積層和池化層相堆疊來(lái)進(jìn)行 圖像深層特征和屬性的預(yù)測(cè),結(jié)合稀疏表示的方法對(duì)屬性先驗(yàn)知識(shí)進(jìn)行挖掘并將結(jié)果用于分類(lèi)器自適應(yīng)加權(quán)控制處理.實(shí)驗(yàn)結(jié)果表明,同DBN和SVM算法相比,本文算法具有更高的屬性預(yù)測(cè)精度.在零樣本情況下對(duì)Shoes數(shù)據(jù)集進(jìn)行分類(lèi)時(shí),該算法具有最高的準(zhǔn)確分類(lèi)識(shí)別率,較對(duì)比算法正確分類(lèi)識(shí)別率提高了15%.

圖4 單次實(shí)驗(yàn)分類(lèi)結(jié)果Fig.4 Classification results of single experiment
參考文獻(xiàn)(References):
[1] Song B,Li J,Mura M D,et al.Remotely sensed image classification using sparse representations of morphological attribute profiles [J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(8):5122-5136.
[2] Cavallaro G,Mura M D,Benediktsson J A,et al.Remote sensing image classification using attribute filters defined over the tree of shapes [J].IEEE Transactions on Geoscience and Remote Sensing,2016,54(7):3899-3911.
[3] 牛連強(qiáng),趙子天,張勝男.基于Gabor特征融合與LBP直方圖的人臉表情特征提取方法 [J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào),2016,38(1):63-68.
(NIU Lian-qiang,ZHAO Zi-tian,ZHANG Sheng-nan.Extraction method for facial expression features based on Gabor feature fusion and LBP histogram [J].Journal of Shenyang University of Technology,2016,38(1):63-68.)
[4] Li G,Chang K,Hoi S C H.Multiview semi-supervised learning with consensus [J].IEEE Transactions on Knowledge and Data Engineering,2012,24(11):2040-2051.
[5] Pan S J,Yang Q.A survey on transfer learning [J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.
[6] 牛連強(qiáng),陳向震,張勝男,等.深度連續(xù)卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建與性能分析 [J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào),2016,38(6):662-666.
(NIU Lian-qiang,CHEN Xiang-zhen,ZHANG Sheng-nan,et al.Model construction and performance analysis for deep consecutive convolutional neural network [J].Journal of Shenyang University of Technology,2016,38(6):662-666.)
[7] Xia J,Mura M D,Chanussot J,et al.Random subspace ensembles for hyper spectral image classification with extended morphological attribute profiles [J].IEEE Transactions on Geoscience and Remote Sen-sing,2015,53(9):4768-4786.
[8] Kovashka A,Parikh D,Grauman K.Whittle search:interactive image search with relative attribute feed-back [J].IEEE International Transactions on Computer Vision,2015,115(2):185-210.
[9] Lampert C H,Nickisch H,Harmeling S.Attribute-based classification for zero-shot visual object categorization [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(3):453-465.
[10]Fu Y,Hospedales T M,Xiang T,et al.Transductive multi-view zero-shot learning [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(11):2332-2345.