廣東工業(yè)大學(xué) 黃昊楠
卷積神經(jīng)網(wǎng)絡(luò)已成功應(yīng)用于圖像分類。然而,訓(xùn)練傳統(tǒng)的卷積網(wǎng)絡(luò)模型需要花費大量的時間和計算內(nèi)存。半非負(fù)矩陣分解(Semi-NMF)是一種學(xué)習(xí)數(shù)據(jù)集特征表示的有用算法。本文提出了一種新的用于模式分類的約束半NMF神經(jīng)網(wǎng)絡(luò)(GSNnet)。GSNnet放棄了反向傳播過程,采用半NMF學(xué)習(xí)卷積濾波器。這種方法極大地降低了網(wǎng)絡(luò)復(fù)雜性。為了提高分類精度,我們還提出了圖正則化約束圖半NMF網(wǎng)絡(luò)。此外,我們在應(yīng)用中總是沒有太多的數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò),如何能利用已知標(biāo)簽信息顯得十分重要。為了處理上述情況,我們提出了一個標(biāo)簽約束的半NMF網(wǎng)絡(luò),它能夠結(jié)合標(biāo)簽信息。通過實驗比較了我們的方法與其他先進(jìn)的圖像分類任務(wù)模型。在STL-10數(shù)據(jù)集上的實驗結(jié)果證明了我們方法的有效性。
如何解決圖像分類問題一直是研究熱點。傳統(tǒng)的圖像分類思想是先提取圖像特征,然后進(jìn)行分類。經(jīng)典的特征提取模型,如尺度不變特征變換、Gabor特征和方向梯度直方圖描述子。它們都可以成功地處理不同的分類任務(wù),如人臉分類和對象識別。主成分分析和非負(fù)矩陣分解都是從圖像中學(xué)習(xí)低維特征的有效算法。然而,手工特征提取是一項繁重的任務(wù),手工特征不能簡單地轉(zhuǎn)移到新的數(shù)據(jù)集中,導(dǎo)致這些算法的泛化能力較弱。
近年來,深度學(xué)習(xí)已經(jīng)成為圖像分類中最重要的技術(shù),尤其是卷積神經(jīng)網(wǎng)絡(luò),因為它能有效地發(fā)現(xiàn)復(fù)雜的數(shù)據(jù)集結(jié)構(gòu)。與傳統(tǒng)模型不同,深度學(xué)習(xí)模型可以通過大量的訓(xùn)練自動學(xué)習(xí)數(shù)據(jù)的特征。因此,深度學(xué)習(xí)具有很強(qiáng)的適應(yīng)性和泛化能力,可以部署到圖像處理、自然語言處理等多種應(yīng)用場景中。經(jīng)典的卷積網(wǎng)絡(luò)包括LeNet,它是由LeCun等人提出來處理手寫數(shù)字?jǐn)?shù)據(jù)集的。AlexNet獲得了2012年大規(guī)模視覺識別挑戰(zhàn)(ILSVRC)的冠軍。值得一提的是,深度學(xué)習(xí)方法的訓(xùn)練是基于反向傳播算法的,這可能導(dǎo)致計算能力和時間消耗不足的挑戰(zhàn)。因此,結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)算法優(yōu)化深度學(xué)習(xí)模型成為新的研究熱點。
布魯納等人提出了小波散射網(wǎng)絡(luò)(ScatNet),并推導(dǎo)了一個明確的數(shù)學(xué)證明。ScatNet使用簡單的小波變換來學(xué)習(xí)卷積濾波器,并且在手寫數(shù)字?jǐn)?shù)據(jù)集上表現(xiàn)良好。受ScatNet的啟發(fā),Chan等人提出了一種新的卷積網(wǎng)絡(luò)——主成分分析網(wǎng)絡(luò)(PACNet),該網(wǎng)絡(luò)利用主成分分析提取卷積核。Kai等人提出了fisher PCA網(wǎng)絡(luò)(FPCANet),將PCA和LDA納入深度學(xué)習(xí)模型,并與其他深度學(xué)習(xí)模型競爭。Le等人提出了一種用于圖像分類的緊湊無監(jiān)督網(wǎng)絡(luò)(CUNet)。CUNet采用K-means算法作為卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法。
非負(fù)矩陣分解(NMF)是一種成功的特征提取算法,吸引了眾多研究者的關(guān)注。丁等人提出的半非負(fù)矩陣分解可以學(xué)習(xí)數(shù)據(jù)的低維表示,并被視為軟版本的K均值聚類。本文提出了一種新的深度學(xué)習(xí)基線——半NMF卷積神經(jīng)網(wǎng)絡(luò)(Semi-NMF network,SNnet),它利用半NMF來提取卷積核。該方法避免了傳統(tǒng)CNN中提取卷積濾波器需要大量訓(xùn)練的缺點。在輸出層,我們采用二值映射和直方圖統(tǒng)計的方法來解決卷積運(yùn)算帶來的高維問題。為了提高不同訓(xùn)練尺度下的分類精度,我們提出了帶圖約束和標(biāo)簽約束的神經(jīng)網(wǎng)絡(luò)(GSNnet)。我們工作的貢獻(xiàn)可以總結(jié)如下:
(1)我們將半NMF結(jié)合到卷積結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)中進(jìn)行圖像分類。半NMF可以有效地學(xué)習(xí)卷積濾波器,顯著降低計算量。
(2)我們將圖正則化約束與半NMF相結(jié)合,提出了基于神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)。為了充分利用標(biāo)簽信息,提出了一種新的模型——約束半NMF(GSN)模型,該模型將標(biāo)簽矩陣作為附加硬約束。實驗表明,我們的方法能夠在經(jīng)典的圖像分類任務(wù)中取得良好的性能。

圖1 提出的半非負(fù)矩陣分解網(wǎng)絡(luò)結(jié)構(gòu)
在本小節(jié)中,我們在STL-10數(shù)據(jù)集上進(jìn)行了實驗,以測試我們的模型在彩色數(shù)據(jù)集上的能力。STL-10包含5000個訓(xùn)練圖像和8000個測試圖像,屬于10個不同的類。數(shù)字卷積核設(shè)置為1=12和2=8,補(bǔ)丁大小設(shè)置為1=2=5。為了與其他作品進(jìn)行公平的比較,我們將STL-10中的每幅圖像降采樣為32×32×3,跟CUNet的設(shè)置一樣。我們使用支持向量機(jī)作為分類器,表1給出了不同方法在STL-10上的分類精度(%)。很明顯,我們的方法可以得到最先進(jìn)的結(jié)果。

表1 STL-10數(shù)據(jù)集上不同方法的精確度(%)