陶筱嬌, 王鑫
(陜西科技大學 電氣與信息工程學院, 西安 710021)
隨著圖像采集設備種類的不斷增多,以及圖像處理技術的不斷成熟,每天每一個領域均有大量的圖像產生,使得圖像以海量的形式存在[1]。圖像作為一種重要的信息載體,成為人們獲取和傳輸信息的一種重要形式。對于海量圖像,每一個用戶真正需要的圖像數量卻很少,因此要在有效時間內找到用戶自己需要的圖像具有十分重要意義[2]。圖像分類算法是提高圖像檢索效率的重點,因此圖像分類研究一直是人們關注的熱點[3]。
圖像分類涉及到許多技術,如圖像預處理,圖像特征提取,圖像類別的標注,圖像分類器的構建,它們均會對圖像分類效果產生一定的影響[4]。國內外學者對圖像分類問題進行了幾十年的研究,提出了許多圖像分類方法[5,6]。最初圖像分類基于人工方式提取圖像分類的特征,然后通過人工方式對圖像進行標記,最后設計圖像分類器,該方法對于簡單圖像來說,可以獲得較好的圖像分類結果[7-9]。對于復雜圖像,人工方法存在許多明顯的缺陷;隨后有學者提出基于機器學習的圖像自動分類方法,如K最近鄰算法、支持向量機等,其中K最近鄰算法是一種監督學習算法,通過距離度量技術從訓練圖像樣本中找到與待測試圖像最相似的K個樣本,然后根據這K個樣本的信息確定待測試圖像的類別,但其學習能力有限,圖像分類的誤差大。支持向量機是半監督學習算法,通過構建最優分類超平面將圖像劃分為不同類別,圖像分類準確性要優于K最近鄰算法,但對于大規模圖像來說,支持向量機的分類效果低,要對圖像進行準確分類則顯得有點力不從心[10-12]。深度學習算法是在傳統神經網絡基礎上發展起來的一類新型機器學習算法,通過多層次網絡對大規模數據進行學習,加快了建模速度,在語音識別、生物信息等領域得到廣泛的應用[13]。
為了解決當前圖像分類方法存在的一些難題,以進一步提高圖像分類的效果,提出了基于深度學習算法的圖像分類方法,在Matlab 2016平臺與經典圖像分類方法的性能進行仿真對照實驗,結果表明,本文方法的圖像分類準確性明顯更優,圖像分類的平均時間大幅度降低,圖像分類整體結果得到了有效改善。
在基于深度學習算法的圖像分類方法工作過程,包括了許多關鍵技術,其中特征和分類器最為關鍵,下面主要描述這兩方面的內容。
小波分析通過收縮或者平移對圖像進行多尺度分解,得到高頻系數和低頻系數,其中低頻系數包含圖像的大量有用信息,因此將低頻系數作為圖像分類的特征向量。一維信號:f(t)∈L2(R),在子空間Vm+1中進行標準正交基展開,可得到式(1)。
(1)
式中,cm+1=〈f,φm+1〉。
因為Vm+1=Vm⊕Wm,cmk和dmk分別表示m尺度上的尺度系數和小波系數,那么f(t)可以描述為式(2)。
(2)

cmk和dmk的計算公式分別如下式(3)、式(4)。
(3)

(4)

圖像f(x,y)是一種二維信號,因此需要建立二維尺度函數,具體為式(5)。
φ(x,y)=φ(x)φ(y)
(5)
二維小波變換的三組正交基函數具體為式(6)~式(8)。
Ψ1(x,y)=φ(x)Ψ(y)
(6)
Ψ2(x,y)=Ψ(x)φ(y)
(7)
Ψ3(x,y)=Ψ(x)Ψ(y)
(8)

A1f(x,y)=〈f(x,y),2-jφ(2-ix-b1)φ(2-jx-b1)〉
(9)
(10)

(11)

(12)
對一幅圖像,采用二維小波分析進行一次變換,結果如圖1所示。

(a) 原始圖像(b) 分解后的圖像
圖1 圖像的二維小波變換
對圖1進行仔細分析可以發現,低頻子圖像保存了原始圖像的主要特征,因此將其作為圖像分類特征,但是原始圖像分類特征維數相當高,為了降低圖像維數,提高圖像分類效率,對原始圖像的特征向量進行主成分分析處理,選擇原始圖像特征向量的主成分。
2.2.1 深度學習算法
廣義回歸神經網絡是一種深度學習算法,非線性分類能力強,而且學習速度快,經典結構為4層,具體如圖2所示。

圖2 廣義回歸神經網絡的結構
設廣義回歸神經網絡的輸入和輸出向量分別為:X=(x1,x2,…,xn)T和Y=(y1,y2,…,yk)T,它們聯合概率密度函數為f(x,y),y的X的回歸結果計算公式具體如下式(13)。
(13)

然而,這篇論文的主要成果不僅是有關自由運動的各項參數,更重要的是探索它、論證它的過程。大家需要明白這一點:對于我們這些年輕人來說,異想天開是十分必要的,但是運用我們所學的知識對我們所異想天開的事物進行研究、拓展是更為必要的。如果單純空想而不進行研究與論證,我們將永遠無法獲得真正的知識。

(14)
式中,p為特征維數。

(15)

(16)
(1) 通過一定的技術采集圖像,對圖像進行消噪、歸一化、增強等預處理,以增強圖像質量。
(2) 采用二維小波變換對增強后圖像進行細化處理,將低頻系數作為圖像分類的特征向量。
(3) 采用主成分分析對原始圖像分類的特征進行處理,提取最有效的圖像分類特征,組成特征向量。
(4) 將最有效的圖像分類特征作為廣義回歸神經網絡輸入,通過專家對圖像類別進行標記,作為廣義回歸神經網絡輸出,建立圖像分類的訓練樣本集。
(4) 根據訓練樣本集,通過對廣義回歸神經網絡進行學習,建立圖像分類的分類器。
(5) 對于待分類圖像,進行圖像預處理、特征提取和選擇等步驟,并輸入圖像分類器進行分類,得到圖像劃分的類別,并對圖像劃分的類別進行統計和分析。
綜合上述圖像分類步驟可知,深度學習算法的圖像分類原理如圖3所示。

圖3 深度學習算法的圖像分類原理
為了分析基于深度學習算法的圖像分類方法有效性,ImageNet數據庫是目前最大的圖像分類數據庫,為此本文選擇ImageNet數據庫作為實驗對象,由于ImageNet數據庫中的圖像數量太大,本文隨機選擇5%進行仿真實驗。仿真實驗硬件環境為:Intel酷睿i3-6100 CPU、芝奇Ripjaws4 DDR4 8G RAM、索泰GTX1050Ti X-Gaming 顯卡、英特爾 600P 256G 硬盤,在Matlab 2016平臺編程實現圖像分類,其中每一類圖像選擇4幅圖像作為測試樣本,其它圖像作為訓練樣本。
選擇K最近鄰算法(KNN)、支持向量機的圖像分類方法在相同實驗環境下進行對照測試,每一種圖像分類方法均進行5次仿真實驗,統計每一次圖像分類的正確率,分類正確率如圖4所示。

圖4 學習深度算法與其它方法的圖像分類正確率對比
對圖4的圖像分類結果進行分析,可以發現:
(1) K最近鄰算法的圖像分類正確率最低,出現許多圖像錯分現象,這主要是因為K最近鄰算法只選擇K個最相近的訓練樣本,無法全面描述待分類圖像的整體內容,難以獲得理想的圖像分類結果。
(2) 支持向量機的圖像分類正確率要高于K最近鄰算法,這是因為支持向量機是一種基于結構風險最小化原理的機器學習算法,分類性能更優,可以更好描述圖像包含的信息,降低了圖像出現錯分的概率,使圖像分類正確率得到了提高。
(3) 深度學習算法的圖像分類正確率最高,圖像分類結果十分穩定,主要是由于廣義回歸神經網絡算法可以準確描述圖像分類輸入特征向量和圖像類別間的映射關系,可以區別各種類別的圖像分類,獲得了最優的圖像分結果,克服了K最近鄰算法和支持向量機的不足,實驗結果驗證了深度學習算法用于圖像分類的優越性。
深度學習算法與其它方法的圖像分類時間(秒,s)對比結果如表1所示。

表1 學習深度算法與其它方法的圖像分類時間對比
從表1可知,本文方法的圖像分類時間明顯少于支持向量機,也略少于K最近鄰算法,這主要是廣義神經網絡的學習速度快,提高了圖像分類的效率。
為了解決當前圖像分類過程存在一些難題,如錯分概率高等,提出了深度學習算法的圖像分類方法,通過引入深度學習算法的廣義回歸神經網絡建立圖像分類器,與K最近鄰算法和支持向量機的圖像分類對照結果可知,深度學習算法的圖像分類結果整體性能更優,更加符合現代大規模圖像分類的要求,在圖像處理中具有廣泛的應用前景。