茹鮮古麗·蘇來滿
摘要:隨著我國科學技術的不斷發展演變,深度卷積神經網絡在流行全球的深度學習領域中顯得尤為活躍,它擁有傳統機器無法比擬的豐富網絡結構。特別是在模型和算法上對計算機視覺識別能力的提高起到重要作用。基于此,本文將對深度卷積神經網絡在計算機視覺中的應用進行研究。
關鍵詞:神經網絡 計算機視覺 深度卷積
一、深度卷積神經網絡
卷積神經網絡可理解成是一種前饋網絡,屬于人工神經網絡的一種。在網路中,每個神經元相繼從輸入層開始逐級傳遞,最終達到輸出層,這種傳遞是不可逆的,即它只朝著一個方向傳遞,所以無法形成循環,也就是沒有周期性。
二、深度卷積神經網絡在計算機視覺中的應用
(一)卷積神經網絡的原理和結構
計算機圖像識別是通過卷積神經網絡的三個層次結構(卷積層、池化層、全連接層)的堆疊來實現的。
1. 卷積層
上圖所描述的是卷積層對原始圖像的處理結果,卷積的過程也是圖像特征提取的過程。
圖中5×5的格子表示原始圖像,黃色小九宮格(3×3)代表一個濾波器覆蓋原始圖像的范圍(它的大小可以通過人工來設置)。并伴隨著處理的進程,不斷沿著圖像的長和寬,以單位距離滑動,即如果設置滑動距離為1,那么濾波器每次就會移動1個小方格。右側的圖表示對圖像處理的卷積結果。隨著濾波器在原始圖像中不斷滑動,逐漸形成一個二維激活圖像。
這里我們會發現,得到的輸出圖像明顯小于原始圖像。也就是說,在每次卷積之后,輸出的尺寸會減少。為了讓輸出圖像尺寸與原始圖像尺寸相同,我們可以在輸出圖像的邊界添加數字0。結合上面的例子,我們把3×3圖片的每條邊上添加2排0,那么根據公式[(N-F +2P)/S]+1,就會得出與原始圖像一樣的尺寸。其中,N=原始圖像邊長;F=濾波器的邊長;P=添加0的長度;S=濾波器滑動距離。但濾波器所提取的只是原始局部圖像,其中輸出深度與使用的濾波器的數量保持一致。
2. 池化層
與卷積層的濾波器作用相同,池化層同樣有個可滑動的操作窗口,通過窗口的滑動來獲得輸入結果,但這種輸出是在窗口大小的原始信息中提取最大值(最常見的池化有平均池化和最大池化,其中最大池化是最常使用的)為什么是2×2的窗口?因為在池化層中,這個比例的窗口是最常用的,而且人工設置的滑動距離也是2。但這樣的池化效果會有效嗎,畢竟操作過程中,失去了更多的內容。根據卷積神經網絡的性質來分析,被檢測的局部圖片特征,可以判斷圖片的類別。也可以理解成,由于圖像中局部領域具有一定的特征,并利用圖片特征的不變性,即通過向下采樣,來保證圖片的性質基本不變。
3. 全連接層
經過多輪的卷積層和池化層的處理之后,原始圖像中的信息被抽象成為信息含量更高的特征圖像,也就是輸出圖像。整個過程,就是卷積層和池化層對原始信息逐層提取圖像特征的過程。
原始輸入圖是一張28×28大小的圖像,其中卷積層C1有6個5×5的濾波器,因為卷積層C1輸出6個大小的特征圖(公式為28-5+1=24,24×24,該數值代表每條邊的長度)。
然后經過池化層S1(我們假設池化層S1進行平均值池化),中間的加偏置(每種特征圖有一個偏置)和Sigmoid函數激活操作省略,只是對卷積和池化過程做闡述。因此,池化層S1輸出的6個特征圖大小為(12×12)。
接下來,在卷積層C2中,就會輸入6個特征圖,但與卷積層C1是不一樣的,因為卷積層C1只有一個特征圖,而卷積層C2有12個5×5濾波器,每個濾波器會與上一層(即S1層)的6個特征圖分別做卷積(根據實際情況也可以挑選幾種特征圖來做卷積),然后將得出的6個結果進行求和計算,進而形成一個新的特征圖。也就是說,卷積層C2有12個大小為(12-5+1=8,8×8)的特征圖,并進入池化層S2。
同樣道理,S2層有12個大小為(4×4)的特征圖。輸出層把S2層的特征圖變成一個向量,該向量的長度等于192(12×4×4),并把該向量當成一個輸入點,進一步與下面的其它層進行全連接和分類等操作。
簡單總結一下就是,卷積神經網絡(Convolutional Neural Network,CNN),是把一個原始圖像,經過多次卷積和池化后,逐漸轉變成一個向量,然后將該向量與其他網絡相連接。
(二)圖像分類
我們在對卷積神經網絡應用于圖像進行分類時,通常會在神經網絡的最后一層,即全連接層的后面接一個Softmax分類器用于圖像標簽的預測。所謂的圖像分類就是,通過將圖像集合對比分析,然后根據具體圖像特點,進行若干個不同種類的劃分操作,這個過程被稱作圖像分類。一般的圖像分類方式會涉及到較為復雜的函數計算,這里不做詳細說明。
為了對圖像分類算法進行合理性評估,從2012年起,每年都會舉辦圖像分類競賽。以SIFT和LBP為例,通過對圖像特征進行信息提取,然后將提取結果應用到具體分類器中,在2010年和2011年的競賽中,使用這種方法將錯誤率控制在26.7%,這是一個十分了不起的成就。但更令人驚訝的事情還在后面,隨著Alex在2012年的競賽中提出AlexNet,通過在圖像分類中應用深度學習,以創紀錄的成績取得第一名(錯誤率在16.3%),這個成績比前一年下降近11個百分點。從2012年開始,深度學習模型在圖像識別中大展拳腳,逐漸得到更廣泛的認可。
(三)物體監測
由于計算機視覺領域的特殊性,使物體監測過程變得十分復雜。因為從計算機的視角出發,一張圖像,物體會以多種類型呈現,這就需要對所有類型的圖像一一進行識別,并單獨定位,在無形中增加了工作量,而且還不一定能夠保證效果質量。目前看來,將卷積神經網絡應用于物體模型檢測存在以下兩個問題:一個是在選擇區域進行分類與總結;另一個是如何進行區域選擇,因此物體檢測工作與圖像分類工作相比,其難度可想而知。另外從操作內容來看,在實際解決問題中遇到的步驟流程與圖像分類相比也是復雜繁瑣,對模型的要求更高,算法更加深奧,標準自然更多。若想在實踐操作工程中更好的去應用,除了要從網絡結構方面進行改進外,還要優化模型的流程方法。
三、結束語
綜上所述,通過對卷積神經網絡結構和原理的學習,使我們很好的認識了圖像識別、分類及特征提取。但到目前為止,人們對深度學習的應用還停留在簡單的推理計算程度,雖然在圖像語音領域取得了一定的成果,但能否完整有效的應用在其他領域,還需要我們不斷的研究與探索。
參考文獻
[1]楊風光.深度卷積神經網絡在計算機視覺領域的應用[J].計算機與網絡,2020,46(04):40-41.
[2]張順,龔怡宏,王進軍.深度卷積神經網絡的發展及其在計算機視覺領域的應用[J].計算機學報,2019,42(03):453-482.