孫毅
(中國民航大學,天津市 300300)
【摘 要】卷積神經網絡主要由卷積層、池化層、全連接層構成。它在目標檢測和計算機視覺、語音識別等領域成效卓然。本文主要簡述卷積網絡結構以及在各領域應用。
【關鍵詞】卷積神經網絡;卷積網絡結構;各領域應用
一、卷積神經網絡
卷積神經網絡是一種人工神經網絡,目前已成為圖像識別、語音分析、目標檢測等領域的研究熱點。權值共享及池化操作有效的降低了網絡復雜度,與深度學習中的MLP,DPN等網絡相比,具有較少的可調參數,降低了學習復雜程度以及訓練所需時間;卷積神經網絡在處理二維圖像時,具有位移、縮放即扭曲圖像不變性。
二、卷積神經網絡結構
卷積網絡由輸入層、卷積層、池化層、全連接層及輸出層構成基本結構。卷積層和池化層一般成對交替出現。由于卷積層中特征面的神經元與其輸入局部連接,通過相應的權值與局部輸入進行加權求和再加上偏置值,得到該神經元輸入值,該過程等同于卷積過程,卷積神經網絡也由此命名。
(一)卷積層
卷積層(convolutional layer)由多個特征面組成,每個特征面由多個神經元組成,它的每一個神經元通過卷積核與上一層特征面的局部區域相連。卷積核是一個權值矩陣。卷積層通過卷積操作提取輸入的不同特征,低層卷積層提取低級特征如邊緣、線條、角落,更高層的卷積層提取更高級的特征。
(二)池化層
池化層(pooling layer,也稱為取樣層)在卷積層之后,由多個特征面組成,它的每一個特征面唯一對應于其上一層的一個特征面。卷積層的輸出是池化層的輸入,且池化層的神經元也與其輸入層的局部接受域相連。池化層旨在通過降低特征面的分辨率來獲得空間不變性的特征,池化層起到二次提取特征的作用。常用的池化方法有最大池化即取局部接受域中值最大的點、均值池化即對局部接受域中的所有值求均值、隨機池化。
(三)全連接層
卷積網絡結構中,最后一個池化層后連接著至少一個全連接層。全連接層中的每個神經元與其前一層的所有神經元進行全連接。全連接層可以整合卷積層或者池化層中具有類別區分性的局部信息。最后一層全連接層的輸出值被傳遞給一個輸出層,可以采用softmax邏輯回歸進行分類,該層也可稱為softmax層。
(四)特征面
特征面數目作為卷積網絡的一個重要參數,通常是根據實際需求進行設置的,若特征面過少,可能會使一些特征被忽略掉,不利于網絡的學習;但是如果特征面個數過多,訓練參數個數及網絡訓練時間也會增加,也不利于學習網絡模型。
三、實際應用
(一)圖像識別
近年來,卷積網絡已廣泛應用于圖像處理領域。利用機器學習的方法,使得計算機能夠識別圖像中的內容。模式識別中的一個主要領域是圖像識別,主要涉及字符識別、人臉識別、物體識別等。在圖像識別中,手寫數字識別和人臉識別是被研宄的比較多的領域。手寫數字識別可以被用于自動讀取銀行支票信息、信封上的郵政編碼和一些文檔中的數據等。
(二)音頻檢索
Hamid等結合隱馬爾科夫建立了基于卷積網絡的語音識別模型,并在標準語音數據庫上進行實驗,實驗結果顯示該模型的正確率相對于具有相同隱含層數和權值的常規神經網絡模型提高了10%,表明卷積網絡模型能夠更好的應用于語音識別。
(三)目標檢測
運動目標檢測是視頻監控的基本預處理步驟之一,通常是利用機器視覺等技術將目標從背景中分離出來。在一個實用的計算機視覺系統中跟蹤目標的初始狀態一般由目標檢測結果給出,同時為語義層分析任務提供所需要的運動信息。因此,目標檢測是高層理解與應用的基礎任務,其性能的好壞將直接影響后續的目標跟蹤、動作識別以及行為理解等后續任務的性能。按照算法處理對象的不同,目標檢測大致可以分為基于背景建模的目標檢測方法和基于前景建模目標檢測方法兩大類。其中, 基于背景建模的方法通過建立背景模型與時間的關聯關系,間接地分離出運動前景,最后經過前景分割得到目標;基于前景目標建模的方法則是通過建立目標的表觀模型,設計出適當的分類器對視頻中的目標進行分類和檢測。
四、總結
隨著人工神經網絡的飛速發展,卷積網絡的共享權值、訓練所需的設置參數少、魯棒性強等優良特性使其成為了研究的熱點。卷積網絡通過權值共享減少了需要訓練的參數個數、降低了網絡的設計和計算復雜度,同時通過池化操作使得網絡對輸入的局部變換具有一定的不變性,提升了網絡的泛化能力。卷積網絡將原始數據直接輸入到神經網絡中,然后隱性地從數據中進行自主學習。雖然卷積網絡所具有的這些特點使其已被廣泛應用于各種領域中特別是模式識別與人工智能領域,但是卷積網絡仍有許多工作需要進一步研究;如當處理一個具體的任務,很難確定需要多少個卷積層和池化層,每一層使用多大的卷積核和步速等才使得訓練結果最優。
總的來說,卷積網絡在模式識別與人工智能等領域中的發展與應用,使它在未來很長的一段時間內仍然是人們研究的一個熱點。新的理論和技術的納入以及新成果的出現會將卷積網絡應用于更多新的領域中。
【參考文獻】
[1] Yann LeCun, Leon Bottou, Yoshua Bengio, et al. Gradient-based learning applied to document recognition. Proceedings of the IEEE,1998, 86(11):2278-2324
[2] Gao Li-Gang, Chen Pai-Yu, Yu Shi-Meng. Demonstration of convolution kernel operation on resistive cross-point array. IEEE Electron Device Letters, 2016,37(7):870-873
[3]尹勰,閆磊.基于深度卷積神經網絡的圖像目標檢測[J].工業控制計算機,2017,30(4):96-97