周麗娜

摘 要:針對傳統人工特征無法捕捉圖像目標語義信息的缺點,本文提出一種基于卷積神經網絡模型VGG-Net的分層特征提取方法,對模型的高低卷積層分別進行特征提取和深入的分析。實驗結果表明低層特征圖分辨率高包含更多細節信息,高層特征圖分辨率低能提取更多語義信息。因此可根據不同任務選擇不同層特征以獲得最佳的目標特征表達。
關鍵詞:特征提取;卷積神經網絡;VGG-Net模型;分層特征
特征提取是計算機視覺領域研究的基礎內容。傳統的人工特征需要小心構造光照、旋轉不變性等特性,無法捕捉目標的語義信息,對目標的特征表達能力存在一定的局限性。近幾年,深度學習理論成為人工智能領域的研究熱點[1]。其中卷積神經網絡(Convolutional neural network,CNN)通過多層的自主學習,可以從顏色、邊緣等底層細節特征得到更強大的特征表達能力而備受關注,并在圖像分類及語音識別領域取得了重大成果。本文采用深度模型VGG-Net[2]進行目標特征提取,分析高低卷積層的特征特點,從而獲取更強大的特征表達能力。
1 卷積神經網絡的基本結構
基本的卷積神經網絡包括:輸入層、卷積層、下采樣層(池化層)、全連接層和輸出層。如圖1所示,其中C1,C2為卷積層,S1,S2為下采樣層。最終,處理后的數據被連接成一個向量經過全連接層輸出。
2 基于VGG-Net模型的分層特征提取
本文采用卷積神經網絡模型VGG-Net提取目標特征。卷積神經網絡模型中每個卷積層都可以可視化輸出一組圖像的特征數據,每層的輸出特征對圖像的描述情況不同[3]。
2.1 VGG-Net模型結構
VGG-Net模型由大型圖像數據集ImageNet訓練得到,是具有43層結構的深度卷積神經網絡。共有19個權重學習層包含16個卷積層(5組)和3個全連接層。5組卷積層中分別包含2、2、4、4、4個卷積層,每組卷積層后面接一個最大池化層,激活函數采用非線性糾正單元Relu。網絡最后接三個全連接層。
2.2 分層卷積特征提取過程
(1)卷積層:卷積神經網絡因“卷積”操作而得名,卷積的目的就是從輸入圖像中提取特征。假設每個卷積層輸入大小為N×N,卷積核矩陣大小為m×m,則得到的每個特征圖的大小為(N-m+1)×(N-m+1)。輸入圖像與濾波器和偏置值進行卷積,通過激活函數產生特征圖,每個特征圖代表學習獲得的一組特征。計算公式如下:
wi表示各輸入信號與該神經元對應的連接權值,b為神經元的偏置值,激活函數f(x)可以決定神經元是否被激活。VGG-Net模型中采用ReLU函數(非線性糾正單元)作為激活函數,當輸入值為負輸出結果為0,輸入為正則原樣輸出。
(2)下采樣層:下采樣層的作用是降低特征映射的維度,保留最重要的特征信息。通過卷積層獲得特征之后,若直接將這些提取到的特征直接輸入至后續層中,需要很大的計算開銷。因此采樣過程可以表示為:
其中,down(·)表示采樣函數。一般可采用最大池化(max-pooling)和均值池化(mean-pooling)。對于2*2大小的池化,最大池化取輸入圖像2*2區域中的最大像素值作為結果。均值池化是取2*2區域塊的平均像素值作為結果。兩者均將原圖像縮小了4倍,減小了計算開銷。
在VGG-Net模型中,通過此方式在每個卷積層進行分層特征提取并進行可視化輸出。
3 實驗結果與分析
圖2給出了圖像經VGG-Net網絡提取的4層卷積特征圖(conv2層、conv3層、conv4層和conv5層)??梢钥闯龈叩蛯泳矸e特征具有不同的特點:低層的conv2層特征圖包含更多細節信息,能夠清晰地看到目標的邊緣和紋理信息;隨著網絡深度的增加目標細節信息減少,高層的conv5層特征圖經過多次下采樣操作后分辨率降低,只可以提供更多語義信息和目標所在的大概區域。卷積神經網絡提取的高層特征有利于對不同類別的物體進行分類,低層特征可以進行類內區分物體。因此可以根據不同的任務有針對性地選擇高低層特征進行目標的特征表達。
4 小結
本文通過分析深度卷積神經網絡VGG-Net的模型結構,針對各卷積層提取分層特征,并對特征的提取過程進行了分析,最后通過實驗對各卷積層特征進行了可視化分析。結果表明:低層特征圖分辨率高包含更多細節信息,高層特征圖分辨率低能提取更多語義信息。因此深度卷積神經網絡提取分層特征的方法解決了人工特征無法提取目標語義信息的缺點,有利于提高目標的特征表達能力。
參考文獻:
[1]Lecun Y, Bengio Y, Hinton G.Deep learning[J].Nature, 2015, 521(7553): 436-444.
[2]Simonyan K, Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science, 2014.
[3]Zeiler MD, Fergus R.Visualizing and Understanding Convolutional Networks[J].2013, 8689:818-833.