基于圖像特征的卷積核初始化方法

2021-05-26 03:07:16李鵬松李俊達倪天宇胡建平

吉林大學學報(理學版) 2021年3期

李鵬松, 李俊達, 倪天宇, 張琦, 胡建平

(東北電力大學理學院, 吉林吉林 132012)

卷積神經網絡(convolutional neural network, CNN)是計算機視覺領域中的重要模型, 由卷積層、池化層和全連接層構成, 其參數量巨大[1]. 近年來, 為進一步提高其性能和應用范圍, 研究者們從網絡結構、損失函數和優化算法等方面對卷積神經網絡進行了各種改進[2-6]. 在改進過程中卷積神經網絡的深度不斷增加[7-9], 而卷積核作為其中數量最多的參數, 對網絡性能的影響逐漸增大. 龐大的卷積核數量也使卷積核的更新狀況與其初始值緊密相連, 因此卷積核的初始化對網絡的識別性能和收斂速度起決定作用. 由于卷積神經網絡中參數多、網絡結構復雜, 因此卷積核的初始化方法主要以隨機初始化為主, 即根據某特定的概率分布生成一組隨機數作為卷積核的初始值. 但大多數卷積神經網絡的深度較深, 隨機初始化會使網絡中卷積層輸出值的方差越來越大, 最終導致網絡收斂速度變慢[10]. 針對上述問題, Glorot等[11]提出了Xavier初始化方法, 通過使各卷積層輸入輸出值的方差一致防止網絡在前向傳播時累積方差, 但該方法成立的前提是網絡的激活函數為對稱函數, 而大多數卷積神經網絡的激活函數是非對稱函數, 因此并不適合卷積神經網絡； Krizhevsky等[12]在提出AlexNet的同時, 使用Gauss初始化方法初始化卷積神經網絡, 該方法通過Gauss分布使卷積層輸出值的期望為零, 同時通過設置極小方差限制各卷積層輸出值的方差, 從而降低網絡不收斂的可能性, 該方法簡單有效, 但隨著網絡深度的加深, 方差仍會不斷累積; He等[13]以Xavier初始化方法為基礎提出了He初始化方法, 該方法可適應不同類型的激活函數, 更適合初始化卷積神經網絡. 上述方法均基于隨機初始化, 其局限為： 1) 隨機初始化方法存在較大的偶然性和不確定性, 導致增加網絡的不穩定性, 進而導致網絡收斂速度較慢; 2) 在初始化過程中只考慮了輸出值的方差, 并未考慮數據集自身的特征, 從而限制了網絡的識別性能.

馬義超等[14]建立了基于主成分分析(principal component analysis, PCA)初始化的卷積神經網絡模型, 該模型提取圖像模板的主成分, 并將其作為卷積核的初始值, PCA算法雖然可以構建網絡并初始化卷積核, 但卻無法作為一種普遍適用的初始化方法, 其原因是： 1) 使用PCA算法提取的特征向量數量應小于其對應方陣的階數, 即PCA算法可初始化的卷積核數量不能超過單個卷積核所對應的神經元個數, 但大多數卷積神經網絡的卷積核數量遠大于單個卷積核所對應的神經元個數, 因此PCA算法只能初始化極少數特定結構的網絡; 2) PCA算法未考慮到卷積層輸出值的方差, 當卷積核的數量較多時, 卷積層輸出值的方差會顯著增加, 進而降低網絡收斂的可能性.

針對上述問題, 本文提出一種基于圖像特征的卷積核初始化方法, 既保留了PCA算法可使網絡訓練結合圖像特征的優點, 又解決了PCA算法無法初始化任意網絡結構的問題. 本文首先使用圖像處理技術突顯圖像特征; 然后使用PCA算法初始化首層卷積核; 最后對卷積層的特征圖進行隨機組合, 并分別使用PCA算法和特征截斷完成各卷積層的初始化. 本文初始化方法使用圖像處理技術和PCA算法使卷積神經網絡的訓練結合不同類型的圖像特征, 進一步增強了網絡的特征提取能力；使用特征截斷進一步限制卷積層輸出值的方差, 使其可適應卷積核數量較大的網絡, 并進一步增加網絡的穩定性；將隨機組合應用于卷積核初始化, 解決了PCA算法受網絡結構限制的問題.

1 主要結果

本文初始化方法分為3個階段：第一階段是模板集構建階段, 從訓練集中選取圖像模板并通過圖像處理技術構建紋理、顏色和邊緣模板集；第二階段是首層卷積核初始化階段, 使用PCA算法提取主成分并將截斷后的主成分作為首層卷積核的初始值；第三階段為其他層卷積核初始化階段, 計算每個卷積層的特征圖并進行隨機分組, 再分別通過PCA算法和特征截斷初始化其他卷積層. 本文初始化方法流程如圖1所示.

1.1 模板集構建

根據文獻[11-12]對卷積核的定性分析可知, 卷積核所提取的抽象特征主要基于圖像中的簡單邊緣及模糊的顏色分布. 因此, 顏色與邊緣特征對初始化卷積核具有重要作用. 本文構建顏色模板集與邊緣模板集, 并且為防止具體顏色與邊緣特征降低網絡的泛化能力, 本文根據原始圖像構建紋理模板集作為對圖像特征的補充. 模板集效果如圖2所示.

1.1.1 構建紋理特征模板集

由于紋理特征較抽象, 盲目使用圖像處理技術會降低卷積神經網絡的泛化能力, 因此, 本文將原始圖像作為提取圖像紋理特征的模板, 步驟如下.

圖1 本文初始化方法流程

1.1.2 構建顏色特征模板集

使用均值濾波器對圖像進行模糊處理, 只保留圖像大致的顏色分布. 本文以模糊化圖像作為提取圖像顏色特征的模板, 步驟如下.

1) 建立濾波器尺度15的均值濾波器:

2) 平滑處理: 根據

(1)

得模糊化圖像數據集G1={G11,G12,…,G1N}, 其中G1i為第i個模糊化的圖像樣本,i∈{1,2,…,N},N為圖像樣本數量.

1.1.3 構建邊緣特征模板集

邊緣檢測技術可在保留圖像結構的情況下, 去除圖像大量不相關的信息[15]. 本文使用Sobel算子對圖像進行邊緣處理, 將保留的圖像邊緣作為提取圖像邊緣特征的模板, 步驟如下.

1) 建立Sobel算子:

2) 邊緣處理:

|G2i|=|G2i,x|+|G2i,y|,

(4)

根據式(2)和式(3)進行邊緣處理得到邊緣特征集G2={G21,G22,…,G2N}，其中G2i為第i個邊緣處理后得到圖像樣本,i∈{1,2,…,N}.

1.2 初始化首層卷積核

PCA算法的學習結果與隱層神經元數量受限時的多層感知機學習結果相似性高, 可與神經網絡進行結合[16]. 因此, 本文使用PCA算法提取模板集的主成分, 并將其應用于卷積核初始化. 由于直接使用主成分作為卷積層的初始值通常會使卷積層輸出值的方差明顯增加, 因此本文采用特征截斷以控制卷積層輸出值的方差.

1.2.1 PCA算法提取主成分

(5)

1.2.2 特征截斷

本文對主成分進行截斷, 將對方差影響較大的異常數據進行替換, 避免輸出值出現方差過大的情形. 特征截斷公式為

(6)

1.3 初始化各層卷積核

1.3.1 特征圖計算

在已知卷積核初始值的情況下, 通過卷積計算得到其他卷積層所輸出的特征圖[17], 計算公式為

(7)

1.3.2 PCA算法提取特征向量

(8)

2 實驗測試

本文在Intel Core i5-4210M 2.6 GHz CPU, 內存為8 GB的Windows 8.1系統上使用框架tensorflow 1.5進行實驗測試.

2.1 實驗方法

使用基于圖像特征的卷積核初始化方法確定卷積神經網絡的初始權重, 將網絡應用于數據集Cifar-10和Corel-1000的識別任務中, 并與其他卷積核初始化方法進行對比. 將實驗數據分為訓練集、驗證集和測試集, 其中: 訓練集與驗證集參與訓練過程, 訓練集訓練模型, 驗證集確定模型超參數；測試集測試網絡的識別性能. 所用數據集信息列于表1. 用于測試初始化效果的模型為有三層卷積結構的卷積神經網絡, 其結構如圖3所示.

表1 數據集信息

由于數據集Corel-1000的數據量較小, 使用大量卷積核會導致網絡出現嚴重的過擬合現象, 進而影響對初始化效果的評價. 因此, 用于識別數據集Corel-1000的卷積神經網絡的卷積核個數較少, 各層卷積核個數為16,32,64；用于識別數據集Cifar-10的網絡各層卷積核個數為32,64,128.

圖3 卷積神經網絡結構示意圖

2.2 結果分析

本文從網絡的收斂程度、泛化能力和初始化成本三方面評價初始化方法. 使用驗證集的損失值衡量網絡的收斂程度, 使用測試集上的識別準確率衡量網絡的泛化能力, 使用訓練時間衡量初始化成本. 利用驗證集的損失值收斂程度分析不同初始化方法對卷積神經網絡收斂速度的影響, 結果如圖4所示.

圖4 不同初始化方法的驗證集損失值對比

由圖4(A)可見, 在數據集Cifar-10上使用Gauss初始化的網絡約在2 000次迭代時收斂, 使用He初始化的網絡約在3 100次迭代時收斂, 本文方法初始化后的網絡約在1 400次迭代時收斂, 其收斂速度大于其他兩種初始化方法. 對比3種方法在Cifar-10任務中的表現：本文初始化方法的損失值始終小于其他兩種方法, 在0～1 500次迭代時損失值差距明顯; 在3 000次迭代后, 各方法損失值之間的差距逐漸穩定, 不再出現明顯變化；本文初始化方法的損失值收斂于0.010, 其他兩種方法的損失值分別收斂于0.040和0.039. 由圖4(B)可見, 使用Gauss初始化的網絡在180次時收斂, 使用He初始化的網絡在200次迭代時收斂, 本文方法初始化后的網絡在150次時收斂, 其收斂速度仍快于其他兩種初始化方法. 對比3種方法在Corel-1000任務中的表現：本文方法的損失值在150次迭代前與其他兩種方法之間并無明顯差異, 但在150次迭代后, 本文方法開始收斂并且損失值始終低于其他兩種方法; 本文方法的損失值收斂于0.019, Gauss初始化方法的損失值收斂于0.031, He初始化方法的損失值收斂于0.051. 實驗結果表明, 在不同任務中, 使用本文方法初始化的網絡均具有更快的收斂速度和更小的損失值, 驗證了本文初始化方法的優越性.

為進一步評價本文初始化方法的性能, 對比不同初始化方法對卷積神經網絡泛化能力的影響, 結果列于表2.

表2 不同初始化方法的測試集識別準確率(%)對比

由表2可見, 本文初始化方法在兩個任務中的識別準確率均超過94%, 且與人眼的識別準確率(94.9%)相近, 進一步說明了本文方法的實際應用價值.

對比3種初始化方法在Cifar-10任務中的表現：使用本文初始化方法的網絡在測試集上的識別準確率分別比使用Gauss初始化和He初始化的網絡高2.0%和3.1%. 對比3種初始化方法在Corel-1000任務中的表現：使用本文初始化方法的網絡識別準確率分別比Gauss初始化和He初始化后的網絡高8.5%和3.0%. 實驗結果表明, 本文方法在不同識別任務中其識別效果均優于其他初始化方法, 進一步驗證了本文方法的優越性. 對比3種初始化方法在不同任務中的識別差異：本文初始化方法在不同的識別任務中, 其識別準確率只相差0.5%, 而其他兩種方法則分別為4.0%和0.6%, 說明使用圖像特征可使網絡更好地適應不同類型的數據集, 驗證了本文初始化方法的合理性. 實驗結果表明, 本文初始化方法與其他初始化方法相比, 可使網絡具有更好的識別性能, 并且對不同任務的適應性也更好.

為評價本文初始化方法的實用性, 利用訓練時間量化初始化成本, 結果列于表3. 由表3可見, Gauss初始化與He初始化并不會對網絡訓練產生額外的時間, 而本文方法需要耗費一定時間才能完成對網絡的初始化. 對比其他兩種方法：本文初始方法在Cifar-10和Corel-1000任務中的平均訓練時間分別增加0.3%和4.9%, 均小于5%. 因此, 本文初始化方法并沒有增加大量的網絡訓練時間, 具有一定的實際應用價值. 對比本文方法在兩個任務中的表現： Corel-1000任務遠大于Cifar-10任務中的初始化時間, 這是由于數據集Cifar-10中的圖像尺寸更小, 特征提取更快. 因此, 本文初始化方法更適用于圖像尺寸較小的圖像識別任務.

表3 不同初始化方法的訓練時間(s)對比

綜上所述, 本文以圖像處理技術與PCA算法為基礎, 提出了一種基于圖像特征的卷積核初始化方法. 首先, 提取圖像的紋理、邊緣和顏色特征構建特征模板集；其次, 使用PCA算法提取圖像特征的主成分完成首層卷積核初始化; 最后, 計算各卷積層輸出的特征圖, 并再次提取主成分, 逐層完成卷積核初始化. 實驗結果表明, 本文初始化方法的初始化成本較少, 識別性能更優越, 對不同類型的任務都具有較好的適應性, 有實際應用價值.