一種卷積神經網絡的圖像矩正則化策略

2016-07-01 00:51:07殷瑞蘇松志李紹滋

智能系統學報 2016年1期

殷瑞，蘇松志，李紹滋

(1.廈門大學信息科學與技術學院，福建廈門 361005； 2. 廈門大學福建省仿腦智能系統重點實驗室，福建廈門 361005)

一種卷積神經網絡的圖像矩正則化策略

殷瑞1，2，蘇松志1，2，李紹滋1，2

(1.廈門大學信息科學與技術學院，福建廈門 361005； 2. 廈門大學福建省仿腦智能系統重點實驗室，福建廈門 361005)

摘要：卷積神經網絡的池化策略包含極大池化和平均池化，極大池化選擇池化區域中的最大值，極易出現過抑合現象；平均池化對池化區域中所有元素賦予相同權重，降低了高頻分量的權重。本文提出將矩池化作為卷積神經網絡的正則化策略，矩池化將幾何矩概念引入到卷積神經網絡的池化過程中，首先計算池化區域的中心矩，然后根據類插值法依概率隨機地從中心矩的4個鄰域中選擇響應值。在數據集MNIST、CIFAR10、CIFAR100上的實驗結果表明隨著訓練迭代次數的增加，矩池化的訓練誤差和測試誤差最低，矩池化的高差別性和強魯棒性使其獲得了比極大池化和平均池化更好的泛化能力。

關鍵詞：中心矩；隨機選擇；池化；卷積神經網絡；過抑合

中文引用格式：殷瑞，蘇松志，李紹滋.一種卷積神經網絡的圖像矩正則化策略[J]. 智能系統學報， 2016, 11(1): 43-48.

英文引用格式：YIN Rui, SU Songzhi, LI Shaozi. Convolutional neural network’s image moment regularizing strategy[J]. CAAI Transactions on Intelligent Systems, 2016, 11(1): 43-48.

卷積神經網絡模型訓練過程中存在一個共同的問題，即當模型復雜度比較高時，由于訓練數據相對不足而產生過抑合現象，導致模型泛化能力比較差。一系列正則化技術被用來解決該問題，如L1正則化，L2正則化，即對損失函數增加L1范數或L2范數，根據圖像變換擴增訓練數據等。雖然上述方法可以在一定程度上抑制過擬合，訓練出比未正則化模型泛化性更強的模型，但是由于以上方法是基于參數的方法，在解決過抑合問題的同時卻增加了模型訓練復雜度，在一定程度上弱化了其效果。

Hinton 等[2]提出的dropout是另外一種正則化方法，它在訓練過程中以0.5的概率隨機將網絡中神經元的響應值置為0。該方法在計算機視覺的多個問題中都取得了不錯的成績，然而目前仍不能完全解釋它的有效性。Dropout并不能在神經網絡的每一層都提高模型的泛化能力，甚至會起反作用，因此dropout在網絡中的位置選擇非常重要，然而目前并沒有特定的標準，依賴于個人經驗。

池化方法是一種無參的正則化方法。極大池化(max pooling)簡單地從池化區域中選擇最大值作為最終響應值，雖然保留了高頻分量，如圖像的邊緣等信息，但它對噪聲信息非常敏感，并且在訓練中極易出現過抑合。平均池化(average pooling) 對池化區域的所有值取平均，該方法雖然考慮了區域中所有信息，有效地降低了噪聲信息的影響，然而它平滑了圖像，從而導致非常重要的高頻信息丟失。

為確保模型的判別性及魯棒性，池化策略必須保留高頻分量以提高判別性，同時通過一定的隨機性以增強魯棒性。本文從全新的角度提出了一項卷積神經網絡池化策略：矩池化。首先，計算池化區域的中心矩(即圖像灰度重心)，一般情況下中心矩是一個浮點值，并不指向圖像中一個確定的像素位置，本文根據概率隨機地從中心矩的4個鄰域中選擇一個作為最終的響應值。該策略應用中心矩方法在保留高響應值的同時弱化了噪聲信息的影響，隨機性避免了訓練過程中的過抑合現象。

1卷積神經網絡

人類的視覺系統對外界的認識是從局部到全局的過程，因而卷積神經網絡(convolutional neural network CNN)認為圖像的局部像素聯系比較遠距離的像素聯系更緊密。因此卷積神經網絡在高分辨率提取局部特征，然后在低分辨率將局部特征組合形成更加復雜的特征。CNN通過增加較高層特征圖的數量來補償空間信息的丟失。CNN的基礎框架由卷積層和池化層組成，卷積層類似于簡單細胞，池化層使圖像特征具有平移不變性。

1.1卷積層

卷積層是實現圖像局部聯系的一種途徑，它通過參數共享學習適用于所有數據的底層特征。圖1是第一個卷積層學習到通用的邊緣特征，更高的卷積層可以提取更加具體的特征如輪廓。卷積層將整個圖片與卷積核卷積，然后計算卷積核在圖片每個位置的內積，將輸出作為特征圖c，c可以用來評價圖像的每一個部分與卷積核的匹配度。

然后將非線性變換函數應用于特征圖c，即：a=f(c)。非線性變換函數f有很多種選擇，最常用的是tanh 和logistic 函數。本文選擇受限線性單元(ReLU)f(c) =max(0,c)，V.Nair[3]證明ReLU比tanh和logistic泛化能力更強。

圖1　CNN網絡第一卷積層學習到的部分邊緣特征Fig.1　The part of edge features learned by the first convolution layer of CNN

1.2池化層

池化層通過池化函數pool(·)將圖像中一個較小的子區域R的信息集合起來，其作用是通過降低分辨率獲得模型對圖像平移及旋轉變換的不變性。

(1)

式中：Ri表示特征圖c中池化區域,i、j是該區域每個元素的索引。

Pool有2種常用函數：max[4]和ave[5]。前者取池化區域的最大值：

(2)

后者取池化區域的平均值：

(3)

在深度卷積神經網絡中，上述2種池化方法都有其不可避免的缺點。由于max 僅簡單地選擇最大值，因此對噪聲非常敏感，并且實驗發現該方法極易過抑合。ave考慮了池化區域中所有元素，避免了噪聲的影響，然而在CNN中我們期望池化層盡可能保留強響應值，但ave考慮了池化區域中的所有元素，并且賦予了相同權重。當選擇ReLU 函數作為非線性變換函數時，ave考慮了大量的0 值，間接地降低了強響應值的權重。假如非線性變換函數選擇tanh，ave會抵消掉正負強響應值(梯度方向相反)，返回一個完全不具代表性的響應值。

1.3全連接層

全連接層一般在網絡的最后幾層，與卷積層不同，它感知全局信息，將卷積層學習到的局部特征聚集起來形成全局特征用于特定的圖像處理任務，如分類、檢測、識別等。

2矩池化

矩不變性是圖像處理中一個經典問題，自1962年H.Ming et.al[6]將矩特征應用于模式識別中后，該方法被廣泛應用到計算機視覺中的多個鄰域。由于矩特征具有平移不變性、相似變換不變性、旋轉不變性以及正交變換不變性，因此它被成功地應用于圖像分類中。P.Rosin[7]認為局部區域的灰度值分布相對于其中心具有偏移性，因此他利用圖像中心到中心矩的向量來表示局部區域的主方向。E. Rublee[8]在提取二值特征時，將矩特征應用于估計主方向以提高特征的魯棒性。本文將中心矩與隨機選擇結合起來，將其應用于CNN的池化操作中，為了不增加CNN模型的計算復雜性，本文采用一階矩。

灰度矩定義如下：

(4)

式中：I(x,y)表示圖像位置(x,y)處的灰度值，p、q取值為1.

中心矩定義如下：

(5)

根據式(4)、(5)計算池化區域的中心矩c(x,y)，一般情況下c為浮點值，不指向任何一個確定的離散值，如圖2所示,其上下邊界具有4個確定位置(Q11,Q12,Q22,Q21)，稱其為c的四鄰域。在圖像放大中采用插值法計算插入點的像素值，本文借鑒該思想通過中心矩的四鄰域計算其響應值。

圖2　矩池化選擇方法Fig.2　The moment pooling’s selection strategy

x1=(int)xy1=(int)y

x2=x1+1y2=y1+1

(6)

式中x1、x2分別表示x、y向下取整。

最近鄰插值法[9]選擇與插入點最近的像素作為中心矩的像素值，雖然該方法插值速度快，但它容易出現棋盤格效應。且在池化操作中，中心矩與最大值像素位置非常接近，最近鄰插值法幾乎等價于極大池化法。

雙線性插值法[10]用待插入點的2×2區域的4個鄰近像素的值通過加權平均計算得到。其核心思想是在x、y方向上分別進行一次線性插值，距離待插入點越近，權值越高。在池化操作中雙線性內插算法不會出現像素值不連續的情況，然而此算法和平均池化類似，具有低通濾波器的性質，使高頻分量受損，所以可能會使輪廓信息在一定程度上變得模糊。除此之外，雙線性插值法要分別在2個方向上插值，增加了模型的計算復雜度。

本文在2個方向上以概率px、py隨機選擇x、y，式(7)、(8)所示距離中心矩越近，被選擇的可能性越大。最后根據選擇的(x，y) 坐標從四鄰域中選擇池化區域的響應值。矩池化的隨機性使每次選擇都不相同，因此可以有效地達到預防過抑合的效果。在計算復雜度上，該策略只需要隨機生成2個概率，遠小于雙線性插值法，與最近鄰插值法接近。

(7)

(8)

3實驗

實驗部分將矩池化、極大池化、平均池化分別在MNIST，CIFAR-10，CIFAR-100數據集上進行比較，圖3 代表3個數據集的部分數據。實驗采用深度學習框架caffe[11]，caffe是一個清晰而高效的深度學習框架，它具有上手快、速度快、模塊化、開放性及社區好的特點，并且支持命令行、python和matlab接口，可以在CPU和GPU 間無縫切換，大大提高了模型的學習效率。

(a)mnist　　　　(b)cifar10　　　　(c)cifar100圖3　實驗中用到的部分數據Fig.3　The part experiments data

模型優化采用隨機梯度下降法(stochastic gradient descent)，通過損失函數的負梯度L(Wt)與t時刻權重更新值vt的線性組合來更新權重。學習率α代表負梯度的權重，勢μ代表vt的權重。形式上，在給定t時刻的vt、wt時，通過式(9)更新t+1時刻的權重。這兩個參數需要通過調整來得到最好的結果[12]，一般經過stepsize 個訓練回合，將α更新為原來的γth。

訓練中需要優化的參數有訓練的回合數(epcho)，學習率α，勢μ，權重衰減λ，α的變化步長stepsize和變化率γ，本文中μ=0.9 ，γ=0.01，其他參數設置與具體任務有關。

(9)

3.1訓練集CIFAR-10

CIFAR-10[13]包含6萬個32×32的RGB圖片，共分為10 種類型。訓練數據50 000 張圖片，測試數據10 000 張圖片。實驗采用Hinton等提出的dropout模型2，該模型包含3個卷積層，每個卷積層由64個5×5的卷積核構成，卷積層將非線性變換函數ReLU的結果作為它的輸出。池化層選擇大小為3的池化區域，以步長為2實施池化操作，然后通過局部響應歸一化層(LRN:local response normalization)對池化結果進行局部歸一化以抑止非常大的ReLU的輸出值。最后一層是全連接層，它的softmax輸出是整個網絡的分類預測結果。

實驗中α的調整步長stepsize的大小非常重要，其太小將會導致模型遲遲不能跳出局部最優；反之由于學習率太大，模型一直在全局最優附近徘徊，前者會降低模型泛化能力，后者延緩了模型的訓練速度。圖4是stepsize=20 、100 時矩池化的誤差曲線，第一次學習率調整后，誤差曲線都會加速下降。后續調整僅降低訓練誤差，對測試誤差影響甚微，因此最大迭代次數不超過2×stepsize。由圖4可看出選1.2～1.5倍即可。當stepsize =20時，曲線仍保持比較大的下降趨勢，即模型還未達到全局最優附近，此時降低學習率，使模型在后面的迭代過程中極易陷入局部最優，測試誤差為20.57%；當stepsize=100時，曲線變化已趨平緩，此時降低學習率可使模型趨于全局最優，測試誤差降低至17.24%，后續實驗參數設置如表1所示。

圖4　學習率α的迭代步長對實驗結果的影響Fig.4　The effect of learning rate to α’s iteration stepsize

圖5　數據集CIFAR-10上的實驗結果Fig.5　Experiments result on dataset CIFAR-10

epochαstepsizeγλ1200.0011000.010.004

使用上述CNN模型，在池化層分別采用極大池化，平均池化以及本文提出的矩池化方法，并比較它們的分類結果。如圖5所示，最大池化曲線訓練過程中快速下降到0，平均池化的訓練誤差及測試誤差都比較高。矩池化在有效避免過抑合的同時，又能保證最低的預測誤差，這與矩特征的2個特性息息相關。表2比較3種池化方法在CIFAR-10數據集上的訓練誤差及預測誤差，矩池化預測誤差最低。

表2不同池化方法在CIFAR-10數據集上的訓練誤差與測試誤差

Table 2Pooling methods’ training errors and test errors on dataset CIFAR-10

方法訓練誤差/%預測誤差/%平均池化10.4019.11最大池化0.0019.38矩池化6.0017.24

3.2訓練集MNIST

MNIST[14]由大小為28×28的手寫體0～9組成，數據集中包含60 000張訓練圖片和10 000張測試數據，實驗中預處理時將圖片歸一化到[0,1]。

Lecun Y[15]提出的LeNet-5模型在數字分類任務中取得了非常好的效果，本文采用的模型與LeNet-5略有不同，將原來的非線性變換函數sigmoid替換為ReLU。實驗中參數設置如表3所示，stepsize=fixed 表示學習率在學習過程中不變，實驗中為20。

表3　MNIST數據集上的參數設置

訓練過程中，3種池化方法幾乎都完全過度抑合訓練數據，權重衰減雖然可以預防過抑合，但在該數據集上效果甚微，表4比較各個池化方法在MNIST數據集上的結果。矩池化方法只是一種正則化方法，因此可以與其他方法結合提高模型泛化能力。

表4不同池化方法在MNIST數據集上的訓練誤差與測試誤差

Table 4Pooling methods’ training errors and test errors on dataset MNIST

3.3訓練集CIFAR-100

CIFAR-100[8]數據集與CIFAR-10類似，不同之處在于它增加了圖片類別數到100，包含50 000張訓練數據(每類500張)及10 000張測試數據。CIFAR-100的訓練模型以及參數設置如表5所示，與CIFAR-100的基本一致，為提高準確率將第3個卷積層數增加到128。相較于CIFAR-10，CIFAR-100的訓練數據相當有限，而模型卻更加復雜。如表6所示有限的訓練數據下傳統的池化方法并沒有很好的泛化能力，而矩池化方法有效地降低了分類誤差。

數據集CIFAR-100上的實驗結果如圖6所示，可以看出，第1次調整學習率前，曲線已趨平緩，調整后曲線迅速下降，與CIFAR-10 實驗結果一致。

表5　CIFAR-100數據集上的參數設置

表6不同池化方法在CIFAR-100數據集上的訓練誤差與測試誤差

Table 6Pooling methods’ training errors and test errors on dataset CIFAR-100

圖6　數據集CIFAR-100上的實驗結果Fig.6　Experiments result on dataset CIFAR-100

4結束語

本文在卷積神經網絡的框架上提出了一種可以與其他正則化方法結合使用的池化策略，如dropout、權重衰減、數據擴增等。矩池化將中心矩與隨機選擇應用于CNN的池化層中，中心矩選擇池化區域的灰度重心而非最大值，在保持模型判別性的同時有效地消除噪聲的影響；而選擇的隨機性，使每次選擇具有一定的不確定性，從而更好地避免過抑合，提高模型魯棒性。除此之外，矩池化是一種無參的正則化方法，不會影響模型復雜度，可以與任何已有的CNN模型相結合。實驗表明該方法可以有效地預防過抑合，提高模型的泛化能力。

參考文獻:

[1]MONTAVON G, ORR G, MüLLER K R. Neural networks: tricks of the trade[M]. 2nd ed. Berlin Heidelberg: Springer, 2012.

[2]HINTON G E, SRIVASTAVE N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[EB/OL]. [2012-07-03]. http://arxiv.org/pdf/1207.0580.pdf.

[3]NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel, 2010.

[4]RANZATO M, BOUREAU Y L, LECUN Y. Sparse feature learning for deep belief networks[C]//Proceedings of Advances in Neural Information Processing Systems (NIPS). Cambridge, MA, 2007.

[5]LECUN Y, BOSER B E, DENKER J S, et al. Handwritten digit Recognition with a back-propagation network[C]//Proceedings of Advances in Neural Information Processing Systems (NIPS). Cambridge, MA, 1989.

[6]HU M K. Visual pattern recognition by moment invariants[J]. IRE Transactions on Information Theory, 1962, 8(2): 179-187.

[7]ROSIN P L. Measuring corner properties[J]. Computer vision and image understanding, 1999, 73(2): 291-307.

[8]RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//Proceedings of IEEE International Conference on Computer Vision (ICCV). Barcelona, 2011: 2564-2571.

[9]EVANS O D, KIM Y. Efficientimplementation of image warping on a multimedia processor[J]. Real-time imaging, 1998, 4(6): 417-428.

[10]GONZALEZ R C, WOODS R E. Digital image processing[M]. 2nd ed.New Jersey: Prentice-Hall, 2002.

[11]JIA Y, SHEHAMER E, DONAHUE J,et al.Caffe:convolutional architecture for fast feature emibedding[C]// Proceedings of the ACM International conference on Multimedia. ACM, 2014:625-678.

[12]BOTTOU L. Stochastic gradient descent tricks[M]// MONTAVON G, ORR G B, MüLLER K R. Neural Networks: Tricks of the Trade. 2nd ed. Berlin Heidelberg: Springer, 2012: 421-436.

[13]KRIZHEVSKY A. The CIFAR-10, CIFAR-100 database[EB/OL]. http://www.cs.toronto.edu/～kriz/cifar.html. LECUN Y, CORTES C, BURGES C J C. The MNIST database of handwritten digits[EB/OL]. http://yann.lecun.com/exdb/mnist/.

[14]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

Convolutional neural network’s image moment regularizing strategy

YIN Rui1,2, SU Songzhi1,2, LI Shaozi1,2

(1. School of Information Science and Technology, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of the Brain-Like Intelligent System, Xiamen University, Xiamen 361005, China)

Abstract：There are two kinds of pooling strategies for convolutional neural network (CNN) as follows: max pooling and average pooling. Max pooling simply chooses the maximum element, which makes this strategy extremely prone to overfitting. Average pooling endows all elements with the same weight, which lowers the weight of the high-frequency components. In this study, we propose moment pooling as a regularization strategy for CNN. First, we introduce the geometric moment to CNN pooling and calculate the central moment of the pooling region. Then, we randomly select the response values based on the probability-like interpolation method from the four neighbors of the moment as per their probability. Experiments on the MNIST, CIFAR10, and CIFAR100 datasets show that moment pooling obtains the fewest training and test errors with training iteration increments. This strategy’s robustness and strong discrimination capability yield better generalization results than those from the max and average pooling methods.

Keywords：central moment; random selection; pooling; convolutional neural network; overfitting

DOI:10.11992/tis.201509018

收稿日期：2015-09-16. 網絡出版日期：2016-01-05.

基金項目：國家自然科學基金資助項目(61202143, 61572409)；福建省自然科學基金資助項目(2013J05100).

通信作者：李紹滋. E-mail: szlig@xmu.edu.cn.

中圖分類號：TP391.4

文獻標志碼：A

文章編號：1673-4785(2016)01-0043-06

作者簡介：

殷瑞，女，1993年生，碩士研究生，主要研究方向為圖像特征表示、計算機視覺、深度學習。

蘇松志, 男，1982年生，講師，博士。主要研究方向為行人檢測和人體行為分析。

李紹滋，男，1963年生，教授，博士生導師，福建省人工智能學會副理事長。主要研究方向為人工智能及其應用、計算機視覺與機器學習、運動目標檢測與識別等。主持過多項國家、省市級項目研究，獲得省科學技術三等獎2項，發表學術論文200 余篇，其中SCI檢索27篇、EI檢索171篇。

網絡出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160105.1532.004.html

智能系統學報2016年1期

智能系統學報的其它文章: 書寫機器人研究綜述; 基于知識粒度的不完備決策表的屬性約簡算法; 壓縮感知W-HOG特征的運動手勢跟蹤; 流形排序的交互式圖像分割; 基于方向濾波器組的造影圖像血管增強方法; 復雜基元相關網下的傳導變換