尹蕊(北京交通大學計算機與信息技術學院,北京100044)
基于多尺度卷積神經網絡的場景標記
尹蕊
(北京交通大學計算機與信息技術學院,北京100044)
場景標記是一種非常具有廣泛實用價值的應用。無論在體育直播視頻中增加虛擬廣告,還是在某影像當中檢測與識別關鍵物體,場景標記都是這些應用的核心問題。解析圖片的難點在于目標識別,也即在整個圖片背景環境中將每個像素所屬的景物標記出來。這一過程存在如下問題:如何準確地描述圖像信息并被計算機識別,采用什么樣的訓練方式才能更加準確和高效地進行學習。針對以上問題,本文使用多尺度卷積神經網絡來訓練圖像以提取圖像特征并用于測試集。
我們有這樣的經驗,圖像場景當中對象的結構尺度有大有小,若能在特征提取階段從多尺度鄰域中來提取,就會比從單一尺度當中提取到更多的視覺信息,有可能增加局部特征當中所帶的上下文信息,從而增加了特征提取階段對圖像信息描述的準確度,如圖1所示。
卷積神經網絡是深度學習方法的一種,是當下圖像識別的主要研究方法。其核心思想是將局部感受野、權值復制與空間子采樣這三種結構結合起來獲得某種程度上的位移、尺度和形變的不變性。在本質上,卷積神經網絡是一種輸入到輸出的映射,它能夠學習大量的輸入和輸出之間的映射關系,而并不需要任何輸入和輸出之間的精確數學表達式,只要用已知的模式對卷積網絡加以訓練,網絡就具有輸入輸出對之間的映射能力。卷積網絡實行的學習算法是有監督的,故其樣本集的格式為(輸入向量,理想輸出向量)這樣的向量對。開始訓練前,所有的權都應該用一些不同的小隨機數進行初始化。“小隨機數”用來保證網絡不會因權值過大而飽和,而導致訓練失敗;“不同”則用來保證網絡的正常學習。

圖1
近些年,研究者采用過很多方法來解決圖像解析問題。其中,許多方法依靠馬爾科夫隨機域 (MRFs,Markov Random Fields)、條件隨機域 (CRFs,Condition鄄al Random Fields)或其他圖像模型來保證對象標記的連續性和上下文的相關性。還有一些方法采用超像素或其他分割方法將圖像預分割為候選碎片,并從每個碎片或其他相鄰的碎片連接當中提取特征和類別。
Socher等人提出了一種方法:使用一種訓練得到的評分函數以貪心的方式來然后聚合分割。這種方法的創新之處就在于兩個連接分割的特征向量是由各自分割通過訓練函數得到的特征向量計算得到的。他們也使用深度學習來得到特征提取部分,但其特征提取部分是在人工選取特征的基礎上做的。人工選取特征的方法費時費力,而且選取特征時還需要專業知識,能否選取準確還需要經驗和運氣,因此還是需要由具有自動選取特征的深度學習方法來代替人工。
在機器視覺領域,為簡化或改變圖像的表示形式,使圖像更易于分析,又產生了圖像分割的做法,通常用于刻畫圖像中的物體和邊界。圖像分割(Segmentation)指的是圖像被細分為若干圖像子區域(也稱超像素)的過程。更準確地來說,它是對圖像中每個像素加標簽(label)的過程。
圖像分割使得具有相同標簽的像素具有某種共同的視覺特性。因此,一些研究者利用各種圖像分割(如分割樹)方法,將原始像素聚合成超像素(superpixel)。如,Russell等人利用對已標記圖片處理所得的分割樹進行分割。Carreira等人則使用超像素對圖片進行分割。
之前,D.Grangier等人在場景解析中使用過卷及神經網絡。他們將未處理的原始像素作為輸入進行訓練,所得到的分類正確率還是令人滿意的。但還能夠綜合各種方法的優勢以提高對象識別的正確率。
特征提取階段中以輸入圖像的視野(image patch)為單位對卷積神經網絡進行輸入,通過卷及神經網絡完成轉換 f:IRP→IRQ,使得圖像視野與線性可分類的IRQ可形成映射。然而,這里有一些問題:由于景物的尺寸有大有小,同樣大小的視野窗口很難提供充足的描述,使得學習器輸入的信息不全。另外,若固定使用較大的視野窗口則會增加輸入的維度,訓練數據是有限的,因此就有必要增加學習算法當中的常量個數。通常,采用池化方法來達到這樣的目的,但卻會降低學習模型對景物的定位與描述,同時也會使得卷積神經網絡的規模變得非常大。
故本文用高斯圖像金字塔來進行多尺度處理來解決這些問題。各尺度輸入共享有同樣參數的卷積神經網絡,這樣保證圖像視野窗口在大小一樣的情況下,各像素包含的背景信息不同,達到更精細表示的效果。對于大小為w×i的圖像I,高斯金字塔Gj由I的幾個分辨率減小的高斯圖像 Ii(i是下標,下同)組成,其中,i= {0,1,…,j}代表金字塔的層數。圖像Ii的大小為(w/2i)× (h/2i)。圖像Ii是通過對圖像Ii-1進行隔行隔列采樣而得到的圖。獲得高斯金子塔的過程如圖2所示。

圖2
特征提取由卷積(Convolutions)層完成,前一層輸入的局部感受野與每個神經元相連,其特征被提取,而后與其他局部感受野的特征間的位置關系也隨之相對獨立的確定下來,采用卷積運算的一個重要原因就是它可增強原信號特征并降低噪音;特征映射由子采樣(Subsampling)層完成,根據圖像局部相關性原理,對圖像進行子抽樣,減少數據處理量的同時保留有用信息特征,特征映射平面有多個且各神經元權值均相等,這樣減少了網絡自由參數的個數,降低了網絡參數選擇的復雜度,簡化了卷積網絡。其過程如圖3所示。

圖3
將卷積層和子采樣層放大來看,一個完整的卷積采樣過程如下圖4所示。其中,卷積的過程是使用一個可訓練的濾波器fx卷積輸入圖像,再增加一個bx的偏置。子采樣的過程與卷積類似,將每相鄰的四個像素求和變為一個像素之后再通過權值Wx+1加權,加偏置bx+1,最后經過一個激活函數(一般是Sigmoid函數)進行激活。這樣可以得到一個大小近似縮小到原先1/4的特征映射圖Sx+1。最初的階段是對輸入圖像做卷積,而后的卷積目標就變成了特征映射。子采樣層可看作是一種模糊濾波器,起二次特征提取的作用。隱層與隱層之間空間分辨率遞減,而每層所含的平面數遞增,這樣可用于檢測更多的特征信息。

圖4
本實驗使用的數據是“Stanford Background”,它包含了715幅以室外為背景的圖,其中共有9個類別需要標注出來,分別是天空、樹木、道路、草坪、水域、建筑、山巒、前景物(因前景物種類太多,為避免訓練時間成本,故統一歸為前景物)和未知類。每幅圖的尺寸都近似320×240個像素,且都至少有一個前景物。數據集使用三重交叉驗證得到其中572個作為訓練集圖片,另外143個作為測試集圖片。此實驗當中有若干需要解釋意義的參數如表1。
對于nhu,pools和conk三個參數的實驗組合和結果如表2所示。
由實驗結果說明:多尺度卷積神經網絡能夠提高場景解析的正確率,但并非網絡深度越大,正確率就能越高,訓練的正確率與具體問題的復雜程度和網絡構造及參數設置都相關。

表1 實驗參數意義
場景解析的方法有很多,卷積神經網絡作為深度學習的一種方法值得深入研究。但因其網絡結構復雜、參數個數多、運算空間大,因此一直沒有十分有效的訓練方法。但就場景解析這一問題,提高正確率還有很多技巧可以增加,如景物分割等。
[1]C.Farabet,C.Couprie,L.Najman,Y.LeCun.Scene Parsing with Multiscale Feature Learning,Purity Trees,and Optimal Covers.Proc. Int'l Conf.Machine Learning,June 2012.
[2]王濤,查紅彬.計算機視覺前沿與深度學習[J].中國計算機學會通訊,2015,4.
[3]R.Socher,C.C.Lin,A.Y.Ng,C.D Manning.Parsing Natural Scenes and Natural Language with Recursive Neural Networks.Proc.26th Int'l Conf.Machine Learning,2011.
Multiscale;Convolutional Networks;Scene Labeling;Deep Learning
Scene Labeling Based on Multiscale Convolutional Network
YIN Rui
(School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044)
1007-1423(2016)06-0048-04
10.3969/j.issn.1007-1423.2016.06.011
尹蕊(1990-),女,河南鄭州人,碩士研究生,研究方向為深度學習
2015-12-17
2016-02-16
場景標記是將圖片中的像素按照其所屬景物的種類來識別并進行標記。傳統學習算法將訓練集圖片和某種學習機制相結合,利用后者的特點來提高訓練正確率。提出一種基于多尺度卷積神經網絡訓練已知圖像及其標記的方法,用測試集圖片來驗證其標記正確率。通過在Ubuntu系統上搭建快速機器學習環境Torch7來實現圖片像素的場景標記。
多尺度;卷積神經網絡;場景標記;深度學習
Scene labeling is a method which we label each pixel in an image with the category of the object it belongs to.The traditional learning algorithms combine the family of images with some method which is used to improve accuracy of training.Presents a method that uses a multiscale convolution network trained from pixels with label known and gets verified by the test set of graph.The system is built on Ubuntu by Torch7 which is a kind of sharp environment for machine learning.