999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡和語義信息的場景分類

2018-02-05 09:16:39張曉明尹鴻峰
軟件 2018年1期
關鍵詞:語義分類利用

張曉明,尹鴻峰

(1. 北京交通大學 計算機與信息技術學院,北京 100044;2. 北京交通大學海濱學院 計算機科學系,河北 黃驊 061199)

0 引言

作為機器視覺最常見的圖像識別任務之一,場景圖像的分類旨在通過提取并分析圖像中的特征,將內容相似的圖像歸為同一類別。場景識別的意義,一方面是幫助計算機對畫面的場景有一個總體的認識,增加先驗知識,從而指導目標檢測和識別[1];另一方面,目前更多應用的是基于內容的圖像索引和檢索[2],而互聯網上的媒體內容每天都在快速不斷地大量增多,亟需高效的自動方法來對這些內容進行存儲、分類以及搜索。因此,場景分類成為了對海量的視覺內容進行組織、選擇及索引的關鍵技術。

室內場景通常具有復雜的結構以及種類繁多的人工制品,容易使得場景類內差異比較大而類間相似性更高;此外,容易受到光照變化、視角變化和尺度變化以及遮擋問題的影響。因此,有關室內場景問題的處理相對進展較慢,且更具挑戰性。而語義信息在克服上述問題方面具有很好的效果。實際上,場景與其中出現的目標,目標與目標共存等都不是互相獨立、毫無關聯的。因此語義理解是解決場景理解問題的重要組成部分,能利用場景及目標間的語義信息可以有效提高分類效果。

近年來,卷積神經網絡深度學習模型在計算機視覺領域得到了廣泛的應用。其中 Lecun網絡[3]、Alex網絡[4]、Google網絡[5]、視覺幾何組網絡[6]、殘差網絡[7]是目前最知名的圖像分類深度學習網絡模型。然而這些深度模型有些對場景分類的效果并不好,尤其是復雜的室內場景。構建深度卷積網絡模型,為提高分類效果通常做法是增加模型的深度或者寬度(層核或神經元數),如AlexNet有5個卷積層,VGGNet增加到了16層,GoogLeNet繼續加深到21層,而ResNet則達到了151層且還在增加。除了增加計算成本之外,還需要海量訓練數據。因此,如何在有限的數據集上,有效利用一定層數的卷積神經網絡取得良好的場景分類效果是本文的研究重點。

本文面向復雜的室內場景,提出一種同時利用神經網絡與語義信息來進行場景分類的方法,并在室內場景數據集上進行了實驗對比,結果表明本文方法在訓練數據集有限的情況下仍能取得很好的效果。

1 相關工作

傳統場景分類方法,如 SPM[8]考慮空間信息,將圖像分成若干塊(sub-regions),分別統計每一子塊的特征,最后將所有塊的特征拼接起來,形成完整的特征來進行場景分類。該方法沒有考慮圖像中目標的完整性,對旋轉等的魯棒性也不高,而且利用的是人工SIFT特征。

而隨著硬件水平的提高以及研究的深入,尤其從2012年AlexNet(Krizhevsky et al., 2012)贏得ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比賽后,深度學習在計算機視覺領域展現出了巨大優勢,應用也越來越廣泛,已經成為計算機視覺的不二選擇。在之后的幾年中,VGGNet,GoogleNet,ResNet等一系列CNN網絡在圖像處理方面都取得了巨大成功。目前場景分類中最成功的CNN網絡就是 Place-CNN[9],他是利用 Alexnet的結構,在由476個場景組成的共2500萬張圖像上進行訓練得到的,取得了不錯的分類效果。而他們都需要大量的圖像作為基礎,因為場景分布樣式的千變萬化。

Place-CNN中也指出CNN在進行場景分類時導致效果差的一個重要原因就是相比于目標圖像來說,以場景為中心的圖像更多樣化,這也就意味著需要更多的訓練樣本,才能有更好的普適性。而一個場景中往往出現的目標物體是固定的,多個目標之間也會有固定的位置及依存關系。研究表明語義信息是解決計算機視覺問題的重要線索之一[10,11]。在進行場景分類識別時,利用場景和目標間的關系可以有效克服上述問題,避免場景多樣化,用更少的訓練數據得到良好的實驗效果[12-15]。Object Bank[16]是預先訓練好大量的目標檢測器,然后將圖像中檢測到的目標作為特征來預測場景類別。但是沒有明確的指出場景和他的目標組成間的關系以及目標間的幾何關系。SDPM[17]與之類似,是利用DPM[18]獲取目標信息進行場景分類。SS-CNN[19]結合深度信息,利用場景-目標間的共存關系訓練了卷積神經網絡,在SUN RGB-D數據集上取得了很好的效果。DeepContext[20]是利用3D語義信息,通過選定特定神經元,然后定義這些神經元之間的關系作為語義信息,訓練 3D神經網絡,來進行場景分類。3D ConvNets也需要預先訓練場景模版,方法取得了很好的效果,但是卻沒有利用圖像的顏色等2D信息。

因此,本文在利用卷積神經網絡CNN利用顏色信息進行場景分類的基礎上,利用目標與場景間的語義信息對分類結果進行修正。

2 相關模型和算法

2.1 卷積神經網絡結構

以RGB三通道圖像作為輸入,本文分別用softmax和SVM作為分類器來進行了訓練,以softmax為例,網絡結構如圖1所示。

為了減少計算量,避免訓練集少造成過擬合,本文并沒有用過深的網絡,使用的是一個7層的卷積神經網絡,前4層是卷積層,后3層為全連接層,其中最后一層采用softmax進行分類。

激活函數采用激活函數ReLU(Rectified linear units),實現起來非常簡單,加速了計算的過程;且可以加速收斂,解決了飽和問題,大大地緩解了梯度消散的現象。

數據量比較小會導致模型過擬合,為防止模型過擬合,使得訓練誤差很小而測試誤差特別大,我們通過對圖像進行裁剪、翻轉變換組合數據增強來增加輸入數據的量;采用 Deopout[21]進行正則化,即在訓練期間,對全連接的神經網絡進行子采樣。

網絡會輸出一個場景分類結果,但本文利用其各場景置信度,作為語義模型的輸入,對分類結果重新進行評估,整體過程如圖2所示。

圖1 卷積神經網絡結構Fig.1 Examples of the network architecture

圖2 整體分類流程Fig.2 Overview of the whole process

2.2 聯合模型

本文利用顏色特征與語義信息相結合進行場景分類,共分兩個階段。整個系統分類過程如圖2所示。首先利用卷積神經網絡提取顏色特征對圖像進行初始分類;然后,利用圖像語義信息,對分類結果進行修正。

第一階段:初始分類階段。利用卷積神經網絡進行圖像分類,要先將圖像轉化為可用的lmdb數據格式,因為數據有過大的均值可能導致參數的梯度過大,影響后續的處理,因此還要數據零均值化。零均值化并沒有消除像素之間的相對差異,人們對圖像信息的攝取通常來自于像素之間的相對色差,而不是像素值的高低。計算過程如公式(1)所示。

其中,i,jX 表示第i行j列的像素值,一列共有n個值,即每個像素值為該數據值減去該列均值。

這里,我們不直接用網絡分類結果,而是取網絡中間結果各場景置信度作為第二階段輸入。同時,圖像作為輸入使用經典 DPM 算法進行目標檢測得到目標檢測結果,同樣作為第二階段輸入。

第二階段:修正階段。我們定義場景與目標間的關系如公式(2)所示。

其中,O代表目標物體,OD代表檢測到的目標集合,S表示場景類別,()Ψ·表示場景類型與目標間的語義上下文特征,根據二者共存的可能性來定義。

1. for i = 1 to SNum //SNum是場景分類的數目。2. for i = 1 to ONum //SNum是中目標數目。3. CalculateCo-occurence();//計算每個目標與場景間同時出現的幾率。4. SumOccurence(); //計算所有目標出現在場景中的幾率作為場景置信度。5. CompareOccurence();//比較每個場景的置信度//返回一個場景分類結果

上述算法描述了第二階段偽代碼。在完成 2.1所述卷積神經網絡分類獲得初始分類結果,及目標檢測過程后,利用場景-目標間的語義關系對場景分類結果進行修正,得到最終場景分類結果。

3 實驗

3.1 實驗環境及數據集

實驗使用 caffe深度學習框架,cuda 8.0,在NVIDIA GTX1080 GPU及64G CPU上運行。

為了測試本文方法的效果,我們在RGB數據集上做了大量實驗,評估其場景分類效果。實驗中我們采用文獻[22]中數據集,含963張圖片,包括臥室、餐廳、客廳三個場景各300多張。其中540張圖片作為訓練樣本,用來訓練網絡模型,423圖片用作測試,做了大量對比實驗。

3.2 場景分類結果比較及分析

在實驗過程中,由于數據集比較小,在訓練卷積神經網絡時我們采用全數據集(Full Batch Learning)的形式,即batch_size在GPU內存及計算能力允許的情況下盡可能設得大,因為 batch的選擇,首先決定的是下降的方向。而選擇全數據集,有以下幾點優點:首先,由全數據集確定的方向能夠更好地代表樣本總體,從而更準確地朝向極值所在的方向,在一定范圍內,一般來說Batch_Size越大,其確定的下降方向越準,引起訓練震蕩越小;其次,由于不同權重的梯度值差別巨大,因此選取一個全局的學習率很困難。并且,內存利用率提高了,大矩陣乘法的并行化效率提高。跑完一次全數據集所需的迭代次數減少,對于相同數據量的處理速度進一步加快。

Full Batch Learning 可以使用Rprop只基于梯度符號并且針對性單獨更新各權值。但是受到內存限制,不能無限制增大,而且對于大的數據集也不可行,因為隨著數據集的海量增長和內存的限制,一次性載入所有數據是不可能的。本文設置不同的batch_size進行實驗,如圖 3所示,(a)(b)(c)分別為batch_size等于16,128,622時,訓練過程中損失值loss與準確率accuracy隨迭代次數的變化。

由圖3可以看出,隨著batch_size的增大,收斂更快,loss下降更快,準確率提高更快,且準確率更高。其中,(a)在迭代2000次左右達到平穩,準確率只有74%,而(c)在迭代不到1000次即達到平穩,準確率可達80%,達到時間以及收斂精度上的最優。

我們分別訓練了 softmax,linear SVM和 RBF Kernel SVM作為分類器。作為對比,我們用比較經典的算法SPM,SDPM和Object bank進行了實驗。分別利用Alexnet和Place-CNN的網絡結構進行訓練和測試(兩個網絡均為迭代 4萬次所得模型),Alexnet和 3DGPs[23]作為評價基準,與我們的實驗對比結果如表1所示。實驗結果表明本文方法在場景分類效果上優于現有的場景分類算法。比較方法的簡介如下:

Object Bank. 將目標物體作為特征,它計算圖像對不同目標特征的響應值,然后訓練SVM分類器根據響應值對場景類型進行分類。我們總共考慮 6中典型目標。

SPM. SPM 提取經典的圖像場景描述符 SIFT(Scale Invariant Feature Transform)特征,訓練線性SVM作為分類器。

SDPM. 與Object Bank相類似,SDPM使用基于部件的可變形模型(DPM)學習場景的結構特征,并為每類場景訓練LSVM模型。

Alexnet. 作為Place-CNN和我們的網絡的結構基礎,Alexnet作為評價的標準。利用隨機初始化的權重,直接訓練網絡的softmax作為分類器。

Place-CNN. 與Alexnet一樣,我們使用隨機初始化權重的Place-CNN網絡結構來進行場景分類。

3DGPs. 該方法研究3D幾何模型,用于獲取場景中一些常見的 3D空間配置,如經常一起出現的對象以及它們間的位置關系。通過迭代訓練得到10個3DGP模型訓練線性SVM作為分類器。

由表1可知,在訓練數據少的情況下,深度神經網絡的場景分類效果并不是很好,甚至比不上傳統分類方法。Alexnet和Place-CNN都是隨機初始化參數,直接訓練 softmax作為分類器,而后者的分類效果明顯不如前者。因為Place-CNN的網絡結構更適合進行特征提取,而不是直接用作分類,因此可以利用Place-CNN網絡結構提取特征,訓練SVM作為分類器,分類效果會更好。而本文方法實驗效果明顯優于其他方法,由于利用神經網絡提取顏色特征結合語義特征,并且SVM適用于少樣本訓練,本文中 SVM 作為分類器比 softmax直接分類效果好,其中以RBF Kernel SVM作為分類器效果最好。

4 結論

本文利用神經網絡提取顏色特征,結合目標與場景間的語義信息,在利用較少的樣本訓練模型的基礎上,在場景分類實驗中取得了很好的效果。本文方法既可以減少搜集及標記大量圖像樣本所需的人力、物力、財力,一定程度避免人工標記的錯誤,也可以避免過深的網絡所需的大量內存及計算問題。但仍存在一些問題,需要繼續研究。首先,需要訓練更多場景模型,才能推廣到更多場景的分類中。并且,可以通過利用場景幾何信息或者提高目標檢測結果準確度來提高結果準確性。

圖3 batchsize分別為16,128,622時的loss-iter曲線以及accuracy-iter曲線Fig.3 Loss-iteration curves, accuracy-iteration curves and loss-second curves when batch size is 16, 128, 622

表1 場景分類精確度Tab.1 Scene classification comparison

[1] TORRALBA A, MURPHY K P, FREEMAN W T, et al.Context-based vision system for place and object recognition[C].Computer Vision, Proceedings. Ninth IEEE International Conference on. IEEE, 2003: 273-280.

[2] VAILAYA A, FIGUEIREDO M A T, JAIN A K, et al. Image classification for content-based indexing[J]. Image Processing,IEEE Transactions on, 2001, 10(1): 117-130.

[3] LECUN Y, BOTTOU L, BENGIO Y, and HAFFNER P.Gradient-based learning applied to document recognition.Proceedings of the IEEE, 86(11): 2278–2324, 1998.

[4] KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. Ima-genet classification with deep convolutional neural networks.In In Advances in Neural Information Processing Systems,2012.

[5] SZEGEDY C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In IEEE, pages 1-9, 2015.

[6] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition. Preprint arXiv:1409. 1556, 2014.

[7] HE K, ZHANG X, REN S, SUN J. Deep Residual Learning for Image Recognition, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 00, no., pp.770-778, 2016, doi:10.1109/CVPR.2016.90.

[8] LAZEBNIK S, SCHMID C, and PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006. 1, 2, 3, 6

[9] ZHOU B, LAPEDRIZA A, XIAO J, TORRALBA A, and OLIVA A. Learning deep features for scene recognition using places database, Advances in Neural Information Processing Systems, pp. 487–495, 2014.

[10] CHANG A X, FUNKHOUSER T, GUIBAS L, HANRAHAN P, HUANG Q, LI Z, SAVARESE S, SAVVA M, SONG S,SU H, XIAO J, YI L, and YU F. Shapenet: An information-rich 3d model repository. In arXiv, 2015. 5

[11] CHOI M J, LIM J J, TORRALBA A, and WILLSKY A S.Exploiting hierarchical context on a large database of object categories. In CVPR, 2010. 2

[12] YAO J, FIDLER S, and URTASUN R. Describing the scene as a whole: Joint object detection, scene classification and semantic segmentation, Computer Vision and Pattern Recognition(CVPR), 2012 IEEE Conference on, pp. 702–709, IEEE,2012.

[13] LIN D, FIDLER S, and URTASUN R. Holistic scene understanding for 3d object detection with rgbd cameras, Computer Vision (ICCV), 2013 IEEE International Conference on, pp.1417–1424, IEEE, 2013.

[14] LUO R, PIAO S, and MIN H. Simultaneous place and object recognition with mobile robot using pose encoded contextual information. Robotics and Automation (ICRA), 2011 IEEE International Conference on, pp. 2792–2797, IEEE, 2011.

[15] ROGERS J G, CHRISTENSEN H, et al. A conditional random field model for place and object classification.Robotics and Automation (ICRA), 2012 IEEE International Conference on, pp. 1766–1772, IEEE, 2012.

[16] LI L J, SU H, XING E P, and LI F F. Object bank: A high-level image representation for scene classification &semantic feature sparsification. In NIPS, December 2010. 2,6, 7

[17] PANDEY M, LAZEBNIK S. Scene recognition and weakly supervised object localization with deformable part-based models. Computer Vision, IEEE International Conference on,vol. 00, no., pp. 1307-1314, 2011, doi:10.1109/ICCV.2011.6126383.

[18] FELZENSZWALB P, GIRSHICK R, ALLESTER D M, and RAMANAN D. Object detection with discriminatively trained part based models. PAMI, 32(9), Sept. 2010. 1, 2, 3, 5,6, 7.

[19] LIAO Y, KODAGODA S, WANG Y, SHI L and LIU Y.Understand Scene Categories by Objects: {A} Semantic Regularized Scene Classifier Using Convolutional Neural Networks .arXiv preprint arXiv: 1509. 06470.

[20] ZHANG Y, BAI M, KOHLI P, IZADI S, XIAO J. DeepContext:Context-Encoding Neural Pathways for 3D Holistic Scene Understanding.In arXiv: 1603. 04922 [cs.CV].

[21] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, SUTSKEVER I and SALAKHUTDINOV R. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research., pp. 1929-1958, 2014.

[22] CHOI W, CHAO Y, PANTOFARU C, SAVARESE S. Understanding indoor scenes using 3D geometric phrases. In CVPR(2013).

[23] CHOI W, et al. Indoor Scene Understanding with Geometric and Semantic Contexts. International Journal of Computer Vision112.2(2015):204-220.

猜你喜歡
語義分類利用
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
分類算一算
利用一半進行移多補少
語言與語義
分類討論求坐標
利用數的分解來思考
Roommate is necessary when far away from home
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 在线国产三级| 精品91自产拍在线| 国产精品网址你懂的| 久久免费视频播放| 色婷婷久久| 亚洲精品视频免费| 激情综合婷婷丁香五月尤物| 伊人无码视屏| 99久久性生片| 国产性猛交XXXX免费看| 国产丝袜丝视频在线观看| 亚洲日韩AV无码精品| 亚洲中文字幕无码爆乳| 中文字幕在线一区二区在线| 久久动漫精品| 四虎国产精品永久一区| 91久久性奴调教国产免费| 日韩毛片在线播放| 自拍偷拍欧美| 成人国产精品一级毛片天堂| 亚洲啪啪网| 中文字幕欧美日韩高清| 国产欧美视频在线观看| 国产一级毛片网站| 国产精品视频白浆免费视频| 扒开粉嫩的小缝隙喷白浆视频| 3344在线观看无码| 国产精品一区二区在线播放| 朝桐光一区二区| 欧美亚洲欧美区| 亚洲A∨无码精品午夜在线观看| 九九热免费在线视频| 一级毛片免费观看不卡视频| 日韩欧美一区在线观看| 亚洲中文字幕久久无码精品A| www.99精品视频在线播放| 伊人中文网| 国产不卡一级毛片视频| 91外围女在线观看| 亚洲综合二区| 亚洲高清在线天堂精品| 乱人伦视频中文字幕在线| 亚洲国产精品日韩欧美一区| www.精品国产| 国产尤物视频在线| 久久免费视频播放| 国产精品亚洲专区一区| 欧美日韩中文国产| 亚洲三级影院| 亚洲综合网在线观看| 国产爽爽视频| 无码专区在线观看| 五月天综合婷婷| 美美女高清毛片视频免费观看| 国产高清又黄又嫩的免费视频网站| 亚洲黄色高清| 干中文字幕| 亚洲天堂.com| 国产交换配偶在线视频| 欧美日韩免费| 欧美日韩中文字幕在线| 夜夜操天天摸| 少妇精品网站| 国产欧美日韩综合一区在线播放| 欧美日韩精品综合在线一区| 国产噜噜噜视频在线观看| 欧美不卡二区| 国产性生大片免费观看性欧美| 另类欧美日韩| 免费播放毛片| 国产激情无码一区二区三区免费| 亚洲中文字幕国产av| 国产无码高清视频不卡| 国产一区免费在线观看| 国产精品无码一区二区桃花视频| 在线日韩一区二区| 久久五月视频| 九九热视频精品在线| 中文字幕在线看视频一区二区三区| 久久五月视频| 精品无码一区二区三区在线视频| 综合天天色|