999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用于視頻圖像幀間運動補償的深度卷積神經網絡*

2016-11-25 06:25:57龍古燦張小虎于起峰
國防科技大學學報 2016年5期
關鍵詞:方法

龍古燦,張小虎,于起峰

(1.國防科技大學 航天科學與工程學院, 湖南 長沙 410073;2.國防科技大學 湖南省圖像測量與視覺導航重點實驗室, 湖南 長沙 410073)

?

用于視頻圖像幀間運動補償的深度卷積神經網絡*

龍古燦1, 2,張小虎1, 2,于起峰1, 2

(1.國防科技大學 航天科學與工程學院, 湖南 長沙 410073;2.國防科技大學 湖南省圖像測量與視覺導航重點實驗室, 湖南 長沙 410073)

為探索深度學習理論在視頻圖像幀間運動補償問題中的應用,提出一種用于視頻圖像幀間運動補償的深度卷積神經網絡。該網絡由卷積模塊和反卷積模塊構成,可以處理不同分辨率輸入圖像并具備保持較完整圖像細節的能力。利用具有時序一致性的視頻圖像序列構造訓練樣本,采用隨機梯度下降法對設計的深度卷積神經網絡進行訓練。視覺效果和數值評估實驗表明,訓練得到的網絡較傳統方法能更有效地進行視頻圖像幀間運動補償。

深度學習;卷積神經網絡;時序一致性;運動補償幀插值

視頻圖像幀間運動補償又稱運動補償幀插值[1-2](motion compensated frame interpolation),指利用視頻序列中連續兩幀圖像進行運動插值以合成中間幀圖像的過程。作為圖像與視頻處理領域的經典問題之一,其在視頻幀率提升、慢速視頻制作以及虛擬視圖合成等場合具有廣泛應用。目前常用的視頻圖像幀間運動補償方法首先基于光流場估計算法對輸入圖像對進行密集匹配,然后利用獲得的密集匹配信息逐像素對輸入圖像進行內插以合成中間幀圖像。由于光流場估計本身是一個病態問題,尤其在圖像紋理較弱或存在遮擋等情況下易效果不佳,現有方法在實際應用中常面臨困難。

近年來,基于深度學習的方法得到了廣泛關注,在如目標分類[3-4]、人臉識別[5]等眾多計算機視覺問題中取得了顯著優于傳統方法的效果。注意到該類方法成功的關鍵在于利用海量訓練樣本對合適的深度神經網絡進行訓練。對于本文關注的視頻圖像幀間運動補償問題,由于可以利用現有的海量視頻數據構造訓練樣本,適合采用基于深度學習的相關方法進行求解,但文獻中尚未見相關報道。本文對深度學習在視頻圖像幀間運動補償問題中的應用進行探索,利用具有時序一致性的視頻圖像序列構造訓練樣本,對設計的深度卷積神經網絡進行訓練以實現運動插值圖像的合成,在兩組包含大量弱紋理區域的測試圖像序列中取得了優于傳統方法的效果。

以下將首先介紹本文設計的用于視頻圖像幀間運動補償的卷積神經網絡結構;然后從訓練數據、目標函數設計以及訓練過程等方面介紹對設計的神經網絡進行訓練的情況;最后將基于本文深度卷積神經網絡的方法與傳統采用逐像素插值策略的運動補償幀插值方法進行比較。

1 深度卷積神經網絡設計

相較于設計傳統面向視覺目標分類的深度神經網絡[3-4],設計用于視頻圖像幀間運動補償的卷積神經網絡需要針對以下三個問題進行特別考慮:

1)不同于用于目標分類的網絡輸出僅為目標分類概率,面向本文任務的網絡輸出應為與輸入圖像分辨率相同的一幅完整圖像;

2)考慮到不同應用場合中采用的圖像長寬比通常各不相同的實際情況,用于運動補償幀插值的神經網絡應具備處理不同長寬比圖像的能力;

3)設計的網絡應當具備保持良好圖像細節的能力;同時應當考慮在網絡層數較多的情況下如何通過優化網絡結構以降低梯度彌散現象(gradient vanishing)的影響,使得可以采用隨機梯度下降法對其進行有效訓練。

本文設計的用于視頻圖像幀間運動補償的卷積神經網絡總體結構如圖1所示。構成該網絡的基本組件為卷積模塊(conv block)和反卷積模塊(dconv block),其具體組成如圖2所示。卷積模塊參考標準的卷積神經網絡進行設計,由卷積層(convolution layer)和激活函數層(activation layer)交替重復排列三次,并在最后加上池化層(pooling layer)組成。對于卷積層,本文采用VGG-Net[6]的建議,將感受野(receptive field)尺寸、跨步(stride)和內邊距(padding)依次設為3, 1, 1。 激活函數層則采用參數化修正線性單元(Parametric Rectified Linear Unit,PReLU)[7]作為激活函數;池化層的感受野尺寸為3,跨步為1。

從圖1各模塊右側表示其輸出數據維數的數字可見,數據每經過一次卷積模塊處理,空間尺寸減半。考慮本節開頭提出的第一個問題,為使整個網絡的輸出與輸入圖像保持同一空間分辨率,本文網絡的后半部分采用反卷積模塊進行構建。如圖2所示,每個反卷積模塊包含一個卷積轉秩層(CONVolution Transpose layer, CONVT)和兩個卷積層。其中卷積層的參數與卷積模塊中的卷積層參數一致,卷積轉秩層的感受野尺寸為4,跨步為1,內邊距為1,其具體組成形式請參見文獻[8-9]。數據每經過一次反卷積模塊處理,空間尺寸增加一倍。如此,輸入數據經過本文網絡的5個卷積模塊和5個反卷積模塊后,空間尺寸保持不變。

注:各模塊之間的箭頭表示信息流向;各模塊右側數字表示其輸出數據的維數。圖1 網絡結構示意圖Fig.1 Architecture of the designed convolutional neural network

針對本節開頭提出的問題三,為使得輸出圖像保持足夠的圖像細節,本文借鑒文獻[10]的思路進行網絡結構設計。如圖1左側箭頭所示,將卷積模塊2的輸出同時作為卷積模塊3和反卷積模塊2的輸入。并以同樣的方式使用卷積模塊3和卷積模塊4的輸出。由于圖像數據輸入卷積神經網絡后,隨著處理層數的增加,得到的特征描述更抽象,同時圖像細節損失越嚴重。將較淺層的輸出作為較深層的額外輸入,有利于最終輸出結果保持豐富的圖像細節。同時,類似于Highway Network[11]和Deep Residual Network[12]的設計原理,在網絡中引入如圖1左側箭頭所示的信息流,有助于幫助克服網絡訓練中的梯度彌散現象,使得隨機梯度下降算法取得更好的訓練效果。

圖2 卷積模塊和反卷積模塊Fig.2 Conv block and dconv block

對于本節開頭提出的問題二,即網絡應能對不同長寬比的輸入圖像進行處理的問題,本文設計的網絡為一個全卷積神經網絡。這種網絡的優點一方面在于充分利用了圖像數據的空間關聯性,網絡層數雖然很多,但其中包含大量共享參數,有利于避免過擬合(over fitting)問題并有效降低運算的時間和空間復雜度。另一方面,全卷積網絡的特點使得本文網絡能夠處理不同長寬比的輸入圖像。只需輸入圖像的高和寬方向尺寸分別為16的整數倍(即能被2整除5次),即可采用本文網絡進行處理。

2 深度卷積神經網絡的訓練

2.1 訓練數據

如前文所述,可以利用現有的海量自然視頻數據對上節設計的卷積神經網絡進行訓練,而不需要對數據進行費時費力的人工標注。這是因為自然視頻圖像序列通常具有時序一致性,即短時間內可以認為攝像機和拍攝物體均僅進行速度均勻的運動,十分適合于對本文網絡的訓練。

本文采用文獻[13]提供的KITTI原始數據和Durian開源電影項目Sintel視頻構造訓練樣本。KITTI視頻由安裝在汽車上的攝像機采集于德國Karlsruhe,其作為公開數據集主要面向自動駕駛應用,如光流場計算、Stereo、視覺里程計以及圖像分割等。Sintel視頻原本由文獻[14]進行改編以構造用于評估光流場估計算法的公開測試集。對于KITTI和Sintel數據,本文均僅使用其原始視頻數據提取訓練樣本。

KITTI數據集包含56個序列共16 951幀圖像。在每個序列中,取每連續三幀圖像(正序或反序)構成一個訓練樣本,第一幀和第三幀作為輸入圖像,第二幀作為運動插值圖像的真值。同時采用對各訓練樣本中包含的圖像進行左右翻轉、上下翻轉以及鏡像的方式構造增廣樣本,共生成133 921個訓練樣本。對于Sintel視頻,根據時序一致性標準共采集63個圖像序列,包含5670幀圖像。采用與KITTI數據類似的方式共構造44 352個訓練樣本。對于KITTI數據,輸入圖像被降采樣為384×128,對于Sintel數據,采用的圖像大小為256×128。

2.2 目標函數與訓練過程

(1)

(2)

式中ε設為0.1。

本文采用修改后的Caffe[18]在安裝有兩片NVIDIA Tesla K40c顯卡的高性能工作站上進行實驗。在神經網絡的訓練過程中,首先采用文獻[19]的方法對待優化參數w進行初始化,然后采用Adam方法[20]迭代優化求解式(2)描述的最優化問題。Momentum設為0.9;初始學習率(learning rate)設為0.001,并在優化過程中當觀察到目標函數不再下降后手動對學習率進行調整。訓練時使用的批(batch)大小為16。 整個訓練過程耗時約5 d。

3 實驗與分析

本節對上文設計和訓練的用于視頻圖像幀間運動補償的卷積神經網絡進行實驗。采用文獻[21]提供的方法作為對插值結果進行評估的基準算法,其中光流場計算部分采用目前在公開數據集[22]上排名靠前且提供源代碼的DeepFlow方法[23]進行。以下將采用本文提出的基于深度卷積神經網絡的方法(Deep Convolutional Neural Network, DCCN);將采用傳統逐像素插值策略(并基于DeepFlow計算密集圖像匹配)的方法簡稱為DeepFlow方法。

參與本節實驗評估的數據分為兩部分:第一部分為從2.1節描述的KITTI數據和Sintel數據中隨機抽取的各一個圖像序列(下文簡稱為KITTI序列和Sintel序列),注意這兩個圖像序列在訓練神經網絡時僅作為用于監控網絡訓練的驗證數據使用;第二部分為MiddleBurry數據集[21]中RubbleWhale序列以及一組用于醫學目的的DICOM圖像[24]。這兩組圖像序列(下文簡稱為Rubble序列和DICOM序列)主要用于評估本文訓練的神經網絡的泛化能力(generalization ability)。采用與2.1節類似的方法構造用于評估算法性能的圖像樣本:取序列中每連續三幀構造一個評估樣本,其中第一幀和第三幀圖像作為輸入圖像,第二幀圖像作為真值圖像。

3.1 視覺效果評估

首先從視覺效果方面評估分別由DCNN方法和DeepFlow方法進行視頻圖像幀間運動補償的結果。圖3展示了兩種方法對KITTI,Sintel和Rubble序列的代表性圖像進行運動補償即生成插值幀的效果,可見兩種方法均較好地對輸入圖像進行了運動插值。注意到DeepFlow方法雖然較DCNN方法保持了更多的圖像細節,但是存在部分錯誤插值的情況(如圖3中用矩形框標注的區域)。圖4展示了兩種方法在DICOM圖像序列上的效果,與圖3展示的結果類似,DCNN方法雖然較DeepFlow方法在圖像細節方面稍有損失,但是不存在如圖4矩形框中標出的DeepFlow方法明顯發生錯誤的情況。

從視覺效果評估結果看,DCNN方法不但能對與訓練數據類似的KITTI和Sintel圖像序列進行正確的運動插值,而且對與訓練圖像差別較大的圖像序列,如Rubble和DICOM序列,仍能進行正確的運動插值圖像生成,這表明訓練得到的神經網絡具有較好的泛化能力。

3.2 數值評估

采用文獻[21]提出的運動插值圖像評價準則對DCNN和DeepFlow方法生成的運動插值圖像進行數值評估。插值圖像I與真值圖像IGT之間的插值誤差(Interpolation Error, IE)由式(3)定義:

(3)

圖3 KITTI,Sintel和Rubble序列上的運動補償幀插值效果Fig.3 Example interpolated images in KITTI, Sintel and Rubble sequence

圖4 DICOM序列上的運動補償幀插值效果Fig.4 Example interpolated images in DICOM sequence

歸一化插值誤差(Normalized interpolation Error, NE)由式(4)定義:

(4)

對參與實驗的四組圖像序列分別采用DCNN和DeepFlow方法進行運動補償幀插值并計算插值誤差IE和歸一化插值誤差NE,得到的結果如表1所示。

表1 插值圖像的插值誤差和歸一化插值誤差(均值)

從表1中可見,在Sintel和Rubble序列上,以IE和NE評價,DCNN插值效果差于DeepFlow;對于Sintel序列,經過分析,發現導致DCNN插值誤差增大的原因在于該序列中某些幀之間運動過大;而對于Rubble序列,其幀與幀之間運動很小,插值誤差較大主要反映了DCNN保持圖像細節的能力弱于DeepFlow。

在KITTI和DICOM序列上,DCNN插值效果優于DeepFlow。觀察到這兩組序列圖像中包含大量弱紋理區域,采用DeepFlow方法估計幀間圖像運動即計算光流場難度較大,而DCNN 方法直接基于卷積神經網絡進行插值圖像生成,不需顯式計算精確的光流場,取得了較好的效果。同時,在DICOM序列上取得的良好數值評估效果進一步驗證了DCNN方法具備良好的泛化性能。

4 結論

設計并訓練了一個深度卷積神經網絡,對深度學習方法在視頻圖像幀間運動補償問題中的應用進行了探索。實驗結果表明,本文深度卷積神經網絡具備良好的泛化能力,能有效生成運動插值圖像,尤其適用于存在較多弱紋理區域的圖像序列。針對實驗中發現的問題,后續工作將圍繞以下三個方面展開:①深入分析現有卷積神經網絡適用于處理存在多大運動量的圖像序列;②研究具有更好保持圖像細節能力的網絡結構;③探索對全尺寸圖像進行運動插值的方法。

References)

[1] Choi B T, Lee S H, Ko S J. New frame rate up-conversion using bi-directional motion estimation [J]. IEEE Transactions on Consumer Electronics, 2000, 46(3): 603-609.

[2] Park D, Jeong J. Motion compensated frame rate up conversion using modified adaptive extended bilateral motion estimation [J]. Journal of Automation and Control Engineering, 2014, 2(4): 371-375.

[3] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks [C]//Proceedings of Advances in Neural Information Processing Systems, 2012.

[4] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015.

[5] Schroff F, Kalenichenko D, Philbin J. Facenet: a unified embedding for face recognition and clustering [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015.

[6] Chatfield K, Simonyan K, Vedaldi A, et al.Return of the devil in the details: delving deep into convolutional nets[C]//Proceedings of BMVC, arXiv preprint arXiv:1405.3531, 2014.

[7] He K M, Zhang X Y, Ren S Q, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification [C]//Proceedings of the IEEE International Conference on Computer Vision, 2015.

[8] Vedaldi A, Lenc K.MatConvNet-convolutional neural networks for MATLAB[R]. arXiv preprint arXiv:1412.4564, 2014.

[9] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks [C]//Proceedings of Computer Vision-ECCV 2014. Springer International Publishing, 2014: 818-833.

[10] Dosovitskiy A, Fischery P, Ilg E, et al. Flownet: learning optical flow with convolutional networks [C]//Proceedings of IEEE International Conference on Computer Vision, 2015:2758 - 2766.

[11] Srivastava R K, Greff K, Schmidhuber J. Training very deep networks[C]//Proceedings of Advances in Neural Information Processing Systems, 2015.

[12] He K M, Zhang X Y, Ren S Y, et al. Deep residual learning for image recognition [R]. arXiv preprint arXiv: 1512.03385, 2015.

[13] Geiger A, Lenz P, Stiller C, et al. Vision meets robotics: the KITTI dataset [J]. International Journal of Robotics Research, 2013, 32(11): 1231-1237.

[14] Butler D J, Wulff J, Stanley G B, et al. A naturalistic open source movie for optical flow evaluation [C]//Proceedings of European Conference on Computer Vision,Springer-Verlag, 2012: 611-625.

[15] Wang X L, Gupta A.Unsupervised learning of visual representations using videos [C]//Proceedings of IEEE International Conference on Computer Vision,IEEE, 2015:2794-2802.

[16] Goroshin R, Mathieu M, LeCun Y. Learning to linearize under uncertainty[R]. arXiv preprint arXiv: 1506.03011, 2015.

[17] Sun D, Roth S, Black M J. A quantitative analysis of current practices in optical flow estimation and the principles behind them [J]. International Journal of Computer Vision, 2014, 106(2): 115-137.

[18] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe: convolutional architecture for fast feature embedding [C]//Proceedings of the ACM International Conference on Multimedia, ACM, 2014.

[19] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks [J].Journal of Machine Learning Research, 2010, 9: 249-256.

[20] Kingma D, Ba J. Adam: a method for stochastic optimization[R]. arXiv preprint arXiv:1412.6980, 2014.

[21] Baker S, Scharstein D, Lewis J P, et al. A database and evaluation methodology for optical flow [J]. International Journal of Computer Vision, 2007, 92(1): 1-31.

[22] Andreas G, Lenz P, Urtasun R. Are we ready for autonomous driving? the KITTI vision benchmark suite [C]//Proceedings of the IEEE International Conference on Computer Vision, 2012: 3354-3361.

[23] Weinzaepfel P, Revaud J, Harchaoui Z,et al. Deepflow: large displacement optical flow with deep matching [C]//Proceedings of the IEEE International Conference on Computer Vision, 2013.

[24] DICOM sample image sets [EB/OL]. [2016-04-20] http://www.osirix-viewer.com/datasets/.

Deep convolutional neural network for motion compensated frame interpolation

LONG Gucan1, 2, ZHANG Xiaohu1, 2, YU Qifeng1, 2

(1. College of Aerospace Science and Engineering, National University of Defense Technology, Changsha 410073, China;2. Hunan Key Laboratory of Videometrics and Vision Navigation, National University of Defense Technology, Changsha 410073, China)

In order to explore the application of deep learning theory in the problem of motion compensated frame interpolation, a DCNN (deep convolutional neural network) built with convolutional blocks and deconvolutional blocks was proposed. The proposed DCNN is capable of processing input images with different resolutions and preserving fine-grained image details. The temporal coherent image sequences were used to construct the training sample and the stochastic gradient descent method was adopted to train the designed DCNN. Qualitative and quantitative experiments show that the trained DCNN obtains better interpolated images than the traditional approach in two testing images sequences.

deep learning; convolutional neural network; temporal coherence; motion compensated frame interpolation

10.11887/j.cn.201605022

http://journal.nudt.edu.cn

2016-04-27

國家重點基礎研究發展計劃資助項目(2013CB733100)

龍古燦(1988—),男,湖南瀏陽人,博士研究生,E-mail:longgucan@163.com;張小虎(通信作者),男,研究員,博士,博士生導師,E-mail:zxh1302@hotmail.com

TP391

A

1001-2486(2016)05-143-06

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 欧美日韩福利| 亚洲欧美日韩中文字幕在线一区| 亚洲欧洲日韩国产综合在线二区| 国产靠逼视频| 好久久免费视频高清| 国产激情在线视频| 亚洲无码日韩一区| 国产成人凹凸视频在线| 成人另类稀缺在线观看| 无码精油按摩潮喷在线播放| 欧美精品在线看| 中文字幕欧美成人免费| 国产成人91精品| 五月激情综合网| 麻豆国产在线观看一区二区| 99热这里只有成人精品国产| 亚洲一级毛片| 91视频99| 婷婷综合色| 在线观看91香蕉国产免费| 中文字幕久久精品波多野结| 欧美视频在线不卡| 毛片在线看网站| 538精品在线观看| 免费一级无码在线网站| 亚洲精品高清视频| 女人一级毛片| 欧美日一级片| 久久性妇女精品免费| 99re经典视频在线| 久视频免费精品6| 天天综合亚洲| 99久久99视频| 日韩av资源在线| 在线观看国产网址你懂的| 最新日本中文字幕| 少妇高潮惨叫久久久久久| 国产精品真实对白精彩久久| 一本大道香蕉久中文在线播放| 久久国产毛片| 极品私人尤物在线精品首页| 亚洲无码A视频在线| 国产成熟女人性满足视频| 成人在线观看不卡| 九九热在线视频| 日韩大片免费观看视频播放| 国产成人综合欧美精品久久| 精品一区国产精品| 国产精品三级av及在线观看| 国产伦精品一区二区三区视频优播| 国产欧美在线视频免费| 国产成人免费观看在线视频| 日本欧美视频在线观看| 2048国产精品原创综合在线| 亚洲精品动漫| 九九九久久国产精品| 国产美女人喷水在线观看| 欧美在线国产| 一本大道在线一本久道| 四虎永久免费在线| 日韩午夜伦| 欧美国产精品不卡在线观看| 国产白浆在线| 国产在线无码一区二区三区| 国产精品美女自慰喷水| 最新精品久久精品| 欧美成人免费午夜全| 亚洲,国产,日韩,综合一区| 一本大道视频精品人妻| 婷婷综合亚洲| 国产乱人伦AV在线A| 欧美精品成人| 久久久久久久久久国产精品| 欧美伦理一区| 国产中文一区二区苍井空| 国产高清毛片| 国产久操视频| 国产午夜福利亚洲第一| 国产精品无码翘臀在线看纯欲| 久久免费视频播放| 亚洲成人动漫在线观看| 国产亚洲精品无码专|