李森 許宏科



摘 要:視頻幀預測是計算機視覺領域一個重要的研究領域,并且擁有廣泛的應用。目前,常用的視頻幀預測模型雖然取得了一定的效果,但由于這類模型并不能在時空信息上同時建模,因此難以在更加復雜度的現實場景下應用。針對此問題,文中提出一種深度時空建模神經絡。該網絡通過預測未來光流,并利用該光流對前一幀圖像進行采用的方法來預測未來圖像,此外分別加入卷積LSTM與自注意力機制進行時空信息的建模。文章在Caltech行人數據集上進行了充分的實驗,并取得了較好的實驗結果。
關鍵詞:視頻幀;深度學習;光流預測;自注意力機制;深度時空建模;計算機視覺
中圖分類號:TP391.4文獻標識碼:A文章編號:2095-1302(2020)02-00-04
0 引 言
隨著深度學習的快速發展,視頻幀預測已經成為一個研究的熱點方向,并且在智能駕駛領域擁有廣泛的應用前景。例如,研究人員可以利用歷史幀的圖像信息,分析車外行人和車輛的運動軌跡信息,從而來預測未來車外物體的位置,提前對車輛進行控制,在輔助駕駛中可以避免交通事故的發生,此外,也可提升無人駕駛的安全性。
目前,對于視頻幀預測問題,大部分模型都是通過直接生成的方法來對未來的圖像進行預測。Srivastava等人利用LSTM解決時間信息的傳遞,并通過編碼器到解碼器的方法進行未來幀的生成[1-2]。此外,Lotter等人以CNN-LSTM-deCNN為基礎,利用對抗學習的思想進行視頻序列的預測[3]。但是LSTM并不能學習圖像的空間信息。因此,Lotter等人利用卷積LSTM進行圖像空間信息的學習,并通過減小向前預測誤差的方式提高未來幀預測的效果[4-5]。然而由于現實場景的復雜性,直接生成的方法難以保證所有像素都生成得準確,往往造成模糊的預測。
此外,通過利用兩幀之間光流進行采樣的方法[6-7]常用于圖像的生成,可以避免生成圖像模糊的。例如,Liu等人通過預測歷史幀和未來幀之間的光流[8],并利用該光流在歷史幀上采樣的方法(光流采樣法)來預測未來圖像,并取得了較好的效果。
因此,本文針對于直接生成方法預測視頻幀會產生模糊的情況,提出了一種利用預測光流采樣法來生成未來圖像的模型。不同于常見的光流采樣法,該模型利用共享編碼網絡進行連續幀的特征提取,并加入由卷積LSTM[5]組成的時空信息模塊進行連續特征圖的信息傳遞,以保證時空信息的一整性。此外,還加入自注意力機制[9],在生成的特征圖上進行空間信息學習。在完成時空信息建模后,對得到的特征圖進行反卷積生成未來光流,并通過采樣的方法得到最終預測的未來該模型分別使用兩大模塊進行時空信息的建模,經試驗證明該模型具有較好的結果。
1 模型結構
圖1展示了本文模型的主要結構,包括編碼網絡、時空信息學習模塊、自注意力學習模塊以及解碼網絡。
1.1 編碼網絡
在深度學習領域,卷積神經網絡(CNN)如AlexNet[10],VGG[11]和ResNet[12]常用于提取圖像的特征,以用于后續的檢測、跟蹤等任務。本文在降低模型復雜度的前提下構建編碼網絡,以提取連續幀的圖像信息。如圖1所示,輸入連續4幀圖像I14={I1, I2, I3, I4},并通過共享編碼網絡E得到連續4幅特征圖Z14={Z1, Z2, Z3, Z4},其中每一個特征圖的計算公式如下所示:
該編碼網絡E主要由卷積(convolution layer)、最大池化層(max pooling layer)、批量歸一化層(batchnormalization layer)以及線性整流激活函數層(ReLU layer),其中采用5×5,5×5,3×3和3×3的卷積核。
1.2 時空信息學習模塊
這里將編碼網絡E得到的4組特征圖Z14輸入到由卷積LSTM組成的時空信息學習模塊S,進行時空信息的建模。
不同于傳統的LSTM,卷積LSTM既可以像LSTM一樣進行時間建模,同時也可以在空間維度上建模。每一個時間結點上輸入對應的特征圖,輸出對應的隱藏信息和細胞狀態。因此,每個時間結點的卷積LSTM計算公式如下所示,
式中:t=1, 2, 3, 4;h0和c0初始化為0;“*”和“”分別代表卷積操作和元素對位相乘操作。因此,這里將4個時間結點的卷積LSTM操作組成時空信息學習模塊S,并輸入Z14,最終得到特征h4,其計算流程如公式(3)所示:
1.3 自注意力學習模塊
在卷積神經網絡當中,由于卷積核的尺寸大小是有限的,因此卷積操作只能覆蓋像素點周圍的臨近區域,無法獲得較遠區域的特征,造成了特征信息的損失。為避免此類問題,研究人員經常用圖像的多尺度方法來解決此問題,然而這樣卻造成了模型過于復雜。因此,自注意力學習機制被提出。它的計算流程如圖2所示。
自注意力機制通過計算圖像中任意兩個像素點之間的關系進而獲取整幅圖像的全局幾何特征。在圖像預測過程中,需要根據特征圖中各特征點之間的關系,生成未來特征圖中各位置上的特征值。因此,在模型中利用自注意力模塊A進行空間建模,其計算過程如下所示:
在我們的模型當中,通過利用時空信息模塊S和自注意力學習模塊A可以充分對編碼后的特征圖進行時空建模,學習特征圖之間的時空信息以得到最終的特征圖M。
1.4 解碼網絡
解碼網絡D通過解碼特征圖M生成最終的光流F,其計算流程下所示:
解碼網絡D由三個反卷積層和一個卷積層組成。其中,每個反卷積層包括雙線性插值上采樣函數(bilinearsampling)、卷積層(convolution)批量歸一化層(batch normalization layer)以及線性整流激活函數層(ReLU layer)。卷積層相比較于反卷積層去掉了雙線性插值上采樣函數。解碼網絡D中每個卷積核分別為3×3,3×3,5×5和5×5。
1.5 訓練學習
對于模型的訓練,在此采用l1重構誤差。對應的最小化目標函數為:
此外,采用Adam優化器,其中參數β1=0.9,β2=0.999。訓練過程中的學習率為0.001。模型的權重初始化方法為Xaviers normalized,并且卷積LSTM的細胞狀態初始化為0。本文的實驗基于Pytorch深度學習框架下實現,并在單個英偉達1080ti GPU上訓練。
2 實 驗
2.1 數據預處理
實驗在Caltech行人數據集[13]上進行了訓練及測試,并與其他算法進行了對比。該數據集是由安裝在汽車上的攝像頭在城市道路上進行采集,視頻時長約10 h,且大小為640×480。其中:訓練集有71個視頻序列;測試集有66個視頻序列。
在實驗前,首先進行分幀處理,然后將每一幀圖像的大小重新調整為256×256,并且其中每個像素點的值歸一化到-1~1。在訓練過程中采樣4幀去預測下一幀。一共訓練大約100輪。在測試階段,同樣使用連續4幀去預測下一幀圖像。實驗中,通過使用MSE和SSIM兩個指標去評價預測圖像的質量,其中,MSE越小、SSIM越大代表預測效果越好。
2.2 單幀預測
本文利用前四幀圖像預測下一幀圖像并與目前效果最好的三種算法進行了對比,見表1所列。通過對比發現,Dual Motion GAN[14]算法的MSE最低,能達到0.002 41;其次,它的SSIM最高,能達到0.899。BeyondMSE[15]的效果在所有算法中最差MSE有0.003 26,SSIM為0.881。本文模型的SSIM值要高于其他所有算法,可以達到0.930。
通過圖3預測圖像和真實圖像的對比可知,無論途中的車輛以何種方向運動,本文模型能夠準確預測運動目標在下一幀的位置,并且當圖像中運動目標較多時,本文模型依舊能夠準確預測所有目標的位置。因此,本文算法有較好的圖像預測能力,可以將未來圖像進行重構。
2.3 多幀預測
在視頻幀預測領域中,長時間的預測也是一個重點考慮的問題。因此,同樣在Caltech數據集上測試了模型的多幀預測能力。在此仍然使用輸入4幀預測1幀的模型進行測試,每次將預測幀圖像加入到輸入序列當中,并把輸入序列的最后4幀做為輸入再次進行下一幀預測。見表2所列,將本文算法與BeyondMSE[15]和Dual Motion GAN[14]進行多幀效果對比,并用SSIM做為評價指標。
由表2可知,本文模型在未來2幀幀的SSIM值要遠大于其他算法,但是在第3幀預測效果卻要差于其他兩種算法,這是因為其他兩種算法都輸入10幀的圖像,而本文算法的圖像僅輸入4幀,因此在長時間預測方面滿意保持較好的結果。同時,也對多幀預測的輸出結果做了可視化,如圖4所示,在此預測了未來連續5幀的圖像。通過和真實圖像比較可以發現,盡管圖中的運動物體較多,但是本文的模型能夠準確預測未來運動目標的位置,并且能夠生成十分逼真的圖像。因此,本文模型完全能夠應用到預測未來多幀的情況。
2.4 光流預測
在預測未來圖像的同時,本文模型有預測未來光流的能力。因此,對模型采樣前得到的未來光流圖進行了可視化,如圖5所示。
通過觀察圖5可以發現,本文模型能夠精準的預測圖中汽車的運動趨勢,可見該模型可以準確的預測未來光流。
3 結 語
本文提出的基于時空建模的視頻幀預測模型通過預測未來光流的方法來預測未來圖像。其中編碼模塊能夠對輸入圖像進行特征的提取。然后,嵌入的時空信息模塊和自注意力學習模塊可以進行時空信息建模。其次,通過解碼網絡可以準去預測未來光流,進而通過采樣的方法預測未來圖像。大量的實驗也證明了本文模型有較強的單幀預測能力和多幀預測能力。在接下來的工作中,主要解決多輸入幀數情況下的預測,以及提高多幀預測的性能。
參 考 文 獻
[1] SRIVASTAVA N,MANSIMOV E,SALAKHUTDINOV R. Unsupervised learning of video representations using LSTMs [C]// Proceedings of international conference on machine learning. 2015:843-852.
[2] HOCHREITER S,SCHMIDHUBER J. Long short-term memory [J]. Neural computation,1997,9(8):1735-1780.
[3] LOTTER W,KREIMAN G,COX D. Unsupervised learning of visual structure using predictive generative networks [J]. arXiv preprintarXiv:1511.06380,2015.
[4] LOTTER W,KREIMAN G,COX D. Deep predictive coding networks for video prediction and unsupervised learning [J]. arXiv preprint arXiv:1605.08104,2016.
[5] SHI Xingjian,CHEN Z,WANG H,et al. Convolutional LSTM network: a machine learning approach for precipitation now casting [C]// Advances in Neural Information Processing Systems. 2015:802-810.
[6] RANJAN A,BLACK M J. Optical flow estimation using a spatial pyramid network [C]// IEEE Conference on Computer Vision and Pattern Recognition. 2017:2720-2729.
[7] JADERBERG M,SIMONYAN K,ZISSERMAN A. Spatial transformer networks [C]// Advances in Neural Information Processing Systems. 2015:2017-2025.
[8] LIU Z,YEH R A,TANG X,et al. Video frame synthesis using deep voxel flow [C]// Proceedings of the IEEE International Conference on Computer Vision. 2017:4463-4471.
[9] ZHANG H,GOODFELLOW I,METAXAS D,et al. Self-attention generative adversarial networks [J]. arXiv preprint arXiv:1805.08318,2018.
[10] KRIZHEVSKY A,SUTSKEVER I,HINTON G. Imagenet classification with deep convolutional neural networks [C]// NIPS. Curran Associates Inc. 2012.
[11] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv:1409.1556,2014.
[12] HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.
[13] DOLLAR P,WOJEK C,SCHIELE B,et al. Pedestrian detection: a benchmark. computer vision and pattern recognition,CVPR 2009 [C]// IEEE Conference on. 2009:304-311.
[14] LIANG X,LEE L,DAI W,et al. Dual motion gan for future-flow embedded video prediction [C]// Proceedings of the IEEE International Conference on Computer Vision. 2017:1744-1752.
[15] MATHIEU M,COUPRIE C,LECUN Y. Deep multi-scale video prediction beyond mean square error [J]. arXiv preprint arXiv:1511.05440,2015.