999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的多模態視頻場景分割優化算法

2022-01-01 00:00:00黃清豐洪才劉立
計算機應用研究 2022年5期

摘 要: 針對基于內容的視頻檢索中場景分割效率有待提高的問題,提出了一種基于卷積神經網絡提取特征的多模態視頻場景分割優化算法。首先利用改進的VGG19網絡從視頻鏡頭中提取多種模態的底層特征和語義特征,再將這些特征組成向量,然后通過三重損失學習與鏡頭相似度計算等方法,使場景分割問題轉換為對鏡頭邊界的二分類問題,最后建立評分機制優化所得結果,獲取分割好的視頻場景及對應的場景邊界,完成場景分割任務。實驗結果表明,該算法能對視頻場景進行有效分割,整體查全率與查準率分別能達到85.77%、87.01%。

關鍵詞: 場景分割; 多模態; 卷積神經網絡; 相似度度量; VGG19

中圖分類號: TP37"" 文獻標志碼: A

文章編號: 1001-3695(2022)05-054-1595-06

doi:10.19734/j.issn.1001-3695.2021.10.0404

Multi-modal video scene segmentation optimization algorithm based on convolutional neural network

Huang Qinga, Feng Hongcaib, Liu Lia

(a.School of Mathematics amp; Computer Sciences, b.Network amp; Information Center, Wuhan Polytechnic University, Wuhan 430023, China)

Abstract: Aiming at the problem that the efficiency of scene segmentation in content-based video retrieval needs to be improved,this paper proposed a multi-modal video scene segmentation optimization algorithm based on feature extraction of convolutional neural network.Firstly,the algorithm applied the improved VGG19 network to extract underlying features and semantic features from each video shots.Secondly,this paper combined these features into vectors and applied the method of triplet loss learning and shot similarity calculation,so that converted the scene segmentation task to a binary classification problem for shot boundary.Finally,this paper established a scoring mechanism to optimize the results and obtained the segmented video scene and corresponding scene boundary.Experimental results show that the algorithm can be effective in video scene segmentation,and the overall recall and precision indicators can reach 85.77% and 87.01%.

Key words: scene segmentation; multi-modal; convolutional neural networks(CNN); similarity measure; VGG19

視頻場景分割是實現視頻場景構建和檢索的關鍵步驟,以視頻鏡頭作為研究內容,將相似的連續鏡頭組合到同一場景中,將視頻分割成若干個語義相關的邏輯故事單元[1]。視頻摘要和檢索等更高層次的任務要求以場景作為基本單元[2],近年來國內外研究者對視頻場景分割進行了大量研究。Sidiropoulos等人[3]通過引入鏡頭轉換圖(shot transition graph,STG)的方法進行視頻場景分割,其中每個節點都代表一個鏡頭,并根據它們之間的相似度對節點之間的邊進行加權,最后,利用歸一化切割將STG分解為子圖,檢測場景邊界。但該方法沒有充分考慮鏡頭間的語義相關關系,因此生成的子圖難以形成語義層面的場景,導致分割結果不夠準確。Kumar等人[4]采用鏡頭相似度圖(shot similarity graph,SSG)法解決場景分割問題,并添加滑動窗口來控制場景檢測過程,通過鏡頭相似度計算,動態調整滑動窗口的長度,避免了場景分割過多或過少的問題。該方法能有效地提高檢測精度,但存在檢測效率較低等問題。Ji等人[5]提出了一種基于深度模型的語義視頻場景分割方法,通過提取關鍵幀視覺特征生成的文本描述檢測鏡頭之間的相似性,但該方法只使用單一特征,沒有利用多模態融合思想,導致分割結果不夠準確。Haq等人[6]通過一種基于三折疊框架的智能卷積神經網絡研究場景分割,第一次折疊將輸入的影片分割成鏡頭,第二次折疊檢測分割鏡頭中的目標,第三次折疊基于目標進行鏡頭匹配,檢測場景邊界,但該方法依賴于場景中對象的匹配,適用于對象明確的電影類視頻場景分割。

針對上述方法存在難以兼顧效率和質量的問題,本文提出了一種基于卷積神經網絡提取特征的多模態視頻場景分割算法,利用卷積神經網絡的優勢直接提取視頻幀的底層特征,輸出視頻鏡頭的混合特征向量,達到了高效率提取和處理視頻底層特征的效果,同時將視頻底層特征和語義特征結合起來,通過三重損失學習和鏡頭相似度等方法判斷鏡頭相似度,將場景分割問題轉換為對鏡頭邊界的二分類問題,并加入優化算法優化場景分割結果,其整體框架如圖1所示。

1 鏡頭分割及特征提取

視頻場景分割問題可以看做是鏡頭邊界的一種二分類問題,即判斷某個鏡頭邊界是否同時為場景邊界[7]。視頻鏡頭分割得到的鏡頭邊界不僅是重要預處理步驟,也是實現視頻場景分割和特征提取的必要步驟。

1.1 鏡頭分割與關鍵幀提取

1.1.1 鏡頭分割

鏡頭是攝像機一次開關機攝取的連續畫面片段,其切換方式通常有突變切換和漸變切換等。文獻[8]提出了一種基于全卷積神經網絡的鏡頭邊界檢測方法用于鏡頭分割,該算法對于視頻幀中的像素和鏡頭邊界進行端對端的學習,創建了一個包含100萬幀的數據集,并自動生成諸如切變、溶解和淡入等過渡效果,然后提出了一個在時間上完全卷積的CNN模型,使用大量時間上下文信息,最終達到鏡頭分割目的。本文在進行鏡頭分割時,先使用通用的顏色直方圖法進行分割預處理,在識別突變鏡頭邊界的同時分離視頻,以便減少后續工作量,然后應用文獻[8]算法識別遺漏的突變及漸變鏡頭邊界。

4 實驗結果與分析

4.1 數據集、實驗環境

本文選取TRECVID官方提供的視頻數據集進行實驗,該數據集是一個公開可用的評估數據集,用于視頻內容的分析和檢索,其提供各種類型的多媒體視頻數據,自2009年以來一直在不斷更新。本文使用TRECVID2020中的IACC.3數據集以及從網絡上下載的一些視頻(來源:http://youku.com),并從中選擇了多種視頻,涵蓋了電影、動畫、體育、新聞、電視劇等類型,每個視頻的長度在29~32 min,表1展示了部分用于測試的視頻信息。所有程序均在CPU Intel i7 3.6 GHz,內存24 GB,操作系統為Windows 10的PC上實現。網絡模型訓練使用Python語言,框架為TensorFlow2.4.0與Keras。視頻數據前期處理部分使用MATLAB R2016a。

4.2 評價指標

本文使用查全率(R) 、查準率(P)以及對兩者進行綜合度量的指標F值(F)來對實驗結果進行客觀評價,這些指標是對視頻場景分割效果的通用評價指標,計算公式如下:

R=ncna×100%,P=ncnd×100%,F=2×P×RP+R×100%(16)

其中:nc為算法構造的正確場景數;na為視頻實際場景總數;nd為算法構造的場景總數。

4.3 網絡訓練過程

對于用來提取視覺特征的VGG19網絡,其前16個卷積層與池化層的參數通過預訓練得到,只需訓練添加的卷積層conv6的參數,其參數數量與block5_conv4的參數數量相等,同為2 359 808。訓練時采用梯度下降法 (stochastic gradient descent,SGD) 優化算法,學習率取默認值0.01。表2為網絡訓練的具體參數配置。

圖7展示了該網絡迭代次數對算法最終實驗結果的影響??梢钥闯霎數螖递^少時,學習次數不夠,使得最終結果準確率不足,但由于視覺特征只是視頻場景分割依據的其中一環,所以結果仍有一定的準確度。之后隨著迭代次數的增加,F值不斷上升,經過2 000次迭代時已經趨于穩定。

對于用來提取語義特征的網絡,由于本文并未對VGG19的內容進行改動,只是去掉了一個全連接與softmax層,所以所有參數可以通過文獻[16]的方法進行預訓練得到,這樣可以節約大量時間。

4.4 實驗結果與分析

對不同的鏡頭檢測算法實際效果進行測試,最終確認本文所采用鏡頭的檢測方法,表3展示了這些算法的速度對比。

由表3可以看出,本文采用的鏡頭檢測方法能在極快的速度下保持準確度,以提升整個視頻場景分割算法運行速度。圖8展示了某片段使用不同關鍵幀提取方法的結果??梢钥闯觯S機取樣得到的關鍵幀結果與真實關鍵幀重合度偏低,而使用算法可以明顯提升重合度,從而提升視頻場景分割準確度。

在主要用于視頻檢索任務的IACC.3數據集上,將本文算法與文獻[4]中利用鏡頭相似度指數的SSG、文獻[5]中利用視頻視覺神經網絡特征的DeepSSS進行比較,所有的實驗結果如表4所示。將所有實驗結果進行匯總,最終得出三種算法的整體查全率、查準率及F值,如表5所示。三種評價指標的單位均為%,保留四位有效數字。

由表4、5可以看出,相比于SSG算法,本文算法的整體查全率、查準率以及F值均有10%左右的提升,主要原因是SSG雖然考慮了鏡頭之間的相似性,但忽略了鏡頭中大量有用的語義信息,導致分割結果不夠準確。與DeepSSS算法相比,本文算法雖然在查準率方面略低,但是查全率與F值分別提升16%與8%,這主要是因為DeepSSS算法雖然采用深度學習的方法來提取特征,使得分割結果的查準率非常高,但并沒有對鏡頭多種模態的信息進行提取,導致查全率偏低。本文根據深度學習框架,對VGG19網絡進行不同的改進,從視頻中提取多種模態的底層特征與語義特征,并通過三重損失學習及鏡頭相似度計算等方法,對鏡頭邊界進行判定,然后進行優化并得到語義層面的場景,有效解決了語義鴻溝的問題,提高了場景分割的準確度,使得最終分割結果的整體查全率與查準率能達到85.77%和87.01%。

圖9展示了同一段視頻三種不同算法的運行結果,這段12 min的視頻,共有八個場景,七個場景邊界。按照定義,算法構造場景邊界與實際場景邊界相距在3 s內即視為正確。由圖片可以直觀地看出,文獻[4]構造的場景以及對應的場景邊界大致上準確,但中間部分有多個語義信息相關的場景切換識別錯誤;文獻[5]構造的場景基本正確,但是存在多個場景檢測缺漏,查全率偏低;本文算法構造場景基本正確,相比于另外兩種算法大幅提升了準確度。

同時對于本文算法,通過調整不同特征與對比不同卷積神經網絡結構等所得結果也進行了對比,如表6所示。

由表6可以看出,使用不同的特征將會對分割的結果產生巨大的影響。在僅使用視覺特征、音頻特征或者語義特征等單一特征時,實驗結果的F值只有45.92%、26.53%和56.12%,在使用多模態神經網絡特征但未經過優化算法時,實驗結果的F值為78.57%。本文使用多種模態的神經網絡特征作為場景分割的提取特征,并加入場景分割優化算法,最終F值能達到86.73%。同時還能看出使用不同的網絡結構對分割結果造成的影響,使用VGG19總體上結果會比VGG16好1.6%以上。

5 結束語

a)本文提出的基于卷積神經網絡提取特征的多模態視頻場景分割優化算法,可以將復雜的場景分割問題轉換為鏡頭邊界的二分類問題,從視頻中提取豐富的視覺、音頻與高級語義特征,根據這些特征并利用三重損失學習與鏡頭相似度度量計算鏡頭之間的相似度對鏡頭邊界進行判斷,然后對得到的初步分割結果進行優化,最終實現了視頻場景分割的目標;b)受限于目前的機器性能,仍需要提取關鍵幀來代替鏡頭,這樣會丟失許多信息,隨著計算機性能的發展,未來可以考慮直接學習整個鏡頭來端對端地進行場景分割,提高準確率。

參考文獻:

[1]Shi Lin,Chi Zengxiao,Meng Xiangzeng.A new automatic visual scene segmentation algorithm for flash movie[J].Multimedia Tools and Applications,2019,78(22):31617-31632.

[2]Lin Xiao,Casas J R,Pardas M.Temporally coherent 3D point cloud video segmentation in generic scenes[J].IEEE Trans on Image Processing,2018,27(6):3087-3099.

[3]Sidiropoulos P,Mezaris V,Kompatsiaris I,et al.Temporal video segmentation to scenes using high-level audiovisual features[J].IEEE Trans on Circuits amp; Systems for Video Technology,2011,21(8):1163-1177.

[4]Kumar N,Sukavanam N.Keyframes and shot boundaries:the attributes of scene segmentation and classification[M]//Harmony Search and Nature Inspired Optimization Algorithms.Singapore:Springer,2019:771-782.

[5]Ji H,Hooshyar D,Kim K,et al.A semantic-based video scene segmentation using a deep neural network[J].Journal of Information Science,2019,45(6):833-844.

[6]Haq I U,Muhammad K,Hussain T,et al.Movie scene segmentation using object detection and set theory[J].International Journal of Distributed Sensor Networks,2019,15(6):1-8.

[7]Rao Anyi,Xu Linning,Xiong Yu,et al.A local-to-global approach to multi-modal movie scene segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10143-10152.

[8]Gygli M.Ridiculously fast shot boundary detection with fully convolutional neural networks[C]//Proc of International Conference on Content-Based Multimedia Indexing.Piscataway,NJ:IEEE Press,2018:1-4.

[9]田麗華,張咪,李晨.基于運動目標特征的關鍵幀提取算法[J].計算機應用研究,2019,36(10):3183-3186. (Tian Lihua,Zhang Mi,Li Chen.Key frame extraction algorithm based on feature of mo-ving target[J].Application Research of Computers,2019,36(10):3183-3186.)

[10]Bi Chongke,Yuan Ye,Zhang Jiawan,et al.Dynamic mode decomposition-based video shot detection[J].IEEE Access,2018,6:21397-21407.

[11]Protasov S,Khan A M,Sozykin K,et al.Using deep features for video scene detection and annotation[J].Signal Image amp; Video Proces-sing,2018,12(5):991-999.

[12]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10).https://arxiv.org/abs/1409.1556.

[13]Qiu Zhaofan,Yao Ting,Mei Tao.Learning deep spatio-temporal dependency for semantic video segmentation[J].IEEE Trans on Multimedia,2017,20(4):939-949.

[14]Chung J S.Naver at ActivityNet challenge 2019-task b active speaker detection (AVA)[EB/OL].(2019-06-25)[2021-09-30].https://arxiv.org/abs/1906.10555v1.

[15]Abdulhussain S H,Al-Haddad S,Saripan M I,et al.Fast temporal vi-deo segmentation based on Krawtchouk-Tchebichef moments[J].IEEE Access,2020,8:72347-72359.

[16]Zhou Bolei,Lapedriza A,Khosla A,et al.Places:a 10 million image database for scene recognition[J].IEEE Trans on Pattern Analysis amp; Machine Intelligence,2018,40(6):1452-1464.

[17]李雯莉,張素蘭,張繼福,等.基于卷積神經網絡和概念格的圖像語義完備標注[J].小型微型計算機系統,2020,41(9):1979-1986. (Li Wenli,Zhang Sulan,Zhang Jifu,et al.Image sematic completion annotation based on CNN and concept lattice[J].Journal of Chinese Computer Systems,2020,41(9):1979-1986.)

[18]Wang Rui,Jiang Li,Yuan Jing,et al.Virtual reality scene construction based on multimodal video scene segmentation algorithm[C]//Proc of the 8th IEEE Joint International Information Technology and Artificial Intelligence Conference.Piscataway,NJ:IEEE Press,2019:1817-1820.

[19]Schroff F,Kalenichenko D,Philbin J.FaceNet:a unified embedding for face recognition and clustering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:815-823.

[20]Hussain T,Muhammad K,Ullah A,et al.Cloud-assisted multiview video summarization using CNN and bidirectional LSTM[J].IEEE Trans on Industrial Informatics,2020,16(1):77-86.

[21]Bouyahi M,Ayed Y B.Video scenes segmentation based on multimodal genre prediction[J].Procedia Computer Science,2020,176(1):10-21.

主站蜘蛛池模板: 国产午夜一级淫片| 国产精品美人久久久久久AV| 5555国产在线观看| 欧美一级在线| 成年网址网站在线观看| 久久这里只精品国产99热8| 日韩精品一区二区三区中文无码 | 欧美.成人.综合在线| 天天综合网色中文字幕| 黄色福利在线| 亚洲大尺度在线| 欧美日韩北条麻妃一区二区| 好吊妞欧美视频免费| 中文字幕资源站| 黄色福利在线| 亚洲欧美不卡视频| 精品无码一区二区三区电影| 国产精品综合久久久| 国产麻豆永久视频| 五月综合色婷婷| 久久伊人操| 精品国产亚洲人成在线| 亚洲黄色视频在线观看一区| 久久精品电影| 久久久久九九精品影院| 国产超薄肉色丝袜网站| 青青国产视频| 亚洲一本大道在线| 蜜桃视频一区| 精品成人免费自拍视频| 国产在线精彩视频论坛| 欧洲极品无码一区二区三区| 91无码网站| 国产精品免费露脸视频| 一本色道久久88亚洲综合| 无遮挡一级毛片呦女视频| 成人精品亚洲| 波多野结衣中文字幕一区二区| 欧美成人综合视频| 首页亚洲国产丝袜长腿综合| 亚洲中文字幕久久精品无码一区| 色精品视频| 日本成人精品视频| аⅴ资源中文在线天堂| 制服丝袜在线视频香蕉| 日韩精品亚洲精品第一页| 亚洲国产成人久久精品软件 | 亚洲精品手机在线| 亚洲一区二区三区国产精品 | 亚洲男女在线| 伊人色婷婷| 久久成人18免费| 国产成+人+综合+亚洲欧美| 亚洲AⅤ波多系列中文字幕| 亚洲天堂日韩av电影| 91国内外精品自在线播放| 一级毛片网| 成人综合网址| 欧美激情视频二区| 色爽网免费视频| 国产女人综合久久精品视| 国产成人AV综合久久| 亚洲欧美国产五月天综合| 伊人色天堂| 97视频免费在线观看| 在线看片免费人成视久网下载| 97影院午夜在线观看视频| 亚洲精品图区| 丁香婷婷激情综合激情| 亚洲性视频网站| 91伊人国产| 免费aa毛片| 尤物亚洲最大AV无码网站| 日韩免费毛片| 欧美色亚洲| www.av男人.com| 欧美国产日韩在线观看| 九九这里只有精品视频| 午夜免费视频网站| 久久无码av三级| 在线观看热码亚洲av每日更新| 国产视频一区二区在线观看|