999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合時空特征和視覺感知的全參考視頻質量評價

2023-12-31 00:00:00劉聰孔廣黔段迅吳云
計算機應用研究 2023年7期

摘 要:視頻失真主要來源于空間和時間失真導致的視頻質量退化。針對這兩種視頻質量退化,提出了一種結合時空特征和視覺感知的全參考視頻質量評價方法STPFVQA。首先,使用ResNet50卷積網絡從參考視頻和失真視頻中提取空間感知特征;其次將提取的空間感知特征送入transformer編解碼器中,用來構建視頻的序列化關系,同時對比參考視頻和失真視頻,探索失真對視頻序列關系造成的影響;然后將transformer的輸出送入預測頭,形成幀級分數;最后為了模擬人類視覺系統感知的滯后性,從短期、長期和全局記憶效應來綜合考慮獲得最終的視頻質量分數。為了驗證方法的可行性,在LIVE、IVC-IC、CSIQ和IVPL四個公開數據集上進行了實驗。實驗結果表明提出模型更符合人類視覺系統感知情況。在IVC-IC和CSIQ數據集上相比最先進的序列依賴模型(serial dependence modeling,SDM),SROCC評價指標分別高出2.6%和3.1%,KROCC評價指標高出6.1%和7.9%,PLCC評價指標高出2.3%和5.5%。

關鍵詞:深度學習;全參考視頻質量評價;時空特征;transformer

中圖分類號:TP391.41

文獻標志碼:A

文章編號:1001-3695(2023)07-042-2198-06

doi:10.19734/j.issn.1001-3695.2022.11.0631

Full-reference video quality assessment combining

spatio-temporal features and visual perception

Liu Cong,Kong Guangqian?,Duan Xun,Wu Yun

(State Key Laboratory of Public Big Data,College of Computer Science amp; Technology,Guizhou University,Guiyang 550025,China)

Abstract:Video distortion mainly comes from the degradation of video quality caused by spatial and temporal distortion.Aiming at these two kinds of video quality degradation,this paper proposed a full-reference video quality assessment method STPFVQA combining spatio-temporal features and visual perception.Firstly,the method extracted spatial perceptual features from reference video and distorted video using ResNet50 convolutional network.Secondly,the method feeded the extracted spatial perceptual features into transformer’s encoder and decoder to construct the serialization relationship of the video,and at the same time to explore the effect of distortion on the video serialization relationship by comparing the reference video and distor-ted video.Then,the method sent the output of the transformer to the prediction header to form a frame-level score.Finally,in order to simulate the hysteresis of human visual system perception,this paper obtained the video quality score from the short-term,long-term and global memory effects.To verify the feasibility of the method,this paper conducted experiments on four datasets,respectively LIVE,IVC-IC,CSIQ,and IVPL.The experimental results show that the proposed method is more consis-tent with the perception of the human visual system.Compared with the state-of-the-art serial dependence model (SDM) on the IVC-IC and CSIQ datasets,the SROCC is 2.6% and 3.1% higher,the KROCC is 6.1% and 7.9% higher,and the PLCC is 2.3% and 5.5% higher.

Key words:deep learning;full-reference video quality assessment;spatio-temporal features;transformer

0 引言

隨著移動設備和社交媒體平臺的快速發展,視頻的數量呈現爆炸性增長。盡管流媒體技術在近幾年有了長足的發展,但由于生產設備、壓縮算法、網絡傳輸等原因,常會導致視頻出現失真退化現象,造成用戶觀看到的視頻相較于原始視頻有質量缺陷,影響人們的觀看體驗。視頻失真退化主要由空間退化和時間退化兩部分組成。對于每幀失真引起的空間退化,例如圖1(a)~(c)的模糊失真、點狀噪聲、塊狀失真,很容易被研究者關注。對于幀與幀之間的序列關系退化,很容易被研究者忽略。如圖2中紅色衣服人的腿部,(a)~(d)由連續4幀的原始視頻、失真視頻及其局部放大圖組成,由于物體的運動導致偽影,空間失真恰好在偽影附近,擴大了偽影的影響,破壞了視頻的連續性,導致視頻質量長時間降低,對用戶造成較差的感知。因此對失真視頻進行視頻質量評價(video quality assessment,VQA),進而滿足人類視覺系統感知要求成為一個關鍵問題。視頻質量評價是視頻服務系統中的重要技術,通過特定的評價方法對視頻的失真和變化進行感知、度量和評價,從而預測視頻的感知質量,在視頻采集、壓縮、傳輸、處理、檢索等方面有重大應用價值。視頻質量評價按照是否有評測人員參與分為主觀視頻質量評價和客觀視頻質量評價兩類,由于主觀質量評價需要花費大量的時間和費用,同時保證相同的實驗環境,成本較大,且不利于實施。客觀質量評價方法則是通過算法來模擬人眼視覺系統對視頻的感知質量進行度量,相對于主觀質量評價更具性價比,成為國內外研究人員關注的熱點。客觀質量評價按照訓練、測試時是否有原始視頻作為參考又可分為全參考(full reference,FR)、半參考(reduced reference,RR)和無參考(no reference,NR)[1]三類。其中,全參考視頻質量評價在質量評估方面比半參考視頻質量評價和無參考視頻質量評價預測具有更高的準確度,在有原始視頻可參考的應用場景有非常廣闊的應用前景,因此越來越受到研究者的關注。

全參考視頻質量評價方法大致分為兩類:a)直接使用圖像質量評價模型預測每幀的分數,然后經過映射得到視頻質量分數,例如MS-SSIM[2]、GMSD[3]、PSNR[4]等,這類方法只注意到視頻每幀失真引起的空間退化,而忽略了視頻時間序列上的退化;b)使用深度學習的方法,在空間和時間上提取特征,進而使用這些特征模擬人眼視覺系統,例如C3DVQA[5]、DeepVQA[6]等,雖然這類方法關注到了視頻時間序列上的退化,但對于時間序列關系的提取仍不夠充分。

另外,人類視覺系統(human visual system,HVS)在觀看視頻時會受時間滯后效應的影響,時間滯后效應指人們在觀看視頻時前面質量差的幀會影響當前幀的質量判斷,導致觀看者無法對視頻質量作出客觀的評價。目前還未見到在全參考視頻質量評價領域中考慮人眼滯后效應的研究。

綜上所述,針對傳統全參考視頻質量評價方法存在難以充分提取視頻序列關系、未考慮人眼視覺滯后效應等問題,本文提出了一種結合時空特征和視覺感知的全參考視頻質量評價方法STPFVQA,使用ResNet50[7]卷積網絡來提取視頻的空間損失感知特征,使用transformer[8]的注意力機制來提取視頻中序列關系,從長期、短期和全局記憶效應綜合考慮來模擬人類視覺感知。本文主要貢獻如下:a)設計了一個結合ResNet50主干網絡和transformer的全參考VQA框架,同時考慮視頻時間失真和空間失真造成的視頻質量退化;b)從長期、短期和全局記憶效應來綜合考慮獲得最終的視頻質量分數,有效地模擬了人類視覺系統感知的滯后性;c)在LIVE、IVC-IC、CSIQ和IVPL四個全參考視頻質量評價數據集上達到了較為先進的性能。

1 相關工作

1.1 基于手工提取特征的視頻質量評價方法

早期直接使用基于經典的圖像質量評估模型(GMSD[3] 、PSNR[4]、SSIM[9])及其改進模型(MS-SSIM[2])對視頻質量進行評價,采用逐幀圖像質量評價程序提取亮度、紋理、顯著性[10]、空間扭曲感知[11]等感知上的特征,獲得空間失真退化情況,得到幀級分數,然后結合運動信息[12]、提取運動軌跡[13]、物體運動速度[14]、梯度差異[15]等特征,將幀級分數回歸到視頻分數。VMAF[16]結合了多個基本視頻質量特征,使用支持向量回歸模型對視頻的質量評分。文獻[17,18]基于VMAF的方法通過結合幀差來計算視頻的序列化特征,獲得了比較好的效果。融合手工提取的空間和時間特征,進行視頻質量評價方法比只提取空間特征的方法效果更好,這證明在評估視頻質量時,時間序列關系是非常重要的。但是這類方法依賴于手工方式提取空時特征,存在計算量大、特征提取復雜的問題,并且沒有考慮人眼的視覺感知特性,整體的精度值還有待提高。

1.2 基于深度學習的視頻質量評價方法

近年來,基于深度學習的方法在VQA中占主導地位。相比于經典圖像質量評價方法使用手工提取特征,深度學習方法通過使用卷積網絡提取視頻空間感知特征,并對提取的特征進行回歸,預測視頻質量分數。Kim等人[6]提出的DeepVQA使用2D卷積來提取視頻的空間感知特征,使用幀差圖來描述視頻的運動信息特征,取得了非常好的效果。采用深度學習的方法,不僅有利于空間感知特征的獲取,同時能夠更有效地對時間序列進行建模。常用的時間序列建模方法有光流法、3D網絡、循環神經網絡(recurrent neural network,RNN)[19]及其變體LSTM[20]等。文獻[21]通過結合光流網絡和常見矢量計算運動信息,并通過模擬人類視覺注意力得到視頻質量分數。文獻[22,23]通過光流網絡來提取視頻的運動特征(流幅的平均值、標準偏差和光流貼片協方差矩陣的最小特征值等)。許多工作通過引入3D網絡[5,24,25]來提取視頻的時空特征,捕捉視頻的時間掩蔽效果。Zhang等人[26]通過將2D和3D網絡結合的方式,提取視頻的時空特征,利用顯著性圖和熵函數進行視頻質量評價。Liu等人[27]通過2D和3D網絡提取視頻幀的空間和運動信息,然后利用LSTM對視頻幀的時序關系進行建模。現有深度學習方法的實踐進一步證明了空間失真退化和時間序列關系的重要性,將兩者相結合能夠顯著提高視頻VQA的預測精度。目前,基于卷積神經網絡類的視頻質量評價方法對于視頻空間特征的提取獲得了不錯的效果,但對于視頻時間序列特征的提取仍比較困難,3D網絡參數大、難以部署,2D+LSTM網絡對于序列長期依賴關系的提取較為薄弱。

1.3 transformer

transformer提出的多頭注意力機制在長時間的序列關系建模上有強大的能力。transformer最早應用在自然語言處理領域,通過編碼器(encoder)得到原始語言的特征,通過解碼器(decoder)將原始語言的特征轉換為翻譯的語言。大量研究工作表明,多頭注意力機制在提取序列特征方面要強于RNN。近年來,transformer已被廣泛應用于計算機視覺領域,許多基于transformer的網絡主干在視頻分類[28]、視頻超分辨率[29]、視頻跟蹤[30]等領域比傳統深度學習方法性能更好。在無參考視頻質量評價領域,Wu等人[31]使用卷積網絡提取視頻空間感知特征,然后使用transformer來構建視頻序列關系,取得了非常好的效果。文獻[32]首先使用卷積網絡提取視頻空間感知特征,然后使用LSTM提取視頻的時域特征,引入注意力機制計算時空特征的重要度,最終通過全連接層獲得視頻分數,預測結果與主觀評分具有較好的一致性。目前還未見將transfor-mer應用于全參考視頻質量評價的報道,由于全參考視頻質量評價中提取失真視頻的序列特征以及將失真特征作用于原始視頻從而得到視頻質量分數的過程與自然語言處理中的encoder和decoder的作用有異曲同工之處。基于此,本文將transformer中的編解器用于全參考視頻質量評價中,以建模視頻序列間的依賴關系。

2 本文方法

本章將詳細闡述所提方法STPFVQA的設計思想。該方法分為特征提取、transformer模塊、預測頭和質量池三個模塊,整體框架如圖3所示。針對空間退化失真問題,由于預訓練卷積神經網絡能夠很好地捕捉畫面空間損失,彌補傳統網絡因手工提取特征而存在特征提取復雜、精度不高的問題。因此本文使用預訓練卷積神經網絡來提取原始視頻和失真視頻的空間感知特征。針對時間退化失真問題,由于transformer基于注意力機制,能并行化、全局化地處理輸入的數據,避免了循環神經網絡類方法出現梯度消失或梯度爆炸的風險,以及無法從全局提取時間失真特征的問題。因此本文設計了transformer模塊,使用transformer的encoder和decoder結構對原始視頻和失真視頻進行對比,從而提取視頻的時間序列依賴關系。針對時間滯后效應的問題,本文綜合考慮長期、短期、全局記憶效應,將長期、短期、全局質量感知分數輸入到質量池得到最終的視頻質量分數。

2.1 特征提取主干

考慮到模型速度和精度的平衡,本文選取ResNet50作為空間特征的提取主干。采用遷移學習的方式,導入并凍結在ImageNet數據集上經過預訓練的ResNet50卷積網絡的權重參數。ResNet50卷積網絡是一種深度殘差網絡,擁有更深的網絡結構使得模型具有更強的特征提取能力。同時,使用預訓練權重,可以更充分地提取幀級空間感知特征,也能有效緩解因數據樣本不足造成的過擬合問題。網絡的輸入不是整個原始視頻或者失真視頻,而是從每k幀中隨機抽取1幀,將所有的抽取幀重新組合成一個新的視頻。視頻幀之間通常是連續的,相鄰幀之間變化很小,因此這種抽幀方法并不會降低模型的性能[5,6],相反還會減少輸入transformer的特征,節省了顯存的使用,同時降低了transformer的訓練難度。為了彌補抽幀帶來的特征減少的影響,本文使用平均池化和標準差池化最大化利用卷積網絡產生的感知特征。ResNet50網絡由五個殘差塊組成(Bl,l=1,2,3,4,5)。一個視頻片段V={vi,i=1,…,N}送入到ResNet50中,其中N表示視頻幀數,i表示視頻幀的索引vi的維度為RW×H×3,其中W、H、3分別表示視頻幀的寬度、高度和通道數。視頻片段中每幀從ResNet50殘差塊中獲得特征圖Mi={mli,l=1,2,3,4,5;i=1,2,…,N}。特征圖的獲取如式(1)所示。

mli=Bl(…(B1(vi))) i=1,2,…,N(1)

為了使提取的特征充分保留與低質量相關的信息,本文在ResNet50主干上引入了多尺度特征提取,提取的特征來源于ResNet50中的第3和第5個塊的特征圖,即m3i和m5i。當選擇所有層特征作為transformer的輸入時,會發生過擬合現象,經過實驗驗證,當選取第3和第5層作為transformer的輸入效果最好。然后將特征圖進行全局平均池化(GAP)和全局標準差池化(GSP)并進行連接。最終提取的特征維度為RN×5120。主干網絡公式如式(2)~(4)所示。

gasp3i=CAT(GAP(m3i),GSP(m3i)) i=1,2,…,N(2)

gasp5i=CAT(GAP(m5i),GSP(m5i)) i=1,2,…,N(3)

T=CAT(gasp3i,gasp5i)(4)

其中:m3i、m5i是第i幀在ResNet50第3塊和第5塊的特征圖;gasp3i、gasp5i是特征圖經過全局平均池化和全局標準差池化后進行的特征拼接;T={ti,i=1,…,N}是視頻段最終提取的特征,包含了視頻段的低級特征和高級語義信息。原始視頻提取的特征用Tref表示,失真視頻用Tdis表示。

2.2 transformer模塊

為了有效提取視頻的幀級序列關系,本文設計了transformer模塊,使用transformer中的encoder和decoder結構分別對失真視頻和原始視頻提取的空間特征進行處理和對比。首先,本文將卷積網絡提取的特征添加可訓練的額外位置信息;然后,將原始視頻特征和失真視頻特征分別送入到encoder和decoder中提取原始視頻和失真視頻的時間序列特征;最后,利用注意力機制對原始視頻和失真視頻的序列特征進行對比,從而提取幀級時間序列依賴關系。利用transformer的注意力機制對視頻的時間序列進行建模,一方面能夠提高模型對視頻序列化特征的提取效率和精度,另一方面又能達到有效對比原始視頻和失真視頻的目的。

2.2.1 encoder過程

由于硬件的限制,首先將提取的特征使用全連接層將5 120通道維度減少到固定長度;然后加入絕對位置編碼,以保留位置信息;最后將失真視頻的特征(T′dis)輸入到encoder中,用來學習失真視頻的序列關系。encoder中最核心的是注意力機制,將輸入的序列T′dis通過分別乘以PQ、PK、PV矩陣投影到Q、K、V矩陣,通過Q乘以K的轉置除以V,然后經過softmax函數得到序列之間的關聯性。encoder網絡數據流程如式(5)~(7)所示。

其中:P是與Tdis經過特征映射后長度相同的絕對位置向量;PQ、PK、PV是通過MLP層生成的;Mdis通過計算幀與幀之間的相關度,表示失真視頻幀對視頻質量評價的重要程度。

2.2.2 decoder過程

為了更為有效地使用參考視頻提供的信息,本文將參考視頻空間特征Tref輸入到decoder中,將Tref經過和Tdis相同的轉換得到T′ref;然后經過注意力機制得到Mref,用來構建參考視頻的序列關系;最后通過交叉注意力的方式來對比參考視頻和失真視頻序列關系的差異。其中交叉注意力中Q、K是通過Mdis來求取的,M是通過Mref來求取的。交叉注意力的數據流程如式(8)(9)所示。

為了平衡準確度和速度,本文使用了兩層的encoder和decoder。每一層都是通過注意力機制和MLP組成,為了提高學習效率,兩層之間使用了殘差結構。

2.3 預測頭和質量池模塊

decoder的輸出會送入到預測頭。預測頭由兩層全連接層組成,全連接層之間加入GELU來進行激活,輸出是視頻的幀級分數。預測頭的數據流程如式(10)所示。

S=MLP(GELU(MLP(M)))(10)

其中:S={si,i=1,2,…,N},si表示視頻段中每幀的分數。

由于人類視覺系統在觀看視頻時會有滯后性,為了模擬人類視覺系統感知特征,本文通過短期、長期和全局記憶效應來獲得不同時間段的感知質量,以較短局部相鄰幀的最低質量感知來模擬短期記憶效應,以較長局部相鄰幀的最低質量感知來模擬長期記憶效應,以所有幀的質量感知來模擬全局記憶效應,然后將三個質量感知進行平均得到視頻的最終質量分數,這樣做的好處是既考慮了人們對視頻整體的質量感知情況,同時又兼顧了人眼視覺滯后效應帶來的影響。短期、長期和全局記憶效應計算過程如式(11)~(15)所示。

T=min(Si,j

i={N mod t=1},J={N mod t=0}(11)

Sshort=mean(t) t=s(12)

Slong=mean(t) t=l(13)

Sall=mean(S)(14)

Svideo=mean(Sshort,Slong,Sall)(15)

其中:mod是取余運算符;Si,j表示第i到j幀的分數;t表示i和j之間的間隔。短期、長期記憶效應的計算方式是一樣的,所有分數中每t幀的低質量分數進行平均;Sshort指的是短期記憶效應分數;Slong指的是長期記憶效應分數;Sall指的是全局記憶效應分數。將Sshort、Slong、Sall進行平均得到視頻最終質量分數Svideo

3 實驗

3.1 數據集及評價指標

本文在四個公開數據集上進行了實驗,分別是LIVE[33]、IVC-IC[34]、CSIQ[35]、IVPL[36]。LIVE數據集包含10個原始視頻和150個失真視頻,每一個原始視頻對應4個傳輸失真,3個扭曲失真,4個264格式壓縮,4個MPEG格式壓縮不同的失真類型;IVC-IC數據集包含60個原始視頻和20種不同程度的畸變產生的240個失真視頻;CSIQ數據集由12個原始視頻和246個失真視頻組成,包含6種不同的失真類型,分別是264格式壓縮、264格式視頻丟包率、MJPEG格式壓縮、小波壓縮、白噪聲、HEVC格式壓縮;IVPL數據集包含10個原始視頻和128個失真視頻。四個數據集分辨率不同、視頻幀率也有不同。數據集詳細信息如表1所示。

本文采用的評價指標包括Spearman rank-order correlation coefficient(SROCC)、Kendall rank-order correlation coefficient(KROCC)和Pearson linear correlation coefficient(PLCC)。SROCC和KROCC用來衡量VQA算法預測的單調性,PLCC用來衡量VQA算法的準確性。三者的取值都是[-1,1]。三者為-1表示具有完全負相關,1表示完全正相關,0表示完全不相關。在VQA問題中評價指標越接近1越好。三個評價指標表達式如式(16)~(18)所示。

其中:M表示失真視頻的個數;di為第i個失真視頻的主觀評分和客觀預測結果之間的差值;Mc是數據集中的一致對的個數(也叫“和諧對”,指變量大小順序相同的兩個樣本觀測值,即x等級高低順序與y等級高低順序相同,否則稱為“不和諧”);Md是數據集中的不和諧對個數。兩個數據序列中任何一對數據,ui和vi分別為第i個失真視頻的主觀評分和客觀預測結果;和分別為所有主觀評分和客觀預測結果的平均值。

3.2 實驗細節

在實驗過程中,本文將每個數據集隨機無重疊地劃分為訓練集和測試集。其中80%為訓練集,20%為測試集。實驗中使用Python語言實現,第三方工具包主要包括PyTorch、pandas、SciPy等,其中PyTorch主要用于模型編寫,pandas用于數據預處理,SciPy用于評價指標計算,STPFVQA源碼的GitHub地址為https://github.com/ben-19970527/STPFVQA。代碼運行在具有一塊A100顯卡的Linux系統上。所有數據集的batchsize設置為16。其中transformer的網絡參數是層數為2,頭數為12,全連接中dropout概率設置為0.3,質量池模塊中,s=2,l=5(如式(12)(13)所示)。本文也嘗試了其他的超參數設置,為了平衡速度和準確度方面,這是最佳選擇。將ResNet50提取的特征經過全局平均池化和全局標準池化后的特征投影到1 536的維度。損失函數為l1,它比MSE更能適應異常值。學習率設置為0.000 03,使用Adam學習率調度器。其中LIVE數據集訓練1 000個epoch,其余數據集訓練200個epoch。在測試時將原始視頻和失真視頻輸入網絡模型,通過模型計算得到失真視頻的質量分數。所有數據都是進行十次實驗取平均的結果。

3.3 實驗結果

從三個方面對模型的性能進行分析:a)STPFVQA方法與基線模型的性能比較;b)從整體和單個視頻受到不同程度失真兩方面對結果進行分析;c)對加入transformer編/解碼器的必要性進行消融實驗,并討論了transformer中encoder和decoder的輸入對性能的影響。

3.3.1 與基線模型的性能比較

為了驗證模型的性能,本文分別在四個公開數據集LIVE、IVC-IC、CSIQ、IVPL上進行了實驗,對比方法包括PSNR、MS-SSIM、GMSD、MOVIE、VIS3、VMAF、FAST、DeepVQA、C3DVQA和SDM。實驗結果如表2所示,其中第一名方法用粗體表示,第二名用下畫線表示。從表2中可以看出,在IVC-IC和CSIQ數據集上,STPFVQA方法在SROCC、PLCC、KROCC指標上明顯優于基準模型,評價指標SROCC比當前最好的SDM方法分別高出2.6%和3.1%,比KROCC高出6.5%和7.9%,比PLCC高出2.3%和5.5%。在LIVE和IVPL也取得了第二的成績。因LIVE和IVPL數據集視頻數量較少,故此推斷STPFVQA方法更適合大量數據進行模型訓練,在訓練樣本較少時模型效果表現不如IVC-IC和CSIQ數據集。

3.3.2 從整體與單個視頻的結果分析

圖4為LIVE、IVC-IC、CSIQ和IVPL四個數據集上真實值與預測值之間的散點圖。本文觀察到在四個數據集上只有少數視頻真實值與預測之間的差距較大,表明STPFVQA方法能夠精準地預測與人類視覺系統相似的行為。

以上從整體的角度分析了本文方法,以下從一個視頻受到不同程度失真情況來進行分析,結果如圖5所示,本文從CSIQ數據集中選取兩個視頻,用于驗證原始視頻在受到不同程度失真情況下,仍符合人類視覺系統的感知情況。圖5中左邊是不同失真視頻,右邊是對應的人類主觀分數和不同方法預測的分數。人類主觀分數會受到失真的影響,失真程度越大,主觀分數越低。圖中兩個視頻的人類主觀評分(different mean opinion score,DMOS)分別為70.605 8和50.944 8,視頻b相對視頻a失真情況更嚴重,由于MS-SSIM、GMSD方法沒有關注視頻的序列特征,導致失真嚴重的視頻得分更高。從結果可以看出,本文STPFVQA更加符合人類視覺系統的感知情況。

3.3.3 消融實驗

為了驗證方法部件的有效性,本文在CSIQ數據集上進行了消融實驗,結果如表3所示,最好的方法用加粗表示。ResNet50表示使用ResNet50作為基礎網絡,進行特征提取,將原始視頻特征、失真視頻特征、兩者的差三個特征輸入到MLP中得到幀級分數,經過質量池得到視頻的質量分數。ResNet50+encoder表示在ResNet50后面加入encoder模塊,將原始視頻特征、失真視頻特征、兩者的差三個特征輸入到encoder中,然后經過MLP、質量池得到視頻質量分數。從表3中可以看到,ResNet50+encoder因為加入了對視頻序列關系的分析,效果比單獨的ResNet50要好,但因沒有對原始視頻和失真視頻分別做序列關系的分析,缺乏對原始視頻和失真視頻序列特征的差異對比,導致提升效果不大。ResNet50+encoder+decoder(STPFVQA方法)通過encoder和decoder分別對失真視頻和原始視頻做序列分析,在三種方法中取得了最好的效果。

此外,為了驗證transformer輸入類型對性能的影響,本文在CSIQ數據集上對encoder和decoder的輸入進行了消融實驗。encoder或者decoder的輸入分別為原始視頻和失真視頻特征差、原始視頻特征和失真視頻特征分別用ref-dis、ref和dis來表示。當encoder或者decoder的輸入一樣時,無法起到對比作用,因此本文分別進行了六種不同輸入的實驗。實驗結果如表4所示,最好的用粗體表示。當encoder的輸入為失真視頻,decoder的輸入為原始視頻時,效果最好。同時根據表中呈現的結果來看,原始視頻和失真視頻的差異可以作為全參考視頻質量評價時的重要參考。

4 結束語

為了使得視頻質量評價能夠兼顧空間失真和時間失真導致的視頻質量退化問題,同時更符合人類視覺系統感知,本文提出了一種結合時空特征和視覺感知的全參考視頻質量評價方法STPFVQA。首先,針對空間失真引起的視頻退化,通過ResNet50來提取視頻的空間感知特征;然后使用transformer中encoder提取失真視頻的序列特征;同時使用decoder提取原始視頻序列特征,并將兩者進行比較,探索失真對視頻質量的影響;最后,通過短期、長期、全局記憶效應來綜合考慮視頻質量分數,通過在LIVE、IVC-IC、CSIQ和 IVPL四個公開數據集上進行實驗,結果表明模型在預測視頻質量分數上較基準模型有明顯的提升,在IVC-IC和CSIQ數據集上的性能超過了目前最優的全參考視頻質量評價方法SDM,驗證了模型的有效性。STPFVQA方法可以應用于計算機視覺領域一些下游任務的評價指標設計,如視頻超分辨率、視頻彩色化、視頻去雨去噪等。另外,在有可參考原始視頻的應用場景,如視頻編碼算法優化和視頻傳輸策略優化等領域都具有非常廣闊的應用前景。

參考文獻:

[1]譚婭婭,孔廣黔.基于深度學習的視頻質量評價研究綜述[J].計算機科學與探索,2021,15(3):423-437.(Tan Yaya,Kong Guangqian.Review of video quality assessment based on deep learning[J].Journal of Frontiers of Computer Science and Technology,2021,15(3):423-437.)

[2]Wang Zhou,Simoncelli E P,Bovik A C.Multiscale structural similarity for image quality assessment[C]//Proc of the 37th Asilomar Confe-rence on Signals,Systems amp; Computers.Piscataway,NJ:IEEE Press,2003:1398-1402.

[3]Xue Wufeng,Zhang Lei,Mou Xuanqin,et al.Gradient magnitude similarity deviation:a highly efficient perceptual image quality index[J].IEEE Trans on Image Processing,2014,23(2):684-695.

[4]Qian Jiansheng,Wu Dong,Li Leida,et al.Image quality assessment based on multi-scale representation of structure[J].Digital Signal Processing,2014,33:125-133.

[5]Xu Munan,Chen Junming,Wang Haiqiang,et al.C3DVQA:full-refe-rence video quality assessment with 3D convolutional neural network[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2020:4447-4451.

[6]Kim W,Kim J,Ahn S,et al.Deep video quality assessor:from spatio-temporal visual sensitivity to a convolutional neural aggregation network[C]//Proc of European Conference on Computer Vision.2018:219-234.

[7]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.

[8]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.2017:6000-6010.

[9]Wang Zhou,Bovik A C,Sheikh H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans on Image Processing,2004,13(4):600-612.

[10]Luo Qian,Geng Yang,Liu Jichun,et al.Saliency and texture information based full-reference quality metrics for video QoE assessment[C]//Proc of IEEE Network Operations and Management Sympo-sium.Piscataway,NJ:IEEE Press,2014:1-6.

[11]Ninassi A,Le Meur O,Le Callet P,et al.Considering temporal variations of spatial visual distortions in video quality assessment[J].IEEE Journal of Selected Topics in Signal Processing,2009,3(2):253-265.

[12]Li Songnan,Ma Lin,Ngan K N.Full-reference video quality assessment by decoupling detail losses and additive impairments[J].IEEE Trans on Circuits and Systems for Video Technology,2012,22(7):1100-1112.

[13]Seshadrinathan K,Bovik A C.Motion tuned spatio-temporal quality assessment of natural videos[J].IEEE Trans on Image Proces-sing,2010,19(2):335-350.

[14]Rohani M,Nasiri Avanaki A,Nader-Esfahani S,et al.A reduced refe-rence video quality assessment method based on the human motion perception[C]//Proc of the 5th International Symposium on Telecommunications.Piscataway,NJ:IEEE Press,2010:831-835.

[15]Chi F,Ducloux X,Madec G,et al.Full reference video quality model for UHD HEVC encoded sequences[C]//Proc of the 9th International Workshop on Video Processing and Quality Metrics for Consumer Electronics.2015:hal-01185101.

[16]Li Zhi,Aaron A,Katsavounidis I,et al.Toward a practical perceptual video quality metric[J].Netflix Blog,2016,6(2):1-6.

[17]Bampis C G,Bovik A C,Li Zhi.A simple prediction fusion improves data-driven full-reference video quality assessment models[C]//Proc of Picture Coding Symposium.Piscataway,NJ:IEEE Press,2018:298-302.

[18]Bampis C G,Li Zhi,Bovik A C.Spatiotemporal feature integration and model fusion for full reference video quality assessment[J].IEEE Trans on Circuits and Systems for Video Technology,2018,29(8):2256-2270.

[19]Elman J L.Finding structure in time[J].Cognitive Science,1990,14(2):179-211.

[20]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

[21]Ortiz-Jaramillo B,Kumcu A,Platisa L,et al.A full reference video quality measure based on motion differences and saliency maps evaluation[C]//Proc of International Conference on Computer Vision Theory and Applications.Piscataway,NJ:IEEE Press,2014:714-722.

[22]Gujjunoori S,Oruganti M,Pais A R.Enhanced optical flow-based full reference video quality assessment algorithm[J].Multimedia Tools and Applications,2022,81(27):39491-39505.

[23]Gujjunoori S,Oruganti M.HVS based full reference video quality assessment based on optical flow[C]//Proc of International Conference on Pattern Recognition and Artificial Intelligence.2018:70-75.

[24]Dendi S V R,Krishnappa G,Channappayya S S.Full-reference video quality assessment using deep 3D convolutional neural networks[C]//Proc of National Conference on Communications.Piscataway,NJ:IEEE Press,2019:1-5.

[25]Chen Junming,Wang Haiqiang,Xu Munan,et al.Deep neural networks for end-to-end spatiotemporal video quality prediction and aggregation[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2021:1-6.

[26]Zhang Yu,Gao Xinbo,He Lihuo,et al.Objective video quality assessment combining transfer learning with CNN[J].IEEE Trans on Neural Networks and Learning Systems,2019,31(8):2716-2730.

[27]Liu Yongxu,Wu Jinjian,Li Aobo,et al.Video quality assessment with serial dependence modeling[J].IEEE Trans on Multimedia,2022,24:3754-3768.

[28]Bertasius G,Wang Heng,Torresani L.Is space-time attention all you need for video understanding?[C]//Proc of the 38th International Conference on Machine Learning.2021:813-824.

[29]Weng Wenming,Zhang Yueyi,Xiong Zhiwei.Event-based video reconstruction using transformer[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:2543-2552.

[30]Yan Bin,Peng Houwen,Fu Jianlong,et al.Learning spatio-temporal transformer for visual tracking[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:10428-10437.

[31]Wu Haoning,Chen Chaofeng,Hou Jingwen,et al.Fast-VQA:efficient end-to-end video quality assessment with fragment sampling[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2022:538-554.

[32]朱澤,桑慶兵,張浩.基于空時特征和注意力機制的無參考視頻質量評價[J].激光與光電子學進展,2020,57(18):351-359.(Zhu Ze,Sang Qingbing,Zhang Hao.No reference video quality assessment based on spatio-temporal features and attention mechanism[J].Progress in Laser and Optoelectronics,2020,57(18):351-359.)

[33]Seshadrinathan K,Soundararajan R,Bovik A C,et al.Study of subjective and objective quality assessment of video[J].IEEE Trans on Image Processing,2010,19(6):1427-1441.

[34]Pitrey Y,Barkowsky M,Pépion R,et al.Influence of the source content and encoding configuration on the perceived quality for scalable video coding[M]//Rogowitz B E,Pappas T N,De Ridder H.Human Vision and Electronic Imaging ⅩⅦ.2012:82911K.

[35]Vu P V,Chandler D M.ViS3:an algorithm for video quality assessment via analysis of spatial and spatiotemporal slices[J].Journal of Electronic Imaging,2014,23(1):013016.

[36]Zhang Fan,Li Songnan,Ma Lin,et al.IVP subjective quality video database[EB/OL].(2011)[2022-09-02].https://ivp.ee.cuhk.edu.hk/ research/database/subjective/.

主站蜘蛛池模板: 性网站在线观看| 日韩毛片免费观看| 亚洲无码高清一区| 日韩在线欧美在线| 色135综合网| 精品超清无码视频在线观看| 男女精品视频| 国产免费一级精品视频| 中文字幕在线日本| 99在线观看免费视频| 高h视频在线| 老色鬼欧美精品| 色一情一乱一伦一区二区三区小说| 男女性色大片免费网站| 一边摸一边做爽的视频17国产| 国内精品久久九九国产精品| 欧美日韩在线国产| 啊嗯不日本网站| 中文字幕在线一区二区在线| 欧美A级V片在线观看| 日韩精品久久久久久久电影蜜臀| 亚洲欧美精品一中文字幕| 亚洲高清无在码在线无弹窗| 国产后式a一视频| 中文字幕亚洲精品2页| 午夜在线不卡| 亚洲婷婷六月| 无码网站免费观看| 成人av专区精品无码国产| 黄片一区二区三区| 久久性妇女精品免费| 国产精品v欧美| 亚洲国产中文在线二区三区免| 国产精品爽爽va在线无码观看 | 又猛又黄又爽无遮挡的视频网站| 久久久国产精品无码专区| 精品国产电影久久九九| 在线观看免费人成视频色快速| 中文字幕欧美日韩| 最新亚洲人成网站在线观看| 亚洲精品在线影院| 夜夜操国产| 亚洲AⅤ无码国产精品| 国产菊爆视频在线观看| 中文字幕在线播放不卡| 国产成人av大片在线播放| 精品国产美女福到在线不卡f| 国产精女同一区二区三区久| 久久这里只有精品8| 亚洲人精品亚洲人成在线| 国产激情无码一区二区APP| 3344在线观看无码| 亚洲娇小与黑人巨大交| 亚洲码一区二区三区| 热re99久久精品国99热| 玖玖精品在线| 欧美综合成人| 午夜毛片福利| 女人毛片a级大学毛片免费| 亚洲成a人在线观看| 国产成人高清精品免费软件| 亚洲中文精品久久久久久不卡| 97国产精品视频自在拍| 日韩在线2020专区| 色老二精品视频在线观看| 国产精品自拍露脸视频| 激情综合五月网| 99热国产这里只有精品无卡顿"| 日本精品一在线观看视频| 精品国产成人高清在线| 亚洲人视频在线观看| 国产成人凹凸视频在线| a欧美在线| 久久精品免费看一| 国产精品三级av及在线观看| 日韩麻豆小视频| 国产成人亚洲无码淙合青草| 性做久久久久久久免费看| 色网站在线免费观看| 狠狠五月天中文字幕| 91人妻日韩人妻无码专区精品| 全部免费特黄特色大片视频|