翟宇軒,劉怡桑,徐藝文,陳忠輝,房穎,趙鐵松
(福州大學 物理與信息工程學院,福州350108)
近年來,網絡技術的發展推動了在線3D視頻服務的興起。相比于傳統的2D視頻,3D視頻即使進行了有效的壓縮其數據量仍然較大,而有限的網絡帶寬資源導致了3D視頻傳輸中的質量波動,從而使得3D視頻網絡服務的用戶體驗質量(Quality of Experience,QoE)[1]不高。因此,3D視頻的傳輸引入了基于HTTP的自適應流媒體(HTTP Adaptive Streaming,HAS)技術。HAS可以根據不同的網絡帶寬情況提供不同碼率的視頻,在避免卡頓的同時盡可能利用有限的帶寬提升視頻質量,改善用戶體驗質量。
由于3D視頻需要額外考慮視點間的碼率分配,3D視頻的HAS技術比傳統2D視頻的更加復雜。目前,針對3D視頻HAS的相關工作還比較少,文獻[2]提出了交互式多視點HAS的最優傳輸策略來平衡編碼的失真和渲染合成失真,該算法同時考慮了視頻內容特征和用戶交互度。文獻[3]利用軟件定義網絡(Software Defined Network,SDN)提出了基于視頻塊的流媒體傳輸框架,這個方案可以根據感興趣區域改善用戶體驗質量。文獻[4]提出了一種基于HTTP動態自適應流媒體(Dynamic Adaptive Streaming over HTTP,DASH)的高效3D自適應流媒體服務方法,其能為用戶提供流暢的立體視頻。盡管上述工作已經為3D流媒體應用提出了有效的方案,但是為了給用戶提供最佳的觀看體驗,評估不同流媒體自適應方案的用戶體驗質量至關重要[5]。目前,對于基于HAS技術的3D視頻傳輸中的用戶體驗的研究越來越受到關注。QoE模型反映了客觀質量與用戶體驗質量之間的關系,可以極大地幫助3D HAS系統的設計和優化。
文獻[6]發現相對于視頻質量的瞬間急劇變化,視頻質量由低到高緩慢變化時的用戶觀看體驗質量更高。基于這一特性,提出了一種適用于DASH的QoE自適應算法。文獻[7]通過分析2D視頻和3D視頻的自適應流媒體傳輸策略,發現由3D到2D的轉換可能是降低比特率的最佳選擇,而相反的由2D到3D的轉換并沒有明顯改善用戶的體驗質量。雖然文獻[7]定性分析了3D視頻質量切換對感知質量的影響,但是仍然缺乏可以用于指導3D視頻傳輸時質量切換的QoE的量化模型。另外,已有大量工作致力于3D圖像的客觀質量評價[8-10],這些評價算法可以準確反映3D內容的感知質量,但無法用于表達視頻質量切換導致的QoE變化。
為了研究3D視頻傳輸過程中網絡質量波動(Network Quality Fluctuation,NQF)對用戶體驗質量的影響,本文設計了主觀實驗用于獲取用戶在NQF情況下觀看視頻的體驗質量。主觀實驗特別考慮了單視點和雙視點的視頻質量改變分別對3D視覺感知質量的影響。最后,提出了一個基于卷積神經網絡(Convolutional Neural Networks,CNN)的QoE模型,該模型體現了塊級客觀質量與用戶對3D視頻的觀看體驗質量的映射關系,可用于指導3D視頻自適應傳輸中的視點間碼率分配。
雙目立體3D視頻(Stereoscopic 3D video)通常包含左右2個視點,其所需的帶寬遠大于傳統的2D視頻。3D視頻的自適應傳輸在帶寬不足情況下會面臨視頻質量的突降以及左右視點的比特率平衡等問題。本節通過主觀實驗來分析單視點和雙視點視覺質量的改變對3D感知質量的影響。文獻[11]表明,主視眼的不同對總體感知質量的影響可忽略不計。因此,實驗中單視點的圖像質量變化均基于左視點的圖像。
實驗總共使用了13個3D視頻序列,其中包括3MV-HEVC數據庫[12]中的CP(Carpark)、SK(Shark)、ST(Street)、GF(Gtfly)、KD(Kendo)、LB(Lovebird)、BN(Balloons)、BA(Bookarrival),以及數字音頻編解碼技術標準工作組(AVS)數據庫[13]中 的 BM (Badminton)、JL (Jinli)、DB(Dubai)、AG(Asiangame)、WS(Wushu)。圖1為各個序列的截圖,表1為相應的空間信息(Spatial Information,SI)和時間信息(Temporal Information,TI)[14]。所有視頻序列時長為10 s,視頻質量的變化發生在視頻序列第5 s末,即每個序列的前5 s和后5 s擁有不同的視頻質量。為了避免引入由分辨率不同造成的體驗質量差別,高分辨率視頻均采用了下采樣處理,所有序列的分辨率為1024×768,幀率為25幀/s。
NQF實驗按照4種比特率編碼視頻:

圖1 3D序列截圖[12-13]Fig.1 Snapshots of 3D sequences[12-13]
1)“全比特率”表示足夠的帶寬使得視點質量近似原畫質,視點比特率設置為1 000 kbit/s。
2)“高比特率”模擬網絡輕微阻塞時的視點比特率,設置為200 kbit/s。
3)“中比特率”模擬網絡遭受中等阻塞時的視點比特率,設置為100 kbit/s。
4)“低比特率”模擬網絡遭受嚴重阻塞時的視點比特率,設置為50 kbit/s。
由表2可知,模擬的NQF類型包含4種質量的切換,分別為單視點質量上升、雙視點質量上升、單視點質量下降和雙視點質量下降。其中質量上升和下降過程被細分為6種比特率變化:低到全、中到全、高到全;全到低、全到中、全到高。使用3D-HEVC標準參考軟件HTM 16.0作為編碼器,13個原始序列依據12種視頻質量切換類型共生成156組3D測試序列。實驗中采用的觀看設備為華碩PG278 3D屏幕和NVIDIA 3D眼鏡。本次實驗共有34名受試者,包括23名男性和11名女性,年齡介于21~25歲。所有受試者都通過了視力測試并且在觀看3D視頻中沒有產生不適感。在主觀測試之前,受試者都已熟悉3D視頻顯示方式和實驗流程,并將顯示屏和眼鏡調整到舒適的位置。主觀測試遵循ITU-R BT.500[15]建議書推薦的單激勵(Single Stimulus,SS)方法和五級損傷量表[15]。在測試期間,所有NQF測試序列在隨機打亂順序后連續顯示,每個序列結束后都有5 s的間隔用于評分。

表1 測試數據集[12-13]Table 1 Test dataset[12-13]

表2 網絡質量波動類型Table 2 Network quality fluctuation types
為了提高數據的可靠性,每個受試者的測試都引入重復序列。數據結果采用ITU-R BT.500建議書中的可靠性原則[15]來排除不可靠的分數。24名受試者對視頻質量的評分值被保留至后續的數據分析。為了檢查選擇的樣本量是否足以產生穩定的結果,以“數據飽和度”作為指導原則[16]。受試者人數上升導致的平均意見得分(Mean Opinion Score,MOS)數據飽和曲線如圖2所示,每個受試者對13個序列的主觀評分為an,選取m個受試者的主觀評分均值為

所有24個主觀評分均值為s,xm和s之間的皮爾森線性相關系數(Pearson Linear Correlation Coefficient,PLCC)隨著選取人數m增加而增大,“飽和值”出現在受試者人數達到20時,這表明本次實驗采用24個樣本值已足夠。
根據ITU-R BT.500建議書[15],所有受試者的MOS表現了主觀評分等級。圖3給出了不同比特率切換時單目和雙目質量波動的主觀評分。圖3(a)和(b)分別表示單視點和雙視點質量上升的MOS值,可以看出,單視點質量切換比雙視點質量切換引起了更小的用戶體驗質量下降;圖3(c)和(d)的比較同樣可以發現單視點質量切換對體驗質量的影響更小。該結果符合雙目視覺的掩蔽特性,當一個視點質量不變,另一個視點質量下降至一定范圍內,人眼無法察覺到失真[17]。該結論已應用至3D視頻的非對稱編碼[18-19]來減少視覺冗余,也成為3D視頻非對稱碼率傳輸的基礎[20]。

圖2 受試者人數上升導致的MOS數據飽和Fig.2 MOS data saturation caused by increased number of subjects

圖3 NQF主觀實驗結果Fig.3 Subjective experimental results of NQF
為了研究上升和下降2種視頻質量切換的區別,表3顯示了同種類型質量變化下所有13個視頻序列MOS的平均值。由表3可知,無論何種視頻質量(低、中、高)和視點(單視點、雙視點),視頻質量上升的評分總高于質量下降的評分。原因是,在視頻質量上升類型中,10 s序列的后5 s為高畫質,短時記憶的影響使得受試者的最終評價分數更接近后出現的高畫質的分數;同理,質量下降類型中后出現的低畫質降低了整體評分。這個現象是由于用戶體驗質量會受到心理學中的近因效應影響,即前一時刻的體驗質量會對之后一段時間內的觀看體驗造成影響[21-22]。當用戶接受高質量視頻時會產生更高視頻質量的期望,因此視頻質量的下降會使得用戶更加沮喪,加速用戶體驗質量的下降;相反,觀看低質量視頻的用戶則對視頻質量的上升更加敏感,提高了體驗質量的評分。本文主觀實驗中,視頻質量的上升和下降2種切換表現出了不同體驗質量評分,這一結果與現有時變視頻質量研究[21-22]一致。這說明在3D視頻自適應傳輸策略方面:帶寬受限時,視頻質量可以避免出現突然劇烈的下降;帶寬充足時,可以快速提升視頻的質量。

表3 視頻質量波動類型的MOS均值Table 3 Average MOS of video quality fluctuation types
目前,主觀測試雖然是衡量用戶體驗質量的最可靠方法,但存在高成本,低速度和無法進行實時評估等缺點。客觀QoE模型是一種獲得近似主觀評分的低成本方法。利用第1節方法所獲得的視頻主觀質量數據庫及CNN構建了3D視頻的客觀QoE模型。將3D測試序列和原始序列的每一幀劃分為64×64子塊,并計算左右視圖中測試序列的子塊與相對應原始序列的子塊的結構相似性(Structural Similarity,SSIM)[23-24],左右視點所有幀的塊級SSIM分別表示為ql和qr。所得到的ql和qr輸入到CNN網絡中預測用戶的體驗質量值。因此,本文提出的QoE模型為

式中:Q表示用戶體驗質量的預測值,預測函數基于CNN完成。
如圖4所示,本文設計的CNN模型由2層卷積層和2層全連接層組成。卷積核的大小分別設置為5×5、3×3。圖中:M 和N分別為視頻的寬和高,K為視頻幀數。輸入為測試序列的塊級SSIM,輸出為用戶體驗質量的預測值Q。在網絡訓練過程中,從156組3D 測試序列中隨機選取141個樣本作為訓練集,用于訓練并驗證MOS和3D視頻內容的塊級SSIM 之間的關系,剩余15個樣本作為測試集用作最后的測試。
在圖像視頻質量評價中,通常通過斯皮爾曼秩相關系數(Spearman Rank Order Correlation Coefficient,SROCC)、肯德爾秩相關系數(Kendall Rank Order Correlation Coefficient,KROCC)、PLCC來評價所提模型的性能。其相關系數能夠用于反映客觀質量評價與主觀MOS值的相關程度,值越接近于1,則說明模型的性能越好。由表4可知,測試集中所有序列的主觀評價MOS值與模型預測值之間的SROCC、KROCC、PLCC分別為0.927、0.775、0.906,評估結果說明基于CNN的QoE模型能夠較好地預測用戶體驗質量。
由于缺少同類型數據庫和模型進行比較,本文設置了3組對比實驗:①將每個視頻序列的2個視點PSNR的平均值作為預測QoE;②將每個視頻序列的2個視點SSIM 的平均值作為預測QoE;③采用文獻[10]的3D質量評價算法。實驗測試使用了同樣配置的電腦(Intel Core i5-7500,8GB RAM,Windows 10 64-bit)。實驗結果如表4所示,可以看出,SSIM、PSNR無法很好地反映用戶體驗質量,文獻[10]的3D質量評價算法在本文的數據庫上表現同樣不佳,但優于PSNR、SSIM,這是由于3D質量評價方法針對于評價3D立體圖像和視頻的壓縮失真,考慮了圖像失真類型和人眼雙目視覺特性而沒有考慮真實傳輸過程中的視頻質量的變化。本文還記錄了不同算法測試一個10 s序列的運行時間,本文模型需要計算塊級SSIM,導致運行時間大于直接計算3D視頻的PSNR、SSIM,但是性能遠好于其他3種方法。

圖4 3D QoE模型框架Fig.4 Framework of 3D QoE model

表4 QoE模型和其他方法的性能比較Table 4 Comparison of performance between QoE model and other methods
本文研究了3D自適應流媒體應用中的用戶體驗質量,并設計了網絡帶寬不穩定情況下的3D視頻質量變化的主觀實驗。
實驗結果表明受試者對單視點質量變化不敏感,并且視頻質量上升狀態的用戶體驗質量更高。通過訓練主觀評分數據,本文建立了基于CNN的QoE模型用于評估3D視頻在自適應傳輸中的用戶體驗質量。該模型提供了高精度的QoE預測值,可用于改進3D自適應傳輸和平衡3D視頻傳輸中兩視點間比特率。在流媒體視頻服務中,代理服務器可以根據該模型預測得到的QoE為用戶提供不同碼率的3D視頻,從而有效分配網絡帶寬資源。