朱文瀚 翟廣濤 陶梅霞 楊小康 張文軍



摘要:針對多媒體行業對超高清內容清晰度用戶體驗評價的迫切需求,提出了一種有效的無參考質量評價算法,以預測目標內容的用戶感知體驗,并區分原始4K和偽4K內容。通過對目標內容進行分割,利用局部方差選擇了3個代表性子塊代替全局來提高計算效率。針對超高清內容的特性,提取了復雜度特征、頻域特征和像素統計特征。采用支持向量回歸的方法將這些提取的特征融合為一個質量指標,以預測目標內容的質量分數。實驗結果表明,本模型可以有效地評估用戶感知體驗,并具有良好的辨別真假4K內容的能力。
關鍵詞:用戶體驗質量;無參考質量評價;超高清;自由能原理;頻域分析;自然圖像統計
Abstract: In response to the urgent demand for assessing the quality of experience of ultrahigh definition content in multimedia industries, a non-reference quality assessment model is proposed to predict the perceptual quality of the target content and distinguish pristine 4K and pseudo 4K contents. Our model segments the image and chooses three representative patches by local variances to improve computing efficiency. According to the characteristics of ultra-high definition content, complexity features, frequency domain features and pixel statistics features are extracted from the representative patches. The support vector regressor is employed to aggregate these extracted features as an overall quality metric to predict the quality score of the target image. The experimental results demonstrate that the proposed method can effectively evaluate quality of user experience and is capable of distinguishing true and pseudo 4K contents.
Keywords: quality of experience; non-reference quality assessment; ultra-high definition; free-energy principle; frequency domain analysis; natural scene statistics
隨著數字電視與多媒體行業的高速發展,超高清內容已經成為新一代電視、電腦顯示器甚至手機屏幕的流行配置。由于超高清圖像和視頻在改善用戶體驗方面有著很強的作用,在適當的觀看距離下,4K視頻有生動的細節呈現,清晰度高,能顯著增強視覺體驗,因此,超高清內容成了時下最火熱的話題之一。2012年,國際電信聯盟(ITU)發布超高清電視的國際標準——ITU-R BT.2020建議書[1]。該標準正式規范了4K分辨率為3 840×2 160像素,寬高比為16∶9。此后,各國制定了相應的超高清圖像和視頻標準,以更加規范該行業[2]。例如,中國國家廣播電影電視總局發布了用于生產和節目交換的超高清電視系統的參數值(GY/T 307—2017)和針對超高清電視圖像質量的主觀評估方法(T/ CSMPTE 3—2018)。在消費市場上,各種電子設備制造商以4K為賣點,宣稱其數字設備支持超高清內容。許多網絡視頻運營商還推出了超高清節目源,例如,Netflix、YouTube、樂視網、優酷和百視通都有4K視頻直播服務。此外,智能手機行業將其注意力轉向4K,越來越多的高端智能手機以可以拍攝和生成4K圖像和視頻為賣點。
然而,超高清行業的發展同樣會帶來一些問題。根據Akamai最近的統計數據,只有21%的美國家庭網速在15 Mbit/s以上,這一傳輸速率被認為是有效播放4K視頻的最低門檻。一些調查顯示,雖然中國消費了全球約80%的4K電視,但是大部分視頻信號仍是高清水平。此外,為了推廣4K這一新興賣點,一些內容提供商或個人在網絡上傳播大量虛假4K視頻。盡管這些“高端”的“4K”視頻具有與自然4K內容相同的分辨率,但其往往模糊且缺乏細節,無法滿足消費者的需求。這些虛假的4K視頻在存儲和傳輸過程中占用了大量的內存和帶寬資源,但卻無法為用戶提供相應的高質量體驗。因此,如何將這些偽超高清內容從真實的超高清內容中辨識出來顯得尤為重要。
圖像質量評價作為一種預測圖像的感知質量的方法,在過去的20年中得到了廣泛研究[3]。一般而言,圖像質量評價可以分為主觀圖像質量評價和客觀圖像質量評價[4]。其中,主觀質量評價被認為是判斷圖像感知質量的最準確方法。研究者們通過建立許多主觀的圖像質量數據庫來提供各種質量和相應的真實質量分數的圖像,以促進客觀模型的發展。與主觀評價相比,客觀評價可以自動、高效地預測失真圖像的感知質量,具有可重復性高、速度快的特點,是質量評價領域的研究重點。根據參考圖像的可用信息,客觀的質量評價算法通常可以分為全參考、半參考和無參考算法。其中,全參考質量評價模型可以利用參考圖像的全部信息。均方誤差(MSE)、峰值信噪比(PSNR)和結構相似性算法(SSIM)[5]是全參考領域的3種最經典的算法。半參考質量評價模型則只能使用一部分參考圖像的信息,例如參考圖像的幾個特征值,但仍可以大大減少傳輸參考圖像時的信息量[6]。此外,在大多數的現實場景中,由于參考圖像并不存在,無參考圖像質量評價則可以發揮出作用,這是因為它不需要參考圖像就可以準確地評估失真圖像的感知質量。根據方法論的不同,無參考質量評價模型大致可以分為3大類:基于自然圖像統計的模型[7]、基于機器學習的模型[8]和基于人眼視覺系統的模型[9]。
目前,大多數圖像質量評價方法都針對普通的低分辨率圖像或人為制作的失真圖像。與這類圖像不同,超高清圖像具有非常高的分辨率,而人眼很難區分真實的超高清圖像和通過插值算法得到的偽4K圖像。據我們所知,目前還沒有專門針對這項任務而設計的算法。因此,預測超高清圖像的質量、區分真偽超高清圖像是一個全新的挑戰。這值得我們去研究現有的無參考質量評價模型是否可以勝任此任務,同時值得我們去研究針對超高清圖像質量的新算法。
1算法設計
1.1圖像分解預處理
超高清圖像的分辨率比一般的圖像大很多,這會顯著增加算法的計算量,造成算法運算時間過長,不利于算法的實際應用。因此,我們首先嘗試將一個輸入圖像切成多個子圖像,以獲得最具代表性的一個或幾個子圖像來代表整個輸入圖像,然后在這些選定的子圖像上執行后續的特征提取,以減少算法的計算量。
在給定一個4K圖像I的條件下,我們首先將I劃分為16×9個子圖像Ii,j,其中i∈{1,2,...,16},j∈{1,2,...,9}。這使得子圖像Ii,j的寬度像素和高度像素均為240,在隨后的計算過程中具有良好的屬性。由于人類的拍攝習慣和節目拍攝技巧,最重要和最具吸引力的內容往往集中在圖像的中心而不是邊緣。因此,為了避免代表性的子圖像出現在圖像的邊緣,例如帶有電視臺徽標、電視節目名稱、字幕和人們不太關注的圖像內容的子圖像,我們縮小了選擇范圍:從左側的第三列到右側的第三列,以及從頂部的第二行到底部的第二行。

1.2復雜度特征提取
在基于人類視覺系統建模的無參考圖像質量評價研究中,很多學者研究自由能原理,并取得了良好的研究成果。自由能原理是在腦神經科學領域里被提出的,用于量化人腦的感知、行為和學習的過程[10]。在圖像處理領域中,自由能被證明可以很好地表征圖像復雜度特征,并且和圖像質量高度相關[9]。因此,本文中,我們嘗試使用自由能原理模型來模擬人腦預測圖像的過程,并提取圖像復雜度特征。
基于自由能的大腦原理的一個基本前提是,認知過程受人腦內部生成模型的控制。當人的大腦收到一個“驚喜”時,大腦會在其內部生成模型,主動預測有意義的信息并消除殘留的不確定性,以生成一個預測結果,來解釋大腦的感知。



通過大量的實驗,我們發現了真偽4K圖像能量譜和累積能量譜上的特征。圖1給出了一對真偽4K圖像標準化后的能量譜和累積能量譜的示意圖。在圖1(a)中,黑色曲線P1表示真4K圖像,紅色曲線P2表示偽4K圖像,它們都是從低分辨(例如2K、1 080p、720p等)的圖像上采樣得到的。藍色實線P3是一條輔助線,經過點P1與P2的交點P。px和py分別為交點P的橫坐標和縱坐標。藍色虛線P4表示一個輔助圖像,在整個頻率上具有相同的能量,且能量高于或低于py。圖1(b)中,Ei為Pi的累積能量譜(i = 1,2,3,4)。由于是標準化后的累積能量譜,P3和P4為相同斜率的一條過原點的線段。
由頻域能量譜與累積能量譜的關系可知:

通過大量的實驗統計,我們對原始分辨率為4K的圖像,以及從2K、1 080p、720p 3種分辨率插值得到的偽4K圖像的累計能量譜進行了擬合,發現在這4種情況下,它們的特性均近似滿足:Ei(ω)≈aiωbi。由于Ei的二階導數小于零,所以它們都是凹函數。因此,我們可以發現曲線上的單點具有和E4相同的斜率,如黑色曲線上的點b,紅色曲線上的點e。綠色的虛線是與藍線平行的輔助線。點b和點e分別為累積能量譜曲線E1和E2與綠色虛線的交點,如圖1(b)所示。這些單點在Ei(i = 1,2)和E4之間的最大距離記為L1和L2。我們利用這些距離作為算法的頻域特征。

綜上所述,我們所提取的頻域成分的特征,可以有效地描述4K圖像的真假,敏感于超高清圖像的質量。因此,在本文中,我們將其定義為本算法的頻域特征。
1.4像素統計特征提取
作為一種對圖像質量很敏感的信息,自然圖像統計特征在圖像質量評價領域被廣泛應用。因此,本算法在像素層面上,也考慮了統計信息特征來提升算法的性能。我們使用了局部的均值去除對比度歸一化方法來表征超高清圖像的質量變化。


1.5特征融合和模型表示
為了聚合上述提取的與超高清圖像質量相關的特征,并生成質量評價模型以預測目標圖像的質量分數,在綜合考慮了回歸器的有效性和模型的計算速度后,我們利用支持向量回歸(SVR)方法聚合提出的特征,并采用LIBSVM軟件包來學習有徑向基函數(RBF)內核的模型[13]。
2實驗過程和分析
2.1實驗數據構成
為了測試算法的有效性,我們首先構建了真偽超高清圖像的數據庫,并從幾個現有的超高清視頻序列庫中獲得了50多段視頻序列。然后,我們從這些具有不同圖像內容的視頻序列中提取總共350張真實4K圖像,得到了真實4K內容數據集。這些素材內容非常廣泛,包括室外場景、室內場景、建筑物、角色、動物、靜物、夜景、運動場景、電影和電視劇片段。接著,我們將真實的4K圖像下采樣為具有2K、1 080p和720p 3種分辨率的圖像。接著,我們通過14種不同的插值方法將它們都上采樣到4K分辨率。總共有2 802個偽4K圖像構成了偽4K內容數據集。
2.2實驗方案
根據質量評價領域的傳統評估方法,我們使用4個通用評估標準來衡量所有比較的無參考質量評價模型的性能,它們分別是斯皮爾曼等級相關系數(SRCC)、肯德爾等級相關系數(KRCC)、皮爾遜線性相關系數(PLCC)和均方根誤差(RMSE)。此外,我們還計算了3個準確性指標:精確率(Precision)、召回率(Recall)和準確率(Accuracy),以比較算法的性能和判斷4K圖像的真實性。
為了對所提出的模型進行訓練,我們將測試材料隨機分為兩組:訓練集和測試集,它們分別包含80%和20%的圖像。我們使用訓練集訓練提出的模型,并使用測試集測試其性能。為了保證模型的魯棒性,我們將此過程重復了1 000次。這1 000次重復的中值結果被認為是最終性能。
2.3實驗結果和分析
表1給出了所有算法的性能結果。其中,Precision_T和Precision_F分別表示真4K圖像和偽4K圖像素材組的精確率,而Recall_T和Re? call_F分別表示真4K圖像和偽4K圖像素材組的召回率。由表1可知,在傳統指標中,與傳統圖像質量評價數據庫中的性能結果相比,所有算法的性能均不算出色。例如,這些指標中SRCC和PLCC值均不超過0.9,而通常這些指標在傳統的質量評價數據庫上會超過0.9。造成這種現象的主要原因是真實的4K圖像與其對應的偽4K圖像之間的差距很小,肉眼難以分辨。對于傳統的人為失真來說,這項任務中的差異微乎其微,甚至很多偽4K圖像的質量都要優于傳統質量評價數據庫里的參考圖像。從結果上看,我們算法的性能明顯優于其他主流的無參考質量評價模型。我們提出的方法的SRCC值超過0.8, PLCC值接近0.85,而其他算法的SRCC值大都低于0.7,PLCC值低于0.8。
通過分析分類算法中常用的指標精確率、召回率和準確率的結果,我們還可以得出這樣的結論:每個模型都具有較強的判斷能力,而偽4K圖像的判斷準確度要優于真4K圖像。此外,我們提出的算法具有最佳的性能,綜合判斷精度超過97%。因此,我們的算法具有優秀的區分真實和偽4K圖像的能力,并且這種能力與主觀感知分數呈正相關關系。
3結束語
本文中,我們設計了一種新的無參考質量評價模型來評價超高清內容清晰度的用戶體驗質量。基于超高清內容的特性,我們在目標內容上分別提取復雜度特征、頻率特征和像素統計特征,采用具有最高局部方差的3個子圖代替完整的目標圖像以改善計算效率。支持向量回歸的方法被用于回歸這些特征到一個整體質量指標上。實驗表明,在預測超高清內容清晰度的用戶體驗質量方面,本方法優于其他最新的無參考質量評價模型,并且具有良好的區分原始和偽超高清圖像的能力。本算法的研究將會對超高清內容清晰度用戶體驗評估領域的發展起到積極的促進作用。
參考文獻
[1] ITU. Parameter values for ultra-high definition television systems for production and international programme exchange: ITU-R BT.2020 [S]. 2012
[2] SUGAWARA M, CHOI S Y, WOOD D. Ultrahigh-definition television (rec. ITU-R BT.2020): a generational leap in the evolution of television standards in a nutshell [J]. IEEE signal processing magazine, 2014, 31(3): 170-174. DOI: 10.1109/msp.2014.2302331
[3] ZHAI G T, MIN X K. Perceptual image quality assessment: a survey [J]. Science China information sciences, 2020, 63(11): 211301. DOI: 10.1007/s11432-019-2757-1
[4] ZHU W H, ZHAI G T, MIN X K, et al. Multichannel decomposition in tandem with freeenergy principle for reduced-reference image quality assessment [J]. IEEE transactions on multimedia, 2019, 21(9): 2334-2346. DOI: 10.1109/tmm.2019.2902484
[5] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE transactions on image processing, 2004, 13(4): 600-612. DOI: 10.1109/tip.2003.819861
[6] SOUNDARARAJAN R, BOVIK A C. RRED indices: reduced reference entropic differencing for image quality assessment [J]. IEEE transactions on image processing, 2012, 21(2): 517-526. DOI:10.1109/tip.2011.2166082
[7] MITTAL A, SOUNDARARAJAN R, BOVIK A C. Making a“completely blind”image quality analyzer [J]. IEEE signal processing letters, 2013,20(3):209-212.DOI:10.1109/ lsp.2012.2227726
[8] XU J T, YE P, LI Q H, et al. Blind image quality assessment based on high order statistics aggregation [J]. IEEE transactions on image processing, 2016, 25(9): 4444-4457. DOI: 10.1109/tip.2016.2585880
[9] ZHAI G, WU X, YANG X, et al. A psychovisual quality metric in free-energy principle [J]. IEEE transactions on image processing, 2012, 21(1): 41-52. DOI:10.1109/tip.2011.2161092
[10] KARL F. The free-energy principle: a unified brain theory? [J]. Nature reviews neuroscience, 2010, 11(2): 127-138. DOI: 10.1038/ nrn2787
[11] LIU Y T, ZHAI G T, GU K, et al. Reducedreference image quality assessment in freeenergy principle and sparse representation [J]. IEEE transactions on multimedia, 2018, 20(2): 379-391. DOI:10.1109/tmm.2017.2729020
[12] RUDERMAN D L. The statistics of natural images [J]. Network: computation in neural systems, 1994, 5(4): 517-548. DOI:10.1088/ 0954-898X_5_4_006
[13] SCH?LKOPF B, SMOLA A J, WILLIAMSON R C, et al. New support vector algorithms [J]. Neural computation, 2000, 12(5): 1207-1245. DOI:10.1162/089976600300015565
[14] XUE W F, ZHANG L, MOU X Q. Learning without human scores for blind image quality assessment[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 995-1002. DOI:10.1109/cvpr.2013.133
[15] LIN ZHANG, LEI ZHANG, BOVIK A C. A feature-enriched completely blind image quality evaluator [J]. IEEE transactions on image processing, 2015, 24(8): 2579-2591. DOI: 10.1109/tip.2015.2426416
[16] WU Q B, WANG Z, LI H L. A highly efficient method for blind image quality assessment[C]//2015 IEEE International Conference on Image Processing (ICIP). Quebec City, QC, Canada: IEEE, 2015: 339-343. DOI:10.1109/ icip.2015.7350816
[17] MITTAL A, MOORTHY A K, BOVIK A C. Noreference image quality assessment in the spatial domain [J]. IEEE transactions on image processing, 2012, 21(12): 4695-4708. DOI: 10.1109/tip.2012.2214050
[18] MIN X K, GU K, ZHAI G T, et al. Blind quality assessmentbasedonpseudo-reference image [J]. IEEE transactions on multimedia, 2018,20(8):2049-2062.DOI: 10.1109/ tmm.2017.2788206
[19] MIN X K, ZHAI G T, GU K, et al. Blind image quality estimation via distortion aggravation [J]. IEEE transactions on broadcasting, 2018, 64(2): 508-517. DOI:10.1109/tbc.2018.2816783
[20] NARVEKAR N D, KARAM L J. A no-reference perceptual image sharpness metric based on a cumulative probability of blur detection [C]// 2009 International Workshop on Quality of Multimedia Experience. San Diego, CA, USA: IEEE,2009:87-91.DOI:10.1109/qomex.2009.5246972
[21] XUE W, MOU X, ZHANG L, et al. Blind image quality assessment using joint statistics of gradient magnitude and Laplacian features [J]. IEEE transactions on image processing, 2014, 23(11):4850-4862.DOI:10.1109/ tip.2014.2355716
作者簡介
朱文瀚,上海交通大學電子信息與電氣工程學院、人工智能研究院、教育部人工智能重點實驗室在讀博士研究生;研究領域包含圖像感知質量評價、圖像視頻信號處理;發表國際學術論文17篇。
翟廣濤,上海交通大學電子信息與電氣工程學院院長助理、教授、博士生導師,《Displays》主編,《中國科學:信息科學》編委,IEEE電路與系統分會視覺信號處理與通信技術委員會(CAS VSPC)成員、多媒體系統及應用技術委員會(MSA)成員,中國電子學會青年科學家俱樂部副主席,上海市圖象圖形學學會副理事長;研究方向為多媒體信號處理等;發表國際期刊論文100余篇。
陶梅霞,上海交通大學電子信息與電氣工程學院教授、博士生導師,IEEE Fellow,中國電子學會信息論分會副主任委員,曾任《IEEE Transactions on Wireless Communications》《IEEE Transactions on Communications》《IEEE Journal of Selected Areas in Communications》等期刊的編委或客座編委;獲2019年IEEE通信學會馬可尼論文獎、2013年IEEE通信學會海因里希赫茲論文獎;主要從事無線通信與網絡基礎研究,包括無線緩存、邊緣計算及5G關鍵技術等;發表國際期刊論文80余篇、國際會議論文100余篇。
楊小康,上海交通大學人工智能研究院常務副院長、人工智能教育部重點實驗室主任、教育部“長江學者”特聘教授、國家杰出青年科學基金獲得者、國家“萬人計劃”創新領軍人才、IEEEFellow,《IEEE Transactions on Multimedia》《IEEE Signal Processing Letters》編委;研究領域為圖像處理與機器學習;主持國家重點研發專項、“973”項目、國家自然科學基金項目等10余項,獲國家科技進步二等獎、中國電子學會自然科學一等獎、上海市科技進步一等獎等多個獎項;發表國際學術論文200余篇,申請發明專利50余項。
張文軍,上海交通大學教授、教育部“長江學者”特聘教授、國家杰出青年科學基金獲得者、“973”項目首席科學家、國家自然科學基金委創新群體學術帶頭人、IEEE Fellow,曾任國家高清晰度電視功能樣機系統研發項目總體組組長、數字電視國家工程研究中心首席科學家、教育部未來媒體網絡協同創新中心主任,國際未來廣播電視合作研究計劃技術委員會主席;主要從事圖像通信與數字電視、寬帶無線傳輸、系統芯片設計等研究工作,獲國家科技進步二等獎(2項)、何梁何利基金科學與技術進步獎、上海市科技進步一等獎(4項)、上海市科技功臣獎。