李俊杰,望育梅,李志軍,劉 雨
(北京郵電大學(xué) 人工智能學(xué)院,北京 100876)
隨著相關(guān)領(lǐng)域技術(shù)和硬件設(shè)施的發(fā)展,全景視頻,或稱360°視頻及虛擬現(xiàn)實(Virtual Reality,VR)視頻也快速發(fā)展?!霸钪妗睍r代的到來使全景視頻與工業(yè)生產(chǎn)、日常生活的聯(lián)系越來越緊密。全景視頻以沉浸式、交互式的體驗備受人們關(guān)注[1]。虛擬現(xiàn)實與物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)等技術(shù)的融合催生了更多的產(chǎn)業(yè)與應(yīng)用,促進了VR 生態(tài)的蓬勃發(fā)展。據(jù)研究報告數(shù)據(jù),VR 產(chǎn)業(yè)規(guī)模預(yù)計將以每年15%的增速增長[2],VR 產(chǎn)業(yè)總產(chǎn)值在2029 年預(yù)計達到2 273.4 億美元[3]。
全景視頻的高質(zhì)量傳輸給現(xiàn)有的網(wǎng)絡(luò)傳輸系統(tǒng)帶來了一定挑戰(zhàn)[4]。
其一是全景視頻傳輸時所需的高帶寬。與傳統(tǒng)視頻相比,全景視頻是3D 球體視頻,允許用戶自由選擇觀看的視角[5],任意地探索視頻中呈現(xiàn)的內(nèi)容。全景視頻包含更多的信息量,同分辨率下全景視頻的數(shù)據(jù)量是傳統(tǒng)視頻的4~6倍[6]。除此之外,用戶觀看全景視頻需要佩戴頭戴式顯示器(Head Mounted Display,HMD),由于人眼距離屏幕更近,對視頻分辨率大小更加敏感。一般來說,為了保證用戶的體驗感,全景視頻的分辨率一般要求在4K 及以上[7],傳輸所需帶寬將會隨之上漲至400 Mbps[8]?,F(xiàn)有網(wǎng)絡(luò)傳輸系統(tǒng)中,只有少部分可以滿足該傳輸要求[9]。
其二是全景視頻傳輸需要低時延。為避免觀看者產(chǎn)生眩暈感,頭動時延(Motion To Photon,MTP),即從用戶頭部開始移動到相應(yīng)畫面渲染、呈現(xiàn)給用戶的時延,應(yīng)盡量控制在20 ms 以內(nèi)[10]。
綜上所述,全景視頻數(shù)據(jù)量大、對時延敏感的特性[11]給現(xiàn)有的網(wǎng)絡(luò)傳輸帶來了很大的挑戰(zhàn)。如何在資源有限、時變的網(wǎng)絡(luò)條件下傳輸全景視頻,保障用戶體驗質(zhì)量(Quality of Experience,QoE),已成為當(dāng)前全景視頻領(lǐng)域的研究熱點。
由于人眼特性和HMD 的固定視野范圍,用戶無法看到全部的視頻區(qū)域,只有大概20%能被看到[12],這部分區(qū)域即通常所稱的視口區(qū)域(Field of Viewport,F(xiàn)oV)。鑒于以上特性,理論上來說,只需要傳輸FoV 范圍內(nèi)的視頻內(nèi)容就可以滿足用戶的觀看需求,從而大幅減少帶寬消耗[13]?;诖耍瑢W(xué)者們提出了基于tile 的視口自適應(yīng)傳輸(Tile-based Adaptive Streaming)[14],對視口區(qū)域和非視口區(qū)域做出智能決策,從而減少帶寬的消耗。在該傳輸系統(tǒng)中,主要包含兩個重要的模塊:一是視口預(yù)測模塊,負責(zé)根據(jù)用戶當(dāng)前視口信息,預(yù)測下一時刻的視口位置;二是碼率分配,基于視口預(yù)測的結(jié)果與可用的網(wǎng)絡(luò)資源生成碼率分配方案,對視口與非視口區(qū)域進行差異化傳輸。在基于tile 的視口自適應(yīng)傳輸系統(tǒng)中,只需要傳輸視口區(qū)域內(nèi)的tile 便可以滿足用戶的觀看需求。實際上,視口預(yù)測模型難以準(zhǔn)確預(yù)測用戶未來的視口位置,一旦預(yù)測錯誤,通常會造成視口區(qū)域內(nèi)對應(yīng)的畫面質(zhì)量降低,進而影響用戶的體驗質(zhì)量[15]。除此之外,碼率分配算法需要在資源有限的時變網(wǎng)絡(luò)中生成最優(yōu)的碼率分配策略,優(yōu)化用戶的體驗質(zhì)量[16]。因此,在自適應(yīng)傳輸系統(tǒng)中,視口預(yù)測與碼率分配算法的性能一定程度上決定系統(tǒng)性能的好壞。
本文基于當(dāng)前全景視頻的主流的傳輸方案,即基于tile的視口自適應(yīng)傳輸方案,重點講述該系統(tǒng)中視口預(yù)測和碼率分配兩個重點模塊。從不同的視角,歸納總結(jié)該領(lǐng)域的研究現(xiàn)狀與發(fā)展。
在全景視頻應(yīng)用中,為了保障用戶的沉浸式體驗,需要傳輸高分辨率的視頻,并且傳輸時延要控制在20 ms 內(nèi)。全景視頻的上述特性給現(xiàn)有的網(wǎng)絡(luò)傳輸帶來了較大的挑戰(zhàn),亟須優(yōu)化全景視頻傳輸系統(tǒng)。
動態(tài)圖像專家組(Moving Picture Experts Group,MPEG)在2015 年發(fā)起了面向全景視頻封裝格式的標(biāo)準(zhǔn)化制定工作,由此產(chǎn)生了第一版全景視頻標(biāo)準(zhǔn),即全向媒體格式(Omnidirectional MediA Format,OMAF)。OMAF 標(biāo)準(zhǔn)中闡明,全景視頻從采集到播放主要包括全景視頻采集、拼接、映射、編碼、傳輸、解碼、渲染和播放等[17]。全景視頻傳輸框架如圖1 所示。

圖1 全景視頻傳輸框架Fig.1 Transmission framework of panoramic video
目前全景視頻的采集通常由多個普通攝像機按照一定規(guī)律擺放,同步對實景進行拍攝。視頻采集后,并不能直接得到所需的球體視頻,而是從不同方位不同視角拍攝的視頻集合。要得到球體視頻,需通過視頻拼接技術(shù),將多方位攝像機采集的視頻拼接得到全景視頻。伴隨著硬件設(shè)施的發(fā)展,全景視頻采集技術(shù)日漸成熟,目前已有全景視頻專用攝像機,可以提供視頻采集和拼接的一體化服務(wù),極大地方便了全景視頻的制作。
盡管傳統(tǒng)視頻的編碼方案已有豐富的研究基礎(chǔ),但針對全景視頻的編碼方案仍未完全成熟。為了編碼全景視頻,目前主流解決方案是將全景視頻映射到二維平面上、再對它使用傳統(tǒng)視頻編碼的方案,這一映射過程稱為視頻映射。在OMAF 標(biāo)準(zhǔn)中,指定支持兩種投影格式,即等矩形映射(EquiRectangular Projection,ERP)[18]和立方體映射(Cubic Mapping Projection,CMP)[19]。除此之外,高通提出的金字塔棱臺映射(Truncated Square Pyramid projection,TSP)[20]也是常用的映射方法。各映射格式示例如圖2 所示。ERP 由地圖映射發(fā)展而來,是目前主流的全景視頻映射方法。ERP 在球體的緯度上,按照赤道的采樣頻率對視頻內(nèi)容進行采樣,然后生成寬高比為2∶1 的平面圖像[21]。ERP 簡單、直觀,但在兩極處像素采樣密度大于赤道,兩極處畫面扭曲較大。CMP 是另外一種常見的映射方法。該方法在球體視頻外部構(gòu)造一個外接立方體,然后從球體中心向外投射光線,從而緩解了兩極處的扭曲。CMP 壓縮效率比ERP 更高[22],但是在正方體的邊緣和拐角處,會產(chǎn)生更大程度的扭曲;同時,CMP 映射得到的視頻畫面不連續(xù),進而會影響圖像處理的效果。TSP 將全景視頻投影到截斷金字塔的6 個平面上,然后拼接畫面。相較于ERP 映射格式,TSP 畫面失真小,同時一定程度上解決了CMP 畫面不連續(xù)的問題,更利于視頻編碼與圖像處理。

圖2 常用映射格式示例Fig.2 Examples of common projection formats
視頻映射后,即可對全景視頻進行編碼處理。目前流行的編碼方案是高效視頻編碼(High Efficiency Video Coding,H.265/HEVC)[23],而較早的高級視頻編碼(Advanced Video Coding,H.264/AVC)[24]也仍被廣泛使用。此外,2020 最新發(fā)表的多功能視頻編碼(Versatile Video Coding,H.266/VVC)[25]在原有編碼方案的基礎(chǔ)上,作了更多擴展,可以更好地支持全景視頻傳輸。
傳統(tǒng)流媒體視頻一般通過DASH(Dynamic Adaptive Streaming over HTTP)[26]協(xié)議進行傳輸,該協(xié)議是當(dāng)前最流行的視頻流傳輸協(xié)議之一。DASH 根據(jù)網(wǎng)絡(luò)帶寬自適應(yīng)地調(diào)節(jié)待傳輸視頻序列的碼率,從而保證用戶在網(wǎng)絡(luò)波動時也能享受到流暢的觀看體驗。DASH 使用媒體描述文件MPD(Media Presentation Description)描述服務(wù)器端存儲的視頻屬性和分片信息[27]。其中,自適應(yīng)碼率(Adaptive Bit Rate,ABR)是DASH 協(xié)議中重要組成部分,通過對網(wǎng)絡(luò)吞吐量及播放器緩存器狀態(tài)的評估,作出傳輸下一視頻塊的碼率等級的決策。
如何保障用戶流暢、沉浸式的觀看體驗是全景視頻無線傳輸目前的最大挑戰(zhàn)。目前,全景視頻的傳輸主要分為全景傳輸與視口自適應(yīng)傳輸。
全景傳輸是將全部全景視頻區(qū)域以等質(zhì)量的形式無差別地傳輸給用戶。顯然,這種方案簡單、直接,可以保留全部的視頻信息;但由于FoV 僅占完整視頻的20%左右,全景傳輸方案不僅會造成明顯的帶寬資源浪費,而且容易導(dǎo)致高時延[28]。因此,學(xué)者們根據(jù)用戶視覺特性,提出根據(jù)用戶的FoV 動態(tài)調(diào)整傳輸區(qū)域,將更多的帶寬資源用于提升FoV 內(nèi)的視頻質(zhì)量。簡單來說,即FoV 內(nèi)的視頻區(qū)域進行高質(zhì)量傳輸,而FoV 外的則對應(yīng)較低質(zhì)量傳輸或甚至不傳輸。
基于tile 的視口自適應(yīng)傳輸方案是視口自適應(yīng)傳輸方案的一種,也是當(dāng)前主流的視口自適應(yīng)傳輸方案。如圖3 所示,該方案將DASH 與tile[29]思想相結(jié)合,將視頻區(qū)域分割為若干個矩形區(qū)域,進一步提升了帶寬的利用率。對任一全景視頻,首先在時域范圍內(nèi)被分為若干個等長的時間塊,通常稱之為chunk 或segment。每個chunk 在空間域上被分為若干個等大小的矩形塊,即tile。每個tile 都以多種分辨率、不同質(zhì)量等級的版本存儲在服務(wù)器中。客戶端首先通過視口預(yù)測算法判斷FoV,自適應(yīng)碼率分配算法則根據(jù)當(dāng)前的網(wǎng)絡(luò)帶寬、FoV 等信息做出傳輸方案智能決策,從而大幅減少帶寬的消耗,并提升用戶的體驗質(zhì)量。

圖3 基于tile的視口自適應(yīng)傳輸方案Fig.3 Tile-based viewport adaptive streaming
基于tile 的視口自適應(yīng)傳輸方案通過視口預(yù)測機制,可以有效減少帶寬的浪費。在同等網(wǎng)絡(luò)狀況下,將更多的帶寬用于提高FoV 內(nèi)的視頻質(zhì)量,維持用戶的沉浸式體驗;然而,若用戶當(dāng)前視口與預(yù)測視口不符,會出現(xiàn)黑屏或視頻質(zhì)量降低等問題。即使在精準(zhǔn)預(yù)測用戶視口的情形下,同樣需要高效率的自適應(yīng)碼率分配算法,以適應(yīng)不同的終端設(shè)備與網(wǎng)絡(luò)條件。綜上所述,視口預(yù)測可以適應(yīng)用戶的頭部移動,自適應(yīng)的碼率分配算法則能夠適應(yīng)網(wǎng)絡(luò)狀況的變化。在視口自適應(yīng)方案中,視口預(yù)測算法和自適應(yīng)碼率分配算法與傳輸系統(tǒng)性能好壞關(guān)系密切[28],而用戶質(zhì)量評估則是系統(tǒng)性能好壞的關(guān)鍵評估指標(biāo)。
用戶體驗質(zhì)量是客戶對服務(wù)體驗的滿意度或煩惱度的度量,反映了視頻傳輸系統(tǒng)下用戶體驗感受,常被用于評估傳輸系統(tǒng)的性能。在波動的網(wǎng)絡(luò)狀況下,傳輸全景視頻容易發(fā)生卡頓、畫面質(zhì)量頻繁切換等現(xiàn)象,進而影響用戶的體驗質(zhì)量。在全景視頻傳輸系統(tǒng)中了解如何評估用戶的體驗質(zhì)量,成為設(shè)計全景視頻自適應(yīng)傳輸方案的首要問題。
MPEG 標(biāo)準(zhǔn)化協(xié)會將QoE 評估主要分為主觀評估和客觀評估兩種。主觀評估指由用戶對體驗質(zhì)量從多個層次、分等級評分,能直接反映用戶對視頻質(zhì)量的感知,但易受用戶主觀意愿的影響;客觀評估基于數(shù)學(xué)模型選擇合適的指標(biāo)衡量視頻質(zhì)量,可以自動計算,無需過多的人為干預(yù)。
用戶體驗質(zhì)量是一個主觀的概念,受到人主觀因素、系統(tǒng)因素和視頻內(nèi)容等的影響。全景視頻中涉及人與內(nèi)容的交互,主觀評估可以更準(zhǔn)確地反映用戶的體驗感好壞。
目前,全景視頻主觀質(zhì)量評估方法大都在傳統(tǒng)視頻評估方法的基礎(chǔ)上進行研究。國際電信聯(lián)盟(International Telecommunication Union,ITU)提出使用絕對等級評分(Absolute Category Rating,ACR)和失真等級評分(Degradation Category Rating,DCR)評估QoE。平均意見評分(Mean Opinion Score,MOS)是最常用的ACR 評分方法之一。該方法將視頻內(nèi)容呈現(xiàn)給大量的體驗用戶,然后要求用戶按1~5 的分值評分,分值越高表示用戶的體驗感越佳。該方法不需要參考原始視頻,直接評價處理后的視頻。差分平均意見評分(Differential Mean Opinion Score,DMOS)是DCR的常用評估指標(biāo),常被用于評估失真視頻和原始視頻質(zhì)量之間的差異,比較適合評估壓縮方案對畫面質(zhì)量的影響或者不同算法之間的直接性能比較。
傳統(tǒng)2D 視頻中常用的客觀評估指標(biāo)同樣可用于全景視頻。常用的客觀指標(biāo)包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、結(jié)構(gòu)相似度指數(shù)(Structural SIMilarity index,SSIM)[30]等。盡管一些傳統(tǒng)的客觀評估指標(biāo)仍能適用,但由于全景視頻中獨特的畫面畸變、壓縮偽影等使傳統(tǒng)的評估指標(biāo)難以滿足全景視頻場景下的評估需求。例如,由于人眼對畫面質(zhì)量的感知存在差異,PSNR 難以和用戶的感知質(zhì)量保持一致。鑒于此,學(xué)者們基于傳統(tǒng)的視頻評估指標(biāo),結(jié)合全景視頻的視覺特性,提出了許多全景視頻專用的評估指標(biāo)。
在JVET(Joint Video Experts Team)會議[31]中,采納了WS-PSNR(Weighted-to-Spherically-uniform PSNR)[32]、S-PSNR(Spherical-PSNR)[32]和CPP-PSNR(Craster’s Parabolic Projection-PSNR)[33]作為全景視頻質(zhì)量的評價標(biāo)準(zhǔn)。與PSNR 不同,WS-PSNR 對全景視頻的不同區(qū)域的像素點分配不同的權(quán)重值。WS-PSNR 直接在二維平面上計算,而S-PSNR 在球上均勻采樣若干個點,然后將它們重新投影到參考和扭曲的全景圖像[34]上,再計算PSNR。相比WS-PSNR,S-PSNR 直接在球域上計算,計算復(fù)雜度更高,且采樣點所占比例較低。CPP-PSNR 專用于克拉斯特拋物線投影,將全景視頻用該投影格式后得到二維視頻,再計算所得圖像的PSNR。同樣地,為了適應(yīng)球體視頻,基于SSIM 提出的WS-SSIM(Weighted-to-Spherically-uniform SSIM)[35]和S-SSIM(Spherical-SSIM)[36]使用類似WS-PSNR 的權(quán)重函數(shù),彌補全景視頻的畫面失真,更能真實反映全景視頻用戶的感知質(zhì)量。
截至目前,盡管學(xué)者們已提出多種QoE(Quality of Experience)評估指標(biāo),但在實際應(yīng)用中,這些指標(biāo)仍難以精準(zhǔn)反映用戶的觀看體驗。特別是在全景視頻領(lǐng)域,由于影響用戶體驗質(zhì)量的因素極為多樣且復(fù)雜[37],加上不同用戶的偏好差異,主觀與客觀評估指標(biāo)之間的不一致性成為一個顯著的挑戰(zhàn)。這一現(xiàn)象不僅揭示了現(xiàn)有評估方法的局限性,也強調(diào)了開發(fā)更為精準(zhǔn)和個性化評估工具的迫切需求。未來的研究需致力于探索綜合考慮個體差異和多元化體驗要素的新型評估機制,以更真實地反映和提升用戶的全景視頻體驗。
視口預(yù)測是自適應(yīng)傳輸方案中的關(guān)鍵技術(shù)。由于全景視頻的時延敏感特性,為了避免用戶頭部隨意移動時FoV 出現(xiàn)黑塊或者視頻質(zhì)量急劇降低[38],必須提前預(yù)測FoV,并把相應(yīng)的視頻區(qū)域預(yù)存于播放緩存,從而保證用戶始終能夠流暢地觀看視頻。
一般來說,視口預(yù)測主要可以分為與內(nèi)容無關(guān)和與內(nèi)容相關(guān)的預(yù)測方法[39],如表1 所示。與內(nèi)容無關(guān)的視口預(yù)測方法只依賴用戶先前的視口位置信息預(yù)測未來時刻的位置,一般基于HMD 內(nèi)傳感器采集到的一段時間內(nèi)的歷史軌跡信息預(yù)測用戶未來時刻的視口位置,因而常被稱為基于歷史軌跡的預(yù)測方法。根據(jù)是否采用單用戶軌跡預(yù)測,基于軌跡的預(yù)測方法又可進一步分為基于單用戶軌跡和基于多用戶軌跡預(yù)測。與內(nèi)容相關(guān)的預(yù)測方法通?;谝曨l的顯著性進行視口預(yù)測。顯著性預(yù)測通過智能算法模擬人的視覺系統(tǒng)特點,預(yù)測人類的視覺凝視點和眼動,提取圖像中人類感興趣的區(qū)域(Region of Interest,RoI)。除此之外,學(xué)者們還提出同時基于視頻內(nèi)容與歷史軌跡的視口預(yù)測方法,該方法與用戶的歷史軌跡和視頻內(nèi)容相關(guān),視頻內(nèi)容可以進一步分為基于目標(biāo)追蹤和基于顯著性,兩者分別使用視頻內(nèi)物體的運動軌跡和圖像顯著性代替視頻內(nèi)容。

表1 視口預(yù)測算法概述Tab.1 Overview of viewport prediction algorithms
由于用戶的視口位置在時間上具有一定的相關(guān)性,因此視口預(yù)測問題常被建模為時間序列預(yù)測問題。一些傳統(tǒng)的時間預(yù)測方法被廣泛應(yīng)用于該場景,包括線性回歸、概率統(tǒng)計和機器學(xué)習(xí)等?,F(xiàn)有的一些視口預(yù)測方法基于頭部運動歷史軌跡,使用較簡單的模型預(yù)測未來的視口位置。例如平均值(Average)[40]、線性回歸(Linear Regression,LR)[41]和加權(quán)線性回歸(Weighted Linear Regression)[42]。文獻[43]中基于1 300 多個數(shù)據(jù)集測試,比較了線性回歸(Linear Regression,LR)、嶺回歸(Ridge Regression,RR)和支持向量回歸(Support Vector Regression,SVR)在不同預(yù)測時間長度的準(zhǔn)確率,發(fā)現(xiàn):當(dāng)預(yù)測間隔在1 s 內(nèi),LR 能取得最佳效果;當(dāng)預(yù)測間隔大于1 s,RR 可以提高預(yù)測算法的魯棒性。學(xué)者們還提出基于用戶頭部的多項移動數(shù)據(jù),對用戶未來視口進行預(yù)測,例如:文獻[44]中提出基于用戶觀看時候的位置信息、頭部轉(zhuǎn)動速度以及加速度,建立一個頻率驅(qū)動(Frequency-Driven)預(yù)測模型;類似地,文獻[45]中將用戶的頭部移動數(shù)據(jù)綜合建模成一個向量,包括了用戶頭動速度與加速度;文獻[46]中通過用戶的角速度與角加速度預(yù)測用戶的未來視口位置。
然而,這些模型結(jié)構(gòu)通常比較簡單,難以很好地挖掘用戶的復(fù)雜行為。當(dāng)用戶頭部快速移動時,準(zhǔn)確率通常難以保持較高水平。隨著深度學(xué)習(xí)與強化學(xué)習(xí)理論的成熟與發(fā)展,學(xué)者們提出應(yīng)用深度學(xué)習(xí)的方法,解決視口預(yù)測準(zhǔn)確率低的難題。一些研究結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[47]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[48]在視口數(shù)據(jù)集上的測試取得了較好效果,證明深度學(xué)習(xí)網(wǎng)絡(luò)模型用于視口預(yù)測可行。Bao 等[49]提出使用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)模型提高預(yù)測算法在長期預(yù)測的準(zhǔn)確率。Xu 等[50]建立了用于頭部運動預(yù)測的深度強化學(xué)習(xí)模型,根據(jù)頭部的運動提取FoV,并在長期預(yù)測取得了90%以上的準(zhǔn)確率。Lee 等[51]在LSTM 中引入了注意力模塊,使用LSTM 和門控遞歸單元(Gated Recurrent Unit,GRU)更精準(zhǔn)地預(yù)測全景視頻中的用戶頭部位置。
同時一些學(xué)者提出視口預(yù)測算法的誤差分布服從一定的規(guī)律,可以將用戶的頭部運動視為概率事件,構(gòu)建一個概率模型描述視口預(yù)測誤差的分布,用特定的分布擬合視口預(yù)測的誤差,從而減小算法預(yù)測的錯誤概率。Xie 等[52]指出LR的誤差分布近似于高斯分布,并分別對描述用戶頭部的3 個角度(roll,yaw,pitch)的預(yù)測誤差建立高斯分布模型。Zou等[53]發(fā)現(xiàn)使用LSTM 預(yù)測視口時,誤差分布更接近拉普拉斯分布。Jiang 等[54]提出視口預(yù)測誤差分布更接近t Location-Scale 分布。在視口預(yù)測中,預(yù)測誤差可以建模為系統(tǒng)噪聲。Kalman 濾波器基于隱馬爾可夫的經(jīng)典模型[55],常用于預(yù)測含噪聲的系統(tǒng)的狀態(tài),因此Kalman 濾波器也常被用于預(yù)測用戶的頭動軌跡[56]。盡管如此,現(xiàn)有的誤差分布函數(shù)大多都是靜態(tài)的,無法適應(yīng)視頻播放時預(yù)測準(zhǔn)確率的變化,誤差在時域內(nèi)不斷累積,導(dǎo)致視口預(yù)測算法在長期預(yù)測時可靠性降低。也就是說,只考慮單用戶的歷史軌跡信息,在短期預(yù)測雖然可以取得較高的準(zhǔn)確率,但是預(yù)測間隔一旦增長,預(yù)測方法的可靠性難以保障。
除了考慮單個用戶的歷史軌跡,一些研究者發(fā)現(xiàn)不同用戶觀看同一視頻時常常表現(xiàn)出相似的觀看模式,探索跨用戶行為的相似性可以彌補視口預(yù)測結(jié)果與實際值不匹配的缺陷。文獻[57]中同時使用了LR 與K近鄰(K-Nearest Neighbor,KNN)算法,既考慮了用戶的歷史位置信息,又考慮用戶之間行為相關(guān)性對初步預(yù)測結(jié)果進行修正,使用KNN聚類進一步提高預(yù)測算法的準(zhǔn)確率。文獻[58]中考慮用戶觀看模式的相似性,對tile 的觀看概率進行統(tǒng)計分析,并將高頻次出現(xiàn)的tile 與FoV 預(yù)測結(jié)果取并集,從而一定程度上提高視口預(yù)測算法的準(zhǔn)確率。文獻[59]中通過識別用戶軌跡,利用用戶之間觀看行為的相似性提高傳統(tǒng)線性回歸方法的準(zhǔn)確率。文獻[60]中分別對描述用戶頭部位置的3 個角度建模,并使用聚類算法將相似的軌跡分為不同的子類,分別計算每個子類的軌跡函數(shù)。文獻[61]中使用了一種基于密度的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類算法,先將用戶分類,再通過支持向量機(Support Vector Machine,SVM)預(yù)測用戶的類別,以預(yù)測不同類別對應(yīng)的觀看軌跡。
除了基于歷史軌跡的與視頻內(nèi)容無關(guān)的視口預(yù)測方法,另一類是內(nèi)容相關(guān)的視口預(yù)測方法,通?;谝曨l內(nèi)容的顯著性特征進行預(yù)測[62]。全景視頻顯著圖示例如圖4 所示(顏色越深代表顯著性越高)。一般來說,視頻顯著性的高低反映了用戶感興趣的程度,視頻內(nèi)容的顯著性越強,相應(yīng)被觀看的概率就越高,因此顯著性高的區(qū)域內(nèi)的tile 對應(yīng)高的傳輸碼率。在傳統(tǒng)視頻中,卷積神經(jīng)網(wǎng)絡(luò)常被用于顯著性檢測。對于全景視頻中的顯著性預(yù)測,一些文獻[63-65]中直接將傳統(tǒng)視頻的顯著性檢測模型應(yīng)用至全景視頻,但是傳統(tǒng)視頻的顯著性檢測模型通常并不適用于全景視頻。由于全景視頻在經(jīng)過ERP 后,畫面會產(chǎn)生不同程度的扭曲,這種來自空間變化的扭曲失真使傳統(tǒng)CNN 的權(quán)重共享無效,導(dǎo)致顯著性檢測效果變差。

圖4 全景視頻顯著圖示例Fig.4 Example of panoramic video saliency map
為了使傳統(tǒng)視頻顯著性檢測的研究成果可以應(yīng)用至全景視頻,學(xué)者們提出了多種方法,例如通過線性加權(quán)將傳統(tǒng)視頻的顯著圖轉(zhuǎn)化為全景圖像的顯著圖[66],或者通過遷移學(xué)習(xí)使傳統(tǒng)圖像顯著性檢測模型能夠適應(yīng)全景圖像的顯著性檢測[67]。文獻[68]中使用淺層網(wǎng)絡(luò)進行顯著性檢測,并使用遷移學(xué)習(xí)的方法生成深度網(wǎng)絡(luò)。文獻[69]中使用三維卷積神經(jīng)網(wǎng)絡(luò)(3-Dimensional CNN)提取視頻的時空特征,包括顯著性圖、移動圖等,并與基于歷史視口的預(yù)測方法相比,在預(yù)測準(zhǔn)確率上表現(xiàn)更佳。為了消除畫面扭曲造成的影響,一種方法是將全景視頻轉(zhuǎn)換為多個透視圖[70-72],并在每個透視圖上使用傳統(tǒng)CNN 進行處理;但是,這種方法并不能消除失真,而只是將影響降到最低。例如文獻[72]中提出了一種用于全景視頻的顯著性預(yù)測網(wǎng)絡(luò),以CMP 格式的視頻幀和光流作為輸入,再通過解碼器和雙向卷積LSTM 對這些特征進行顯著性預(yù)測;但因為CMP 映射格式畫面不連續(xù),可能影響顯著性預(yù)測性能。除此之外,文獻[73-75]中采用另一種方法策略,通過改變卷積方法抵消失真的影響。例如文獻[74]中提出了一個新的框架SphereNet,根據(jù)球面圖像表示的幾何形狀調(diào)整卷積濾波器的采樣網(wǎng)格位置,并將濾波器包裹在球體周圍,以避免圖像失真帶來的影響。
除此之外,還可以將用戶的歷史軌跡與全景視頻的內(nèi)容相結(jié)合進行視口預(yù)測。文獻[76-78]中認為用戶的觀看區(qū)域主要受視頻內(nèi)運動的物體的影響,應(yīng)結(jié)合目標(biāo)追蹤算法進行視口預(yù)測。文獻[76]中通過YOLOv3(You Look Only Once v3)算法識別視頻內(nèi)物體的運動軌跡,并使用差分整合移動平均自回歸模型(Auto-Regressive Integrated Moving Average,ARIMA)時間序列預(yù)測的方法初步預(yù)測用戶的未來視口位置,然后使用被動攻擊回歸算法,修正預(yù)測結(jié)果。文獻[79]中同時基于用戶的歷史軌跡和圖像顯著性圖,使用LSTM 預(yù)測用戶視口,采用預(yù)訓(xùn)練的VGG-16 網(wǎng)絡(luò)提取視頻視覺特征,與位置信息級聯(lián)經(jīng)Flatten 層處理后輸入雙層LSTM 網(wǎng)絡(luò)。文獻[80]中基于用戶先前視口位置與視頻內(nèi)容預(yù)測未來視口位置,使用LSTM 初步處理,然后與空間顯著特征級聯(lián)拼接,聯(lián)合輸入到Inception-ResNet-V2 的網(wǎng)絡(luò)。文獻[81]中提出了基于深度卷積網(wǎng)絡(luò)的顯著性模型PanoSalNet 提取顯著特征,然后將位置信息映射成掩碼,輸入到雙層LSTM 網(wǎng)絡(luò)中。文獻[82]中采取了上述類似的方法,在文獻[81]方法基礎(chǔ)上增加了一個修正模塊,補償預(yù)測值與實際值的差異。然而,在大量的數(shù)據(jù)集上測試后發(fā)現(xiàn),現(xiàn)有的同時基于視頻內(nèi)容與歷史軌跡的預(yù)測方法在測試時,性能都低于較新的僅基于歷史視口的預(yù)測方法[39]。所以,一些學(xué)者在最新的一些研究進展中另辟蹊徑,結(jié)合兩種預(yù)測模型,并將兩種模型的預(yù)測結(jié)果整合得到最終的預(yù)測結(jié)果。文獻[38]中提出的視口預(yù)測方法中,基于歷史視口得到第一次視口預(yù)測結(jié)果,將它記為固定視口;然后基于Spherical Walk 方法[83](將用戶的頭部運動視為在球體上行走,并基于從一點到另一點的球體運動來預(yù)測未來視口位置)得到第二次視口預(yù)測結(jié)果,即為擴展視口;最后對兩次預(yù)測結(jié)果取并集,得到最終的預(yù)測視口區(qū)域。綜上所述,學(xué)者們提出了多種方法提高視口預(yù)測算法的準(zhǔn)確率。基于已有的研究成果,現(xiàn)有的基于單用戶的視口預(yù)測方法在短期預(yù)測可以維持較高的準(zhǔn)確率。隨著預(yù)測間隔變長,預(yù)測的準(zhǔn)確率將會大幅度降低。基于內(nèi)容顯著性特征與跨用戶行為的相似性可以一定程度上克服該缺陷。從相應(yīng)的技術(shù)手段看,越來越多的深度學(xué)習(xí)模型用于內(nèi)容顯著性估計與視口預(yù)測。相較于簡單的回歸模型,基于深度學(xué)習(xí)的視口預(yù)測算法在長期預(yù)測場景下表現(xiàn)更佳。
視口自適應(yīng)傳輸方案基于人們的視口位置進行選擇性傳輸,為視口內(nèi)區(qū)域提供高質(zhì)量傳輸,其余部分以低質(zhì)量傳輸[84]。自適應(yīng)碼率(Adaptive Bit Rate,ABR)算法(或稱碼率分配算法)基于視口位置信息,進行智能決策。碼率分配算法通過選擇合適的碼率版本,為終端用戶提供最佳的用戶體驗質(zhì)量。為了保障流暢的播放體驗,除了依賴于準(zhǔn)確的視口預(yù)測,在時變網(wǎng)絡(luò)環(huán)境中如何高效地進行碼率分配對保障用戶的體驗質(zhì)量也至關(guān)重要?,F(xiàn)有的全景視頻自適應(yīng)碼率分配算法大多借鑒了傳統(tǒng)視頻的ABR 算法,并考慮全景視頻的特性,對傳統(tǒng)的ABR 算法進行了改進。
總體來說,現(xiàn)有的自適應(yīng)碼率算法可以分為4 類:基于吞吐量(Throughput-based)、基于緩存區(qū)容量控制(Bufferbased)、混合控制(Hybrid)和基于學(xué)習(xí)(Learning-based)。Throughput-based 與Buffer-based 分別通過考慮網(wǎng)絡(luò)可用帶寬和緩存區(qū)的容量生成碼率分配方案;Hybrid 一般綜合考慮帶寬、緩存區(qū)容量和時延等多方面因素,構(gòu)造自適應(yīng)碼率模型;Learning-based 強調(diào)從系統(tǒng)環(huán)境中學(xué)習(xí),基于歷史的播放器狀態(tài)找到最合適的碼率分配策略。全景視頻傳輸中自適應(yīng)碼率分配算法的基本邏輯如圖5 所示,碼率分配算法主要包括資源估計模塊和自適應(yīng)邏輯模塊。資源估計模塊負責(zé)收集網(wǎng)絡(luò)狀況或者緩存區(qū)的容量信息。自適應(yīng)邏輯則根據(jù)當(dāng)前的網(wǎng)絡(luò)狀況或者緩存的容量向視頻服務(wù)器請求合適的碼率,將請求的視頻版本預(yù)存在視頻播放緩存區(qū)中,供用戶觀看設(shè)備渲染及播放,以優(yōu)化用戶的體驗質(zhì)量。

圖5 全景視頻自適應(yīng)碼率分配算法Fig.5 Adaptive bit rate allocation of panoramic video
自適應(yīng)碼率分配算法可在時變的網(wǎng)絡(luò)環(huán)境中兼顧畫面的質(zhì)量和視頻的流暢播放,同時提供更好的用戶體驗質(zhì)量。從自適應(yīng)碼率分配算法被提出以來,業(yè)界涌現(xiàn)了許多經(jīng)典的算 法,包 括Festival[85]、MPC(Model Prediction Control)[86]、BBA0[87]、Elastic[88]、BOLA[89]和Pensieve[90]等,算法概述如表2所示。全景視頻傳輸系統(tǒng)中的自適應(yīng)碼率算法考慮了全景視頻的視覺特性和QoE 模型等,在傳統(tǒng)視頻經(jīng)典的算法的基礎(chǔ)上作出了改進。

表2 碼率分配算法概述Tab.2 Overview of bit rate allocation algorithms
在全景視頻場景中,最簡單、直接的自適應(yīng)碼率分配算法ERP[91]被廣泛應(yīng)用于視頻平臺(例如YouTube)等。該方法對視頻進行ERP 投影后,將視頻在空間域劃分為若干個tile,在帶寬的可用范圍內(nèi),對每個tile 分配等質(zhì)量的碼率。這種方案簡單、直接,但由于非視口區(qū)域會占用很多的帶寬,造成帶寬浪費的同時,還降低了視口區(qū)域內(nèi)的畫面質(zhì)量。許多改進方案在視口區(qū)域與非視口區(qū)域選擇傳輸不同的碼率版本。文獻[83]中提出CTF(Center Tile First)的策略,即對位于視口區(qū)域中心的tile 優(yōu)先傳輸高質(zhì)量的視頻版本。文獻[92]中對現(xiàn)有經(jīng)典的基于tile 傳輸方案進行綜述,統(tǒng)一實驗條件下發(fā)現(xiàn),相較于非tile 的傳輸方案,基于tile 的傳輸方案在視口區(qū)域內(nèi)的PSNR 更優(yōu),且不易受視頻塊chunk 的時長和緩存區(qū)大小等因素的影響。
文獻[52]中提出使用QoE 驅(qū)動的優(yōu)化方法,在有限的帶寬資源下,為每個tile 分配碼率,最大化用戶的QoE。為了求解碼率分配中QoE 最大化的問題,將碼率分配問題建模成其他的數(shù)學(xué)問題,并使用不同的算法模型解決問題。文獻[93]中將碼率分配算法轉(zhuǎn)換為整數(shù)線性規(guī)劃問題(Integer Linear Programming,ILP),減少了76%的帶寬消耗。文獻[94]中提出了QoE 模型,考慮了畫面亮度、視覺深度等因素對用戶體驗質(zhì)量的影響。同時提出了大小可變的tile 方案,使用模型預(yù)測控制(MPC)算法為每一視頻塊內(nèi)的tile 分配對應(yīng)的碼率,在達到相同畫面質(zhì)量的情況下,可節(jié)省40%左右的帶寬資源。文獻[43]中綜合考慮了多種QoE 的影響因素,包括緩存時間、FoV 內(nèi)視頻質(zhì)量與相鄰視頻幀之間質(zhì)量的切換,并將該問題建模為效用函數(shù),使用MPC 求解效用函數(shù)最大時的碼率分配策略。效用函數(shù)與用戶體驗質(zhì)量直接相關(guān),從而進一步優(yōu)化用戶的體驗質(zhì)量,并節(jié)省35%的帶寬資源。文獻[57]中提出碼率分配是典型的非確定性多項式完全問題(Non-deterministic Polynomial,NP-Complete Problem),可以將其視為背包問題(Knapsack Problem)求解。類似地,在文獻[11]中也將碼率分配算法建模為背包問題,并使用貪心算法窮舉碼率分配方案,極大地提高了傳輸后的視頻畫面質(zhì)量。文獻[16]中使用貪心方法不斷計算每個tile 的傳輸花費與性能提升,找到綜合效益最優(yōu)的傳輸策略,輸出最終碼率分配結(jié)果。文獻[95]中利用多用戶數(shù)據(jù)組合成一個整體模型,基于預(yù)測的用戶視口位置,計算每個tile 的優(yōu)先級,再通過束搜索的優(yōu)化方法,根據(jù)每個tile 的優(yōu)先級為它分配對應(yīng)的碼率。為了確定服務(wù)器端最佳的編碼方案,以最大化客戶端觀看質(zhì)量,文獻[96]中將QoE 優(yōu)化問題分為不同帶寬下的類優(yōu)化問題和存儲限制下最大化用戶感知質(zhì)量的全局優(yōu)化問題,并分別采取不同的算法分別求解;該方案不僅計算速度快,且視口區(qū)域內(nèi)畫面質(zhì)量更高。
由于視口預(yù)測的誤差會對碼率分配產(chǎn)生較大的影響,學(xué)者們提出了雙層(2-tier)的全景視頻傳輸系統(tǒng)。文獻[97]中將視頻分為基礎(chǔ)背景層與增強層,客戶端根據(jù)對QoE 的提升動態(tài)決定選擇tile 的碼率。利用Lyapunov 優(yōu)化理論中的漂移加罰(Drift Plus Penalty)方法解決QoE 優(yōu)化問題,在視口質(zhì)量、視口質(zhì)量變化與視頻卡頓上有了顯著的優(yōu)化。類似地,文獻[98]中將整個全景視頻分為基礎(chǔ)層和增強層?;A(chǔ)層對所有的視頻區(qū)域傳輸一個低質(zhì)量的視頻版本,防止預(yù)測誤差導(dǎo)致的視口區(qū)域黑塊現(xiàn)象;增強層則根據(jù)視口預(yù)測的結(jié)果,對FoV 疊加更高質(zhì)量的視頻版本,保障FoV 內(nèi)的視覺感知質(zhì)量;且對不同層的碼率分配方案可以根據(jù)視口預(yù)測的準(zhǔn)確率進行調(diào)整,從而增加了碼率分配算法對視口預(yù)測的容錯率,保障了用戶的體驗質(zhì)量。文獻[99]中將全景視頻劃分為兩種質(zhì)量等級:一是原始視頻對應(yīng)的質(zhì)量等級,二是通過將原始質(zhì)量減半得到的較低質(zhì)量的視頻。該方案僅考慮視口位置,對視口位置內(nèi)的tile 分配最高的碼率,對視口以外的tile 則分配較低的碼率。
除了2-tier 的系統(tǒng)以外,還嘗試根據(jù)視口位置,將tile 劃分為不同的類別,再根據(jù)類別分配碼率。文獻[38]中根據(jù)視口預(yù)測結(jié)果將tile 分為預(yù)測視口(Estimated Viewport)區(qū)域、外部(External)區(qū)域和背景(Background)區(qū)域;再分別計算不同類別tile 的權(quán)重因子,根據(jù)各tile 的權(quán)重分配對應(yīng)的碼率。文獻[100]中同樣將視頻所有的區(qū)域分為FoV 的中心區(qū)域、邊緣區(qū)域和外圍區(qū)域,并考慮緩存區(qū)的容量和可用帶寬使得視頻播放的時空平滑性最佳,即相鄰chunk 和相鄰tile 的質(zhì)量切換最小。文獻[101]中將視頻區(qū)域分為視點區(qū)域(Viewpoint Region)、邊緣區(qū)域(Marginal Region)和未觀看區(qū)域(Not-Viewed Region),劃分的不同區(qū)域由不同的速率失真模型表示,通過聯(lián)合考慮速率失真模型和視口預(yù)測精度自適應(yīng)碼率分配策略。文獻[102]中根據(jù)視口位置將不同tile 劃分為3 個不同的優(yōu)先級。在全景視頻流傳輸時,根據(jù)優(yōu)先級為不同的區(qū)塊分配不同的比特率。為視點所在tile 分配高碼率,為水平、垂直兩方向上的tile 分配中等碼率,為其余4 個頂角方向的tile 分配低碼率。除了固定的tile 劃分方案,自適應(yīng)的tile 劃分方案可以增加傳輸系統(tǒng)對視口預(yù)測算法的容錯率,保障用戶的體驗質(zhì)量。文獻[103]中采用自適應(yīng)的tile 分配方案計算每種tile 劃分方案對應(yīng)的懲罰值,最后基于MPC算法求解對應(yīng)tile 方案下最佳的碼率分配策略。文獻[104]中采用popularity-aware 的tile 劃分方式,即基于多用戶的視口信息分布,計算視頻區(qū)域的觀看頻次,進而得到觀看頻次最多的區(qū)域,標(biāo)記為macrotile,再將QoE 優(yōu)化問題建模為NPhard 問題,求解最佳的碼率分配策略。文獻[105]基于視頻內(nèi)容與用戶觀看行為,提出一種自適應(yīng)的tile 分塊方式,將tile 劃分為tcurrent、tneighbor與tmerged三類?;谝曨l畫面復(fù)雜度與用戶觀看區(qū)域,計算各tneighbor的NGS(Normalized Growing Speed)指標(biāo)值。其次,選擇NGS 最大的tile,將它合并,與固定分塊的方式相比,大幅降低了全景視頻傳輸所需的帶寬需求。
伴隨著基于視頻顯著性的視口預(yù)測方法的發(fā)展,衍生出了一類Saliency-driven(顯著性驅(qū)動)的碼率分配算法。文獻[106]中指出基于顯著性的碼率分配算法具有優(yōu)化用戶體驗質(zhì)量的巨大潛力?;陲@著性預(yù)測結(jié)果將整個畫面區(qū)域分為High-salient、Low-salient 和Non-salient 這3 個不同顯著性等級的區(qū)域。為了保障高QoE,將決策回報定義為與觀看質(zhì)量以及畫面質(zhì)量切換相關(guān)的決策變量,并考慮畫面區(qū)域的顯著性值,用于QoE 加權(quán)。在求解QoE 最優(yōu)化問題時,采用了一種基于元啟發(fā)式的模擬退火(Simulated Annealing,SA)算法,在大型搜索空間中對QoE 優(yōu)化問題進行全局優(yōu)化。類似地,文獻[107]中提出了RoSal360 模型,同樣基于圖像顯著性分配碼率,并采用類似的數(shù)學(xué)建模方法;但采用的自適應(yīng)步長的搜索機制大幅縮短了決策空間的遍歷時間,同時還采用了強化學(xué)習(xí)糾錯機制,剔除碼率分配效果較差的節(jié)點,提高了系統(tǒng)的容錯率,增強了魯棒性。
隨著強化學(xué)習(xí)理論的發(fā)展,強化學(xué)習(xí)模型也被廣泛應(yīng)用于碼率分配。強化學(xué)習(xí)具有可以通過與環(huán)境交互進行學(xué)習(xí),并計算相應(yīng)的獎勵回報的機制[108]。一般地,決策空間常被定義為對每一個chunk 內(nèi)的tile 選擇一個合適的碼率,輸入信息包括當(dāng)前的可用帶寬、歷史選擇碼率和緩存區(qū)的剩余容量,決策回報定義為相應(yīng)的QoE 函數(shù)[109]。文獻[110]中聯(lián)合考慮了多個QoE 指標(biāo)提高流媒體傳輸系統(tǒng)的性能,采用了基于LSTM 的Actor-Critic(AC)模型優(yōu)化用戶體驗質(zhì)量,適應(yīng)了不同的網(wǎng)絡(luò)狀況。在不同的網(wǎng)絡(luò)條件下的測試實驗結(jié)果表明,QoE 提升了20%~30%。
強化學(xué)習(xí)的方法,決策空間較大,模型訓(xùn)練耗時長。因此學(xué)者們提出了很多方法壓縮決策空間,使得強化學(xué)習(xí)理論可以實際應(yīng)用到自適應(yīng)碼率分配算法。文獻[111]中引入了SRL(Sequential Reinforcement Learning),將決策空間從指數(shù)級轉(zhuǎn)化至線性型,大幅壓縮了決策空間,縮短了模型的訓(xùn)練時間。其次,SRL 不依賴于準(zhǔn)確的帶寬預(yù)測,而是觀測過去時刻QoE 的性能,作出碼率決策。該方法與其他算法相比,平均用戶體驗質(zhì)量提高了12%。文獻[112]中提出將自適應(yīng)碼率分配問題轉(zhuǎn)換為非線性離散優(yōu)化問題,并將碼率自適應(yīng)邏輯建模為馬爾可夫決策過程,再基于深度強化學(xué)習(xí)算法動態(tài)學(xué)習(xí)最優(yōu)的碼率分配方案。與其他全景視頻流系統(tǒng)相比,該系統(tǒng)在平均QoE 上實現(xiàn)了至少1.47 dB 的性能增益。以上模型盡管性能有了一定的提升,但是仍然存在一些問題。在自適應(yīng)流媒體系統(tǒng)中,不同的業(yè)務(wù)、用戶對QoE 模型有不同的需求和偏好,但一些模型的訓(xùn)練一旦完成,QoE 指標(biāo)的比例關(guān)系就基本確定,無法適應(yīng)各方面、多用戶的不同需求。針對以上問題,文獻[113]中提出了具有穩(wěn)定性的雙工結(jié)構(gòu),將碼率決策分為fetch 與prefetch 隊列,碼率分配算法先選擇隊列然后選擇相應(yīng)的碼率版本,從而壓縮了算法的決策空間。通過將系統(tǒng)的狀態(tài)分為SE(State Embedding)和PE(Preference Embedding)適應(yīng)不同用戶的QoE 偏好,并基于DQN(Deep Q-Network)決策碼率,在數(shù)據(jù)集上的測試結(jié)果表明,該方案將QoE 提升了近20%。
綜上所述,學(xué)者們提出了多種碼率分配算法,最終目的都是在節(jié)省帶寬資源的前提下提高用戶的體驗質(zhì)量。盡管很多算法提升了用戶的體驗質(zhì)量,但是算法復(fù)雜度較高,模型訓(xùn)練耗時長;同時,一些算法追求高碼率,反而沒有綜合考慮用戶的體驗質(zhì)量的影響因素,或者不同的用戶對體驗質(zhì)量有不同的偏好。因此,如何控制算法時間復(fù)雜度在可接受的范圍,保障用戶的體驗質(zhì)量一直是學(xué)者們研究的問題。
全景視頻流傳輸要保障用戶良好的體驗質(zhì)量,需要高帶寬、低時延。由于FoV 的限制,用戶只能看到視頻中一部分區(qū)域。為了節(jié)省帶寬并提供流暢、高清晰度的視頻,基于tile的視口自適應(yīng)傳輸成為當(dāng)前的主流傳輸方案。本章針對該傳輸方案中的幾個可能的研究方向進行概述。
全景視頻的QoE 評估是全景視頻流系統(tǒng)優(yōu)化的前提和關(guān)鍵。盡管全景視頻的QoE 已經(jīng)有了很大的進展,但是還缺乏更深入的研究。首先,用于全景視頻QoE 評價的視頻數(shù)據(jù)集不夠完備,權(quán)威的數(shù)據(jù)集緊缺,而且數(shù)據(jù)集規(guī)模較小。全景視頻中用戶的體驗質(zhì)量與多方面因素有關(guān),包括用戶因素、網(wǎng)絡(luò)因素和傳輸因素等。由于需要考慮的因素眾多,全景視頻的主觀評估實驗難以設(shè)計,從而制約了全景視頻數(shù)據(jù)集的發(fā)展。其次,QoE 評估是基于人的感知水平的評價標(biāo)準(zhǔn)。雖然已有很多視頻評價指標(biāo)被提出,但是這些指標(biāo)對人眼的視覺特性以及全景視頻的視頻特點考慮不夠完備,客觀評估指標(biāo)與用戶實際的感受還存在一定的差距??傊?,建立充足、完備的視頻數(shù)據(jù)集用以測試,防止QoE 評估出現(xiàn)過擬合風(fēng)險的同時,應(yīng)當(dāng)充分研究人眼的視覺特性,將QoE 評估與用戶感知相結(jié)合是全景視頻QoE 評估的發(fā)展方向之一。
視口預(yù)測一直被視為視口自適應(yīng)傳輸中關(guān)鍵技術(shù),也是一直以來的研究熱點。視口預(yù)測的精度直接影響預(yù)取視頻片段與用戶真實觀看區(qū)域的一致性,決定了用戶體驗質(zhì)量的高低。基于歷史軌跡的預(yù)測方案可以比較精準(zhǔn)地預(yù)測用戶的FoV,但預(yù)測間隔增長時,精準(zhǔn)度會大幅下降。除此之外,基于視頻內(nèi)容的顯著性,預(yù)測用戶的感興趣的區(qū)域,精度上有了較好的提升,但算法復(fù)雜度更高。目前衍生出了許多同時基于歷史軌跡與視頻內(nèi)容的預(yù)測模型,提高了視口預(yù)測算法的魯棒性;然而,盡管對于視口預(yù)測的研究已經(jīng)較為成熟,但是各學(xué)者多基于自建或其他人開源的數(shù)據(jù)集進行測試。目前還沒有較大的數(shù)據(jù)集統(tǒng)一評估視口預(yù)測算法的性能。隨著全景視頻技術(shù)的深入發(fā)展,除了3DoF 的視頻,還有6DoF 的視頻正逐步發(fā)展。視口預(yù)測算法的發(fā)展應(yīng)該緊跟全景視頻業(yè)務(wù)的發(fā)展,普適性強、精度高、魯棒性好的視口預(yù)測模型仍待探索與研究。
傳統(tǒng)的自適應(yīng)碼率分配算法包括基于吞吐量估計、基于緩存區(qū)容量控制、混合控制方法和基于學(xué)習(xí)的分配方案。全景視頻中碼率分配算法的研究已經(jīng)持續(xù)了很長一段時間,但仍有問題亟須解決。首先,自適應(yīng)碼率算法的目標(biāo)是保障用戶的體驗質(zhì)量,碼率分配的決策過程,勢必要考慮影響用戶體驗質(zhì)量的眾多因素。其中包含兩個挑戰(zhàn):其一,用戶體驗質(zhì)量的指標(biāo)之間是相互沖突的,例如要保障較高的視覺質(zhì)量,那么卡頓發(fā)生的概率就越大;其二,不同用戶對于QoE 的偏好有所不同。因此,需要優(yōu)化自適應(yīng)碼率算法的決策過程,使它能夠兼顧多項用戶體驗指標(biāo),或是動態(tài)調(diào)整碼率分配策略使之能夠自適應(yīng)不同的用戶偏好。其次,基于Qlearning、Actor-Critic 及其近年衍生出的系列強化學(xué)習(xí)模型通過過去的播放狀態(tài)理解環(huán)境的變化機制,被嘗試用以解決全景視頻中的碼率分配問題,進一步提升用戶體驗質(zhì)量。與此同時,強化學(xué)習(xí)帶來的決策空間龐大、訓(xùn)練耗時等問題不容忽視。這一問題目前還沒被較好解決。一些學(xué)者嘗試將整幀分成若干個較大的區(qū)代替細粒度的tile 分區(qū),縮小決策空間,但會使決策的粒度粗化,不利于最優(yōu)化。另外,強化學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練也需要通過仿真更新網(wǎng)絡(luò)模型的參數(shù),如何建立一個跟現(xiàn)實足夠接近同時又快速的仿真模型也是一個問題。總之,碼率分配算法如何同時以較低算法復(fù)雜度,高效完成碼率分配,適應(yīng)不同的網(wǎng)絡(luò)環(huán)境和用戶偏好是未來主要的突破方向。
全景視頻以獨特的沉浸式體驗廣受到工業(yè)界與眾多用戶的青睞,但全景視頻傳輸所需的高帶寬、低時延特性阻礙了它的深入普及。為了在帶寬受限的網(wǎng)絡(luò)中提供流暢、高質(zhì)量的視頻觀看體驗,全景視頻自適應(yīng)傳輸成為如今的研究熱點之一。學(xué)者們提出的基于tile 的視口自適應(yīng)傳輸方案已成為當(dāng)前主流的傳輸方案。本文介紹了當(dāng)前主流的傳輸方式,即基于tile 的視口自適應(yīng)傳輸方案;分析了該方案的核心技術(shù),包括視口預(yù)測和碼率分配的研究現(xiàn)狀,從不同視角分別進行歸納總結(jié)。在此基礎(chǔ)上,圍繞現(xiàn)有研究方法的不足和挑戰(zhàn),展望了未來全景視頻傳輸?shù)陌l(fā)展趨勢。本文從以上方面總結(jié)了未來可能的研究方向,旨在為該領(lǐng)域的研究者了解相關(guān)研究提供參考,并為深入研究提供思路。