李鎮淮,戰蔭偉
廣東工業大學 計算機學院,廣州 510006
2021 年被稱為元宇宙(metaverse)元年,作為新興概念,元宇宙受到了大眾的高度關注。虛擬現實(virtual reality,VR)技術作為元宇宙中的重要環節,在近年得到了長足發展,其中,360度視頻是常見的虛擬現實內容的載體之一。360 度視頻,又稱為全景(panoramic)視頻、球形(spherical)視頻和全向性(omnidirectional)視頻,通常由全景相機采集獲得,是允許用戶通過頭戴顯示器(head mounted display,HMD)或手機等設備,以3自由度(degree of freedom,DoF)觀察周圍的媒體,如圖1所示。可以抽象地理解為,360度視頻鋪滿了一個假想的球面,用戶位于假想球面的球心觀察周圍。

圖1 3自由度:偏航、俯仰、翻滾Fig.1 3DoF:yaw,pitch,roll
與游戲等高自由度的虛擬現實應用不同,用戶觀看360度視頻時更多為被動地接受信息。但是,比起需要昂貴硬件提供的龐大算力來進行實時三維渲染的應用,360度視頻作為主流媒體的一種,用戶可以方便地在互聯網上下載、存儲或在線點播,是用戶獲得沉浸虛擬現實體驗的高效途徑。得益于360度視頻的特點和優勢,其被廣泛地用于虛擬現實教育、旅游、新聞、購物、娛樂和醫療等領域,基于HTML5和WebVR的360度視頻體驗也在逐漸發展和完善[1],用戶從互聯網上獲取360 度視頻將越來越方便。此外,影石Insta360、GoPro等國內外知名廠商都相繼推出了種類豐富的全景相機,使得360度視頻采集的渠道更廣、成本更低,有助于360度視頻應用的普及推廣。
360 度視頻的應用面臨主要的難題是,360 度視頻的數據量極大,想要達到與傳統二維視頻相同的觀看體驗,360 度視頻的數據量一般是二維視頻的4 到6 倍[2],觀看360度視頻直播或在線點播高質量360度視頻對用戶的網絡連接帶寬要求極高,也加重了服務端的負載。通過HMD 觀看360 度視頻時,同一時刻,HMD 僅顯示360 度視頻中的一部分區域,顯示的區域稱為視口(viewport),如圖2所示。研究者們利用這一性質,提出了針對視口顯示區域進行網絡優化的方法,預測用戶的視口位置變化以優化網絡傳輸,提高觀看體驗。

圖2 視口區域示意圖Fig.2 Diagram of viewport area
360 度視頻于近年得到廣泛關注,國內外已有多篇文獻綜述了相關工作。大部分文獻[3-7]主要綜述360度視頻流式(streaming)過程和可能涉及到的相關技術,視口預測技術被簡略概括,本文則聚焦視口預測,360度視頻流式作為背景和鋪墊。現有的視口預測方法可以大致分為基于軌跡的方法和基于視頻內容的方法,文獻[8]將先前的視口預測方法按照該分類進行綜述。本文在該主流分類的基礎上,總結可以用于訓練和評估視口預測方法的360度注意力數據集,將基于用戶歷史視口軌跡的視口預測方法進一步細分為單用戶方法和多用戶方法,概述360 度視覺顯著性檢測后,將基于視頻內容的視口預測方法細分為基于視覺顯著性的方法和其他基于內容的方法,對包含最新研究進展在內的現有視口預測方法進行系統性的綜述,最后總結并展望360度視頻和視口預測技術的未來發展趨勢。綜上所述,不同于現有的研究綜述,本文有以下特點:
(1)重點綜述視口預測技術,360度視頻流式作為視口預測技術應用的場景,也進行陳述。使讀者對360度視頻相關應用有一定認識,能更清晰地理解視口預測技術的作用和必要性,了解影響視口預測技術實施的因素。
(2)匯總360度注意力數據集和視口預測的最新工作,更加細致地對現有的視口預測方法進行分類綜述,分析對比不同類型方法的優勢和限制。使讀者能夠快速理清視口預測方法的發展脈絡,掌握該領域當前的研究熱點。
2012 年,運動圖像專家組(Moving Picture Experts Group,MPEG)等單位制定了DASH 標準[9],DASH 全稱Dynamic Adaptive Streaming over HTTP,即基于HTTP的動態自適應流,也稱為MPEG-DASH。DASH標準規定:二維視頻在服務端被分為數個等時長的片段,每個片段都以多種形式表示,即按照不同的比特率進行編碼,由客戶端決定每個視頻片段傳送的比特率。該策略犧牲服務端的存儲空間,提高客戶端的觀看體驗。DASH 采用應用層適配算法為異構網絡上的各種設備提供點播和直播服務,在現有的HTTP網絡上得到了很好的支持,此外,DASH 的網絡傳輸是與編解碼器無關的,可以接受任何編碼格式[4]。
DASH標準有較高的兼容性,同時能減輕服務端網絡傳輸壓力,減少卡頓和重新緩存的發生率,提高用戶的觀看體驗。與傳統二維流式媒體類似,360度視頻流式傳輸沿用了DASH標準[10]。
360 度視頻流式傳輸的框架如圖3 所示,由于沿用了DASH等標準,該框架與傳統二維視頻的流式高度相似。360度圖像大多由全景相機采集得到,全景相機一般由多個攝像頭構成,這些攝像頭均勻地分布在全景相機的表面上,能夠同時對周圍的環境進行攝像[11],隨后將每個攝像頭采集到的圖像拼接(stitch)成為360 度圖像[12],或是作為360 度視頻的幀,進一步生成360 度視頻。主流的視頻編碼方案都是為二維圖像設計的,全景相機采集到360 度圖像后,需要將球形的360 度圖像投影到二維平面上,再進行編碼和儲存、傳輸等操作[13]。常用的球面到平面投影方法是等矩形投影(equirectangular projection,ERP)和立方體映射投影(cube map projection,CMP),如圖4所示。

圖3 360度視頻流式框架Fig.3 Framework of 360-degree video streaming

圖4 ERP和CMP的效果對比Fig.4 Effect comparison between ERP and CMP
ERP 是最經典的球面到平面投影方法,例如,世界地圖的制作就使用了ERP。ERP可以理解為,將半徑為r的球面展開到長為2πr,寬為πr的矩形上[14]。ERP的優點是直觀、實現簡單,投影后圖像水平中心線,即球體的赤道(equator)線附近的圖像畸變(distortion)小。缺點是越靠近球體的極點(pole),能采樣的點越少,投影后圖像越靠近上下邊界,投影導致的圖像拉伸畸變越嚴重[15]。CMP 是另外一種常用的投影方法,CMP 首先圍繞球體構建外切立方體,從球心向外投射射線,每條射線與球面和立方體面上的各一個點相交,生成投影映射[16],將立方體展開得到6個正方形圖像,最后把6個正方形平面組合為一個長寬比為3∶2 的矩形圖像即可。CMP的優點是,極點處的圖像畸變小得多,編碼效率更高,研究指出,在相同的用戶體驗質量情況下,采用CMP能比ERP減少25%的視頻比特率[17]。CMP的缺點是引入了人為的邊界,導致邊界附近圖像內容割裂,其次是依然存在一定的畸變。除ERP 和CMP 外還有一些其他投影方法,例如Pseudo-Cylindrically[18]、Polar Square[19]、Rhombic[20]、Hybrid Cubemap[21]、Hybrid Equiangular Cubemap[22]和Polyhedron[23]等,這些方法也有各自獨特的優勢和不足,因為兼容性的原因沒有被廣泛應用。
上文中提到,360 度視頻的編碼使用了和傳統二維視頻相同的編解碼方案。目前,主流的編碼標準有AVC(advanced video coding/H.264)、HEVC(high efficiency video coding/H.265)、VP9、AV1(AOMedia video 1)、VVC(versatile video coding/H.266)、AVS(audio and video coding standard)等。AVC 是經典的視頻編碼標準,即使是現在的360 度視頻的編碼也有在使用,HEVC 作為接替AVC的下一代標準,編碼質量遠超過AVC,節省比特率最多可達58%,是目前使用最為廣泛的編碼標準[24]。AV1 是開放媒體聯盟(AOMedia)為了取代開源編碼標準VP9[25]而開發的視頻編碼標準,現階段AV1的編碼效果不及HEVC[26],它的優勢是完全開放、免專利授權,且開放媒體聯盟還在持續開發和升級AV1。VVC是HEVC的后繼標準,也稱為FVC(future video coding),雖然尚未流行,但是VVC有其獨特的優勢,比起HEVC,VVC的編碼壓縮率有望提升30%[27]。更重要的是,VVC編碼標準中加入了對360度視頻的原生支持[28]。數字音視頻編解碼標準AVS是我國具有自主知識產權的標準,目前已經發展到第三代,AVS3有較高的編解碼效率,并且兼顧對360 度視頻、虛擬現實、增強現實等應用的支持。除了投影方式和編碼方式,影響360度視頻數據量的因素,還有視頻本身的質量,包括視頻的分辨率、幀率等。
HMD內置顯示器的分辨率、刷新率都比較高,目的是保證觀看VR時的沉浸感和其他觀看體驗,以及在一定程度上緩解VR體驗引起的暈動癥[29],例如,知名產品HTC VIVE Pro 2 的內置顯示器可以提供4 896×2 448雙眼分辨率和120 Hz刷新率。同樣地,良好的VR體驗對360度視頻的分辨率和幀率(frame per second,FPS)也有一定要求。為了有足夠好的體驗,視口內的圖像分辨率應盡可能高,完整的360度視頻分辨率是視口區域的數倍,當視口內的畫面分辨率為4K(3 840×2 160),要求360度視頻的完整分辨率至少為12K(11 520×6 480)[30]。作為參考,經由HEVC 編碼的8K(7 680×320)60 FPS 視頻比特率高達100 Mbit/s[31]。綜上所述,即使采用了高壓縮率的編碼方式,高質量的360度視頻流式對網絡連接帶寬的要求依然非常高。
根據HMD 硬件規格的不同,其內置顯示器能提供的視場(field of view,FoV)也不同,水平FoV一般不超過110 度[6],垂直FoV 則更小,所以HMD 的內置顯示器在一個時刻內,僅顯示360 度視頻的一部分區域,即視口區域。研究者們注意到這一特點,提出了基于視口優化的360 度視頻流式,以減輕服務端和客戶端之間的網絡傳輸負載。基于DASH等標準,MPEG于2015年提出了首個為VR系統制定的標準OMAF(omnidirectional media format)。如圖5所示,OMAF規定在服務端除了把視頻按照時間序列分段,還要將360度視頻幀在空間上進行分割,將每幀圖像均勻地分為多個圖塊(tile)。服務端接收到客服端發送的視口位置信息,視口覆蓋的圖塊,服務端以原始圖像質量傳輸到客戶端,而視口沒有覆蓋的圖塊以低質量傳輸或者是不傳輸。比起傳輸完整的視頻幀,基于圖塊的(tile-based)360 度視頻流式可以節省幾十個百分點的網絡資源消耗[32]。

圖5 基于圖塊的360度視頻流式Fig.5 Tile-based 360-degree video streaming
基于圖塊的360 度視頻流式傳輸能很大程度地降低網絡資源消耗,但是也引入了一些問題,即服務端需要實時同步用戶視口位置,以改變傳輸圖塊的數量和質量。如果用戶移動視口跨度大、時間短,則很可能服務端還未及時傳輸新視口位置所覆蓋的高質量圖塊,導致用戶觀察到的是低質量圖塊,降低觀看體驗。若僅傳輸視口覆蓋范圍內圖塊,用戶轉動頭部時,視口顯示的畫面變化會有一定延遲[33],而且高延遲容易引起暈動癥。此外,用戶使用移動設備以及無線網絡時,還需要考慮無線網絡環境中服務端與客戶端同步視口位置的額外開銷。應用視口預測技術以緩解上述問題,即預測用戶未來的視口位置變化,增加用戶觀看高質量圖塊的概率,降低用戶頭動的畫面延遲和視頻暫停緩沖發生的頻率,提高用戶觀看體驗。可以說,高質量的360 度視頻流式觀看體驗離不開視口預測技術。
體驗質量(quality of experience,QoE)是指用戶對流式媒體等服務的感受和滿意度,是360度視頻流式系統性能的評估標準之一。與二維視頻相同,可以從客觀和主觀兩種角度對360度視頻體驗質量進行評估。
客觀體驗質量評估由算法和程序自動對視頻的質量進行評價,有時也稱為視頻質量評估(video quality assessment,VQA)。傳統的客觀評估直接計算目標視頻和參考視頻的差異或相似度以評價目標視頻的質量,參考視頻一般是沒有失真的高質量視頻。常用的評估指標有S-PSNR(spherical PSNR)[34]、S-SSIM(spherical SSIM)[35]、WS-PSNR(weighted to spherically uniform PSNR)[36]、WS-SSIM(weighted to spherically uniform SSIM)[37]等,是二維VQA指標峰值信噪比(peak signal-tonoise ratio,PSNR)和結構相似性指數(spherical structural similarity index,SSIM)對360 度內容的拓展。現階段360度VQA 的主流研究為基于深度學習的方法和無參考視頻的方法[38-39],以及考慮了360 度視頻觀看模式、結合視口信息的方法[40-41]。用戶傾向于觀看360 度內容中感興趣的區域,重點圍繞這些區域對視頻的質量進行評估更符合人類感知特點。
主觀體驗質量評估是用戶對360 度視頻觀看體驗的主觀評價,常用的評估方法是以調查問卷的形式統計用戶的體驗評分。比如,平均意見得分(mean opinion score,MOS)[42]方法統計大量用戶對視頻內容的觀看體驗評分,每個用戶以1~5 的分值表示體驗的等級,分值越大代表體驗越好。差異平均意見得分(difference mean opinion score,DMOS)[43]比較失真視頻與原始視頻的差異,常用于評估不同視頻壓縮編碼方案的性能。主觀體驗質量評估需要綜合考慮視頻質量之外的因素,包括視頻卡頓、時延、VR設備性能、用戶所處環境等,這些因素都可能影響用戶的沉浸感,降低體驗質量。主觀評估比客觀評估復雜、實施困難,但是更能直接反映用戶的真實評感官體驗。
現有的視口預測方法大體上可以分為基于用戶歷史軌跡的方法和基于視頻內容的方法兩類。基于軌跡的視口預測方法利用目標用戶的歷史視口軌跡數據,或是結合其他有相似觀看習慣的用戶歷史視口軌跡數據,預測目標用戶未來的頭部運動。基于內容的視口預測方法則通過提取圖像中的特征,預測圖像中用戶的興趣區域(region of interest,ROI),結合用戶的歷史視口軌跡,推測目標用戶未來的頭部運動。
為了更好地研究用戶觀看360度內容的注意力,研究者們先后構建了多個360度注意力數據集,部分已經開放獲取。大部分數據集的構建流程類似,例如Corbillon等[44]招募了59位受試者參與數據的采集,受試者年齡跨度足夠大(6~62 歲,平均43 歲),包含兩種性別,部分受試者為首次使用HMD,以保證數據的可靠性。受試者被要求佩戴HMD 觀看5 個持續時間為70 s 的360 度視頻,受試者轉動頭部時,通過軟件記錄HMD中傳感器提供的角度數據,即可推斷視口中心在整個視頻幀中的位置,分別記錄每個受試者在每個視頻上的頭動數據,即可制成數據集。也有研究者使用靜態360 度圖像作為制作數據集的素材,Abreu 等[45]招募了32 位受試者,分別記錄每位受試者觀看21幅360度圖像的頭動數據,并且對比了不同觀看時長(10 s和20 s)的影響。
早期的數據集受限于硬件設備,實驗過程中無法同時收集受試者的眼動數據[46],只能以視口中心作為用戶注意力的唯一表示,但是用戶的注意力不能完全由視口中心表達,即使研究指出頭動數據和眼動數據有很強的關聯性[47-48]。隨著硬件設備的發展,同時采集頭動數據和眼動數據成為可能,Rai 等[48]招募了40 位受試者分別觀看40 幅高質量360 度圖像,每幅圖像觀察25 s,并且在HMD 中額外安裝了一個來自SMI(Senso Motoric Instruments)公司的眼球追蹤相機以采集受試者的眼球運動數據,制作了首個包含眼動注視信息的數據集。David 等[49]招募了57 位受試者分別觀看19 個持續時間20 s的360度視頻片段,同時采集頭動和眼動數據,并且與上述Rai 等制作的數據集一起,組成了360 度視覺建模大賽“Salient360!”[50-51]中的公開數據集。現在,已經有不少HMD 內置了眼球追蹤設備,采集眼動數據將更加方便。Agtzidis 等[52]招募了13 位受試者分別觀看15 個360 度視頻,使用內置了眼球追蹤設備的FOVE HMD制作了僅含眼動數據的數據集。還有些360 度注意力數據集與其他領域的研究有關,比如心理學,Li 等[53]招募了95 位受試者觀看73 個360 度視頻片段,并分析受試者觀看視頻時頭部運動與心理狀態之間的聯系。Ren等[54]采集和對比了15 位患有自閉癥譜系障礙(autism spectrum disorder,ASD)和16位正常發育(typically developing)的兒童觀看360 度圖像時的數據,以更好地分析ASD兒童的視覺注意力。
除了上述數據集,還有其他一些研究[2,55-70]也提出了相關數據集,表1中總結和對比了大部分公開數據集的關鍵信息。現有的數據集主要面臨的問題是作為被觀察對象的圖像或視頻數量較少,研究指出不同的受試者之間的觀看表現非常相似[47],在一定程度上表明數據集采集的重點是觀察數量更多、種類更豐富的360度圖像或視頻,以分析受試者對不同圖像內容的注意力,而不是招募更多受試者。值得注意的是,絕大部分的數據集制作都排除了視頻所含音頻對受試者注意力的影響。數據集能幫助研究者們對360度內容進行注意力建模,可以用于訓練或評估視口預測算法、生成視覺顯著性圖等,有利于360 度視頻的壓縮編碼、傳輸、高效渲染、質量評價等任務的研究。

表1 主流數據集對比Table 1 Comparison of major datasets
基于軌跡的視口預測方法依靠單用戶或多個用戶的歷史頭動數據進行建模。Qian 等[33]針對蜂窩移動網絡中點播360度視頻的高網絡帶寬消耗問題,采用加權線性回歸預測用戶未來頭部運動。算法依靠滑動窗口采集過去1 s 時刻t-1 到當前時刻t的頭動數據,越接近t時刻的數據權值越大,以預測未來t+δ秒內的頭部運動。實驗證明該方法在δ≤1 s 時可以取得不錯的效果,準確率最高可達96.6%;但是δ>1 s 時,預測準確率大幅下降。Xu等[71]同樣采用了線性回歸模型預測用戶頭部運動,并得出預測誤差呈正態分布的結論。Bao等[2]采用神經網絡回歸模型預測用戶的未來頭部運動,并額外估計預測的錯誤率。當估計的預測錯誤率較高時,360度視頻流式系統可以傳輸面積更大的圖塊,以提高容錯率、提升觀看體驗。該預測模型在Bao等自建的數據集上進行訓練和評估,結果表明其能很好地預測用戶未來0.1~0.5 s 內的頭部運動。一般的視口預測方法利用HMD 內置傳感器提供的原始角度數據進行訓練,Jiang等[72]發現將角度轉換為正弦值或余弦值后,用于線性回歸模型可以得到更加準確的視口預測結果。
可以把視口預測作為序列學習任務,即給定歷史序列以預測下一個值。其中,長短時記憶(long-short term memory,LSTM)神經網絡非常適合學習人體運動數據的時間依賴性,觀看360度內容時的頭部運動軌跡也不例外,Hou 等[73]提出使用LSTM 模型學習用戶的歷史視口軌跡進行視口預測,在三星公司提供的大規模數據集上進行訓練和測試,并且分析了預測圖塊數量、預測精度和傳輸帶寬節省量三者之間的關系。基于LSTM的視口預測方法表現出比傳統機器學習方法更好的預測精度,但是LSTM存在著訓練速度和推理速度較慢等問題,Yu 等[74]提出基于注意力機制的編碼器-解碼器神經網絡的視口預測方法,該神經網絡能更好地利用視口軌跡變化序列的時間信息,同時訓練和推理更快。LSTM適合處理長時間周期的序列數據的特性,這導致LSTM不能很好地處理初期輸入的數據,Nguyen等[75]在傳統的LSTM中加入門控循環單元(gated recurrent unit,GRU)模塊以加快LSTM 初期的數據處理速度,實驗結果表明加入GRU后能提升最初幾秒內的視口預測準確率。Lu 等[76]和Jiang 等[77]分別設計了基于元學習(metalearning)的LSTM 模型用于視口預測,得益于元學習的特性[78],該類模型擅長從各種觀看習慣的用戶數據中提取元知識,為單個用戶提供個性化的視口預測服務,解決了一般視口預測模型在預測少數觀看習慣獨特的用戶視口軌跡時表現差的問題,即增強了模型的魯棒性。
有些研究者注意到部分用戶觀看360 度內容時的習慣相似,提出了基于多用戶視口軌跡的視口預測方法。Ban 等[79]受用戶觀看行為統計啟發,采用線性回歸模型預測目標用戶的未來視口位置的同時,利用K-最近鄰算法同時分析多個用戶的視口軌跡以修正目標用戶的錯誤視口預測,比僅用線性回歸模型進行預測性能至少提升20.2%。Xie 等[80]提出把具有相似的觀看行為的用戶分到相同類中,由服務端向同類的用戶傳輸歷史視口軌跡,具體為使用DBSCAN 聚類有相似視口軌跡的用戶,并利用支持向量機預測用戶未來的觀看行為以實時對用戶所屬的類進行判斷。類似地,Petrangeli等[81]提出將相似的歷史視口軌跡譜聚類到同一個簇中,為每個簇訓練各自的視口預測回歸模型,以對應不同觀看行為的用戶,該方法能預測未來長達10 s的視口位置。Fu等[82]提出跨用戶注意網絡(cross-user attentive network,CUAN),CUAN 模型首先利用LSTM 對多個用戶的視口軌跡進行編碼,隨后利用注意力機制提取有用的跨用戶視口軌跡信息,最后進行視口預測,跨用戶注意力信息的提取提高了模型長時間視口預測能力。還有其他基于多用戶視口軌跡的視口預測方法于表2中總結[83-89]。

表2 其他基于多用戶視口軌跡的視口預測方法Table 2 Other viewport prediction methods based on cross-user viewport trajectory
基于多用戶歷史視口軌跡的視口預測方法實施的前提是大量收集用戶歷史觀看軌跡,大數據時代的到來,人們愈發重視個人隱私保護,用戶數據的收集和儲存受到了限制,包括360 度內容的歷史觀看軌跡,用戶很可能不同意視頻平臺收集此類數據。針對該問題,Zhang等[90]和Chao等[91]分別提出了基于聯邦學習(federated learning)的視口預測方法,聯邦學習能夠在不暴露個人數據的情況下實現跨數據所有者進行模型訓練和推理,保護用戶個人隱私的同時,又能利用跨用戶歷史視口軌跡特征,達成可觀的視口預測效果。
大部分基于單用戶歷史視口軌跡視口預測方法的優點是實現簡單,但是存在著預測周期短、預測準確率一般等問題,只能預測未來5 s 內的視口軌跡變化。對多用戶的歷史視口軌跡進行建模可以改進視口預測的能力,最多可以將預測周期延長到未來10 s 內,還能取得不錯的預測效果。基于多用戶軌跡的方法有一個缺點是其一般不能用于視頻直播中,不同于點播視頻,直播的視頻內容都是即時生成的,沒有歷史視口軌跡可以利用。
利用360度視頻中的內容特征進行視口預測,更符合一般認知,因為用戶的頭部運動本質上是由視頻內容中的興趣區域決定的,目前大部分基于內容的視口預測方法采用顯著性檢測算法預測視頻中的興趣區域。
人類可以快速發現視覺上特別的、引人注意的對象或區域,并專注于該區域以提取更加豐富的高層信息。顯著性檢測即模仿人類視覺能力,預測圖像或視頻中能引起人類興趣的對象或區域[92],是計算機視覺中一項非常重要的任務。研究者們為了更好地探索人類在360度圖像或視頻上的注意力,提出了多種360度顯著性檢測方法,本文將這些方法大致分為“拓展法”“特殊卷積法”兩類。
(1)拓展法
二維顯著性檢測方法在一定程度上能直接用于投影后的360 度圖像[47],目前有一部分360 度顯著性檢測方法是在它們的基礎上進行拓展的。用戶佩戴HMD瀏覽360 度內容時,更傾向水平轉動頭部,抬頭和低頭的動作較少[86],所以在360度內容里,赤道附近的對象或區域更容易被用戶注意到,即存在赤道偏置(equator bias),如圖6 所示[67],可以明顯地觀察到顯著區域分布在ERP顯著圖(saliency map)的水平中線(即投影之前球體的赤道線)附近。針對二維圖像設計的顯著性檢測方法加入赤道偏置后,可以提升其在ERP圖像上的顯著性檢測效果。

圖6 數據集中的ERP顯著圖例子Fig.6 Example ERP saliency map in dataset
由于現有的大部分360度注意力數據集規模較小,直接用于訓練360 度顯著性檢測神經網絡效果不理想。受遷移學習的思想啟發,有些研究者提出把現有的二維顯著性檢測神經網絡或是新設計神經網絡結構,在大型二維圖像顯著性數據集上預訓練,再使用360度注意力數據集進行微調(fine-tune)[93]。有些方法則考慮到投影引起的圖像畸變或不連續等問題,分別對多種不同投影方式得到的二維圖像進行顯著性檢測,最后再融合得到最終顯著圖[94]。
(2)特殊卷積法
原始的360 度圖像是非歐幾里德結構數據(non-Euclidean structure data),投影到平面后,損失了球面上像素與像素之間的關聯特征,導致圖像畸變等。針對這些問題,研究者們提出了許多新穎的算法以處理非歐幾里德結構數據,比如球卷積(spherical convolution)[95]和球神經網絡(SphereNet)[96];以及基于圖的神經網絡,比如圖卷積神經網絡(graph convolutional network,GCN)[97];或者是專門為等矩形投影360 度圖像定制特殊的卷積方式,從畸變的圖像中提取特征,比如梯形卷積(ladder convolution)[98]等。基于上述特殊卷積算法設計的神經網絡在360度顯著性檢測任務中,表現出了卓越的性能[99]。
基于圖像顯著性的視口預測方法將圖像顯著性檢測器輸出的顯著圖作為視口預測的依據之一,Fan 等[56]首次將顯著圖作用于視口預測,利用預訓練的卷積神經網絡(convolutional neural network,CNN)生成360度視頻幀的顯著圖,結合用戶瀏覽該視頻幀的視口位置,最后把顯著圖和視口位置作為一組特征輸入到LSTM中,輸入多組特征后即可預測未來用戶的視口位置,Fan等[100]在后續的工作中額外加入了未來數幀中提取的特征作為輸入,提高模型性能。Nguyen 等[101]提出基于遷移學習的PanoSalNet,該模型用于生成顯著圖,隨后將顯著圖和視口位置作為一組特征輸入LSTM 進行視口預測。Xu 等[61]考慮視頻幀的空間顯著性和時間顯著性,其中SalNet 用于生成顯著圖、FlowNet2 用于提取幀間運動特征,用戶視口軌跡則用兩層LSTM 進行編碼,最后將這些特征輸入到兩個全連接層中進行視口預測。類似的還有Feng等[102]、Hu等[103]提出的方法。
LSTM 等基于序列學習的神經網絡存在一個問題是在長時期預測的過程中,預測產生的結果有時會作為下一次預測的依據之一輸入到神經網絡中,很可能降低長期預測的可靠性,此外LSTM不擅長學習空間信息即視頻內容特征。Xu 等[66]將深度強化學習算法用于360度視頻注意力建模,提出了一個離線方法用于預測視頻每一幀中每個像素被觀看的概率,和一個在線方法實時預測目標用戶的視口位置,得益于深度強化學習的特性,該方法能夠模擬真人瀏覽360度視頻時的長期視口位置變化。Ambadkar等[104]也提出了基于深度強化學習的視口預測框架,其中生成對抗網絡SalGAN360 用于生成360度視頻幀的顯著圖,顯著圖驅動強化學習中的獎勵(reward)函數,指導智能體(agent)選擇顯著度最大的區域作為視口位置。
Li 等[105]利用目標用戶和其他用戶提供的歷史視口軌跡,按照每個像素被視口覆蓋過的概率逐幀生成熱圖,并采用傳統的二維顯著性檢測模型生成顯著圖,最后將熱圖和顯著圖輸入到ConvLSTM(convolutional LSTM)中進行視口預測,ConvLSTM能兼顧時間和空間特征,對時空關系進行建模的效果比LSTM 好。Zhang等[106]把視口預測當作稀疏有向圖學習任務,并提出視圖轉換馬爾科夫模型(view transition Markov model),該模型的輸入是360度視頻幀顯著圖、目標用戶歷史視口軌跡和頭動模型的輸出,其中頭動模型參考人類真實的頭部運動,用于排除稀疏有向圖中不合理的邊。Li等[107]以球卷積替代傳統卷積,利用兩個球卷積神經網絡分別提取360度視頻幀的幀內空間信息和幀間時間信息,生成顯著圖,以及一個球卷積門控循環單元(spherical convolutional gated recurrent unit,SP-ConvGRU)用于提取多用戶歷史視口軌跡提供的信息,最后進行視口預測,球卷積神經網絡因為具有旋轉不變性所以善于處理360度圖像。
預測圖像顯著性需要消耗大量的算力資源,移動設備內置的低功耗芯片通常無法勝任,Zhang等[108]提出針對移動設備收看360度視頻直播的視口預測框架MFVP,如圖7所示[108],該框架在服務端采用基于圖神經網絡的360 度顯著性檢測模型SalGCN 生成360 度視頻幀的顯著圖,顯著圖傳輸到客戶端后與用戶視口軌跡共同輸入到ConvLSTM 模型預測幀中每個圖塊被視口覆蓋的概率。類似的還有Wang等[109]提出的CoLive框架,不同的是,Colive框架的服務端采用普通CNN模型預測視頻幀顯著性,還為客戶端提供了一個可以跨用戶間更新共享參數的中心模型(central model),提高模型性能。

圖7 MFVP框架Fig.7 MFVP framework
一些研究認為用戶觀看360度視頻時更關注視頻中有具體語義的(semantic)對象。Leng 等[110]采用YoloV2目標檢測算法識別視頻幀中的目標,然后利用K-Means算法將幀中的目標按照位置聚類為數個簇,簇的位置即用戶視口覆蓋概率較大的位置。Feng 等[111]認為用戶更在意視頻中的運動目標,提出通過高斯混合模型(Gaussian mixture models)檢測幀中的所有運動目標,并利用Shi-Tomasi 算法追蹤目標,達成視口預測的目的,因為該方法追蹤了幀中所有的運動目標,所以降低視頻流帶寬的效果不好。Feng 等[112]針對360 度視頻直播中的視口預測,提出LiveObj 框架,該框架首先采用YoloV3 算法識別幀中的所有目標,并選擇一個用戶可能最感興趣的目標,最后利用基于Siamese 網絡的實時單目標追蹤方法對該目標進行持續追蹤,結果表明該框架可以減少360度流式直播大約50%的帶寬消耗。
有的研究則注意到視頻字幕對用戶注意力的引導作用,Jing 等[113]和Doan 等[114]針對360 度旅游觀光視頻,分別提出了通過提取字幕中的信息,結合視頻幀的內容特征進行視口預測的方法,加入字幕信息能提高視口預測的準確率。
本文綜述了360 度視頻的應用背景和視口預測技術的研究進展,包括基于用戶歷史軌跡的視口預測方法和基于視頻內容的視口預測方法,并且總結了相關的360度注意力數據集。目前的360度視頻視口預測方法對比起來較為困難,本文主要按照其實現思路分類進行綜述。因為不同的研究應用背景不同,有些方法只針對360度視頻直播,有些方法則直播和點播通用;有些研究考慮了視口預測方法的具體部署,針對低功耗的移動端還是在服務端上部署,亦或是協同的方式等;目前公開數據集數量較多,但普遍規模較小,不同的研究中用于訓練和評估的數據集不同,評估指標可能也不同。
此外,基于視頻內容的視口預測方法的預測準確率比基于軌跡的方法高,且泛化性能更強。隨之而來的問題是,提取圖像特征需要消耗大量的算力資源,完全在移動設備上部署基于內容的視口預測方法較為困難,雖然有些研究提出把視頻內容特征提取的環節放在服務端,但是隨著用戶量的增加,服務端的壓力也隨之激增,沒有從本質上解決問題。綜合360 度視頻應用背景以及視口預測方法面臨的一些問題和領域內最新工作,未來可能的研究趨勢如下:
(1)高帶寬有線連接、新一代無線網絡的逐漸普及,以及更高效的編碼標準如VVC或AVS3的采用,可能在一定程度從本質上緩解360 度視頻高網絡資源消耗的問題。360度視頻超分辨率、補幀等技術的研究和應用,可以在網絡連接質量不佳的情況下,增強用戶的觀看體驗。完善的QoE 評估體系對于360 度流式系統的發展非常關鍵,結合用戶的觀看行為和人眼感官特點進行QoE評估是當前研究的主流。
(2)360 度注意力數據集是訓練和評估視口預測方法的重要媒介,現有的數據集規模普遍較小,今后的數據集采集工作的趨勢是觀看數量更多、種類更豐富的圖像或視頻,供未來的視口預測研究于同一大規模數據集上評估和對比,并統一評估指標。
(3)視口預測方法發展的趨勢是結合多用戶歷史軌跡和視頻內容進行預測。多用戶歷史軌跡信息能為預測模型帶來更加強健的魯棒性,使得模型用于少數觀看行為獨特的用戶時依然能有可觀的預測效果。在大數據時代,多用戶歷史軌跡的利用要注意隱私保護。視頻內容從根本上決定用戶的觀看行為,結合視頻內容特征進行視口預測是合理并且實驗證明有效的。
(4)視頻所附帶的其他材料也被證明對視口預測有促進作用,比如字幕、音頻[115]等。未來的360 度視頻相關研究中,這些材料會被充分利用。
(5)提取視頻內容特征的計算資源開銷非常大,所以高效的視口預測方法是未來研究的關鍵,即視口預測模型的輕量化。比如優化模型的結構、減少模型的參數量等,以及預測精度和計算開銷之間的權衡。
360度視頻是最容易獲得的沉浸式虛擬現實體驗的媒介之一,虛擬現實設備的高速發展和全景相機的普及,都使360 度視頻的應用更加廣泛,視口預測技術的重要性也隨之凸顯。隨著360 度視頻流式技術和視口預測技術的發展,相信在不久的未來,360度視頻一定能為用戶提供高質量且便捷的虛擬現實體驗。