全景視頻基于塊的視口自適應傳輸方案綜述

2024-03-21 02:25:00李俊杰望育梅李志軍

計算機應用 2024年2期

李俊杰，望育梅，李志軍，劉雨

（北京郵電大學人工智能學院，北京 100876）

0 引言

隨著相關領域技術和硬件設施的發展，全景視頻，或稱360°視頻及虛擬現實（Virtual Reality，VR）視頻也快速發展。“元宇宙”時代的到來使全景視頻與工業生產、日常生活的聯系越來越緊密。全景視頻以沉浸式、交互式的體驗備受人們關注［1］。虛擬現實與物聯網、人工智能、大數據等技術的融合催生了更多的產業與應用，促進了VR 生態的蓬勃發展。據研究報告數據，VR 產業規模預計將以每年15%的增速增長［2］，VR 產業總產值在2029 年預計達到2 273.4 億美元［3］。

全景視頻的高質量傳輸給現有的網絡傳輸系統帶來了一定挑戰［4］。

其一是全景視頻傳輸時所需的高帶寬。與傳統視頻相比，全景視頻是3D 球體視頻，允許用戶自由選擇觀看的視角［5］，任意地探索視頻中呈現的內容。全景視頻包含更多的信息量，同分辨率下全景視頻的數據量是傳統視頻的4～6倍［6］。除此之外，用戶觀看全景視頻需要佩戴頭戴式顯示器（Head Mounted Display，HMD），由于人眼距離屏幕更近，對視頻分辨率大小更加敏感。一般來說，為了保證用戶的體驗感，全景視頻的分辨率一般要求在4K 及以上［7］，傳輸所需帶寬將會隨之上漲至400 Mbps［8］。現有網絡傳輸系統中，只有少部分可以滿足該傳輸要求［9］。

其二是全景視頻傳輸需要低時延。為避免觀看者產生眩暈感，頭動時延（Motion To Photon，MTP），即從用戶頭部開始移動到相應畫面渲染、呈現給用戶的時延，應盡量控制在20 ms 以內［10］。

綜上所述，全景視頻數據量大、對時延敏感的特性［11］給現有的網絡傳輸帶來了很大的挑戰。如何在資源有限、時變的網絡條件下傳輸全景視頻，保障用戶體驗質量（Quality of Experience，QoE），已成為當前全景視頻領域的研究熱點。

由于人眼特性和HMD 的固定視野范圍，用戶無法看到全部的視頻區域，只有大概20%能被看到［12］，這部分區域即通常所稱的視口區域（Field of Viewport，FoV）。鑒于以上特性，理論上來說，只需要傳輸FoV 范圍內的視頻內容就可以滿足用戶的觀看需求，從而大幅減少帶寬消耗［13］。基于此，學者們提出了基于tile 的視口自適應傳輸（Tile-based Adaptive Streaming）［14］，對視口區域和非視口區域做出智能決策，從而減少帶寬的消耗。在該傳輸系統中，主要包含兩個重要的模塊：一是視口預測模塊，負責根據用戶當前視口信息，預測下一時刻的視口位置；二是碼率分配，基于視口預測的結果與可用的網絡資源生成碼率分配方案，對視口與非視口區域進行差異化傳輸。在基于tile 的視口自適應傳輸系統中，只需要傳輸視口區域內的tile 便可以滿足用戶的觀看需求。實際上，視口預測模型難以準確預測用戶未來的視口位置，一旦預測錯誤，通常會造成視口區域內對應的畫面質量降低，進而影響用戶的體驗質量［15］。除此之外，碼率分配算法需要在資源有限的時變網絡中生成最優的碼率分配策略，優化用戶的體驗質量［16］。因此，在自適應傳輸系統中，視口預測與碼率分配算法的性能一定程度上決定系統性能的好壞。

本文基于當前全景視頻的主流的傳輸方案，即基于tile的視口自適應傳輸方案，重點講述該系統中視口預測和碼率分配兩個重點模塊。從不同的視角，歸納總結該領域的研究現狀與發展。

1 全景視頻傳輸框架

在全景視頻應用中，為了保障用戶的沉浸式體驗，需要傳輸高分辨率的視頻，并且傳輸時延要控制在20 ms 內。全景視頻的上述特性給現有的網絡傳輸帶來了較大的挑戰，亟須優化全景視頻傳輸系統。

1.1 全景視頻傳輸原理

動態圖像專家組（Moving Picture Experts Group，MPEG）在2015 年發起了面向全景視頻封裝格式的標準化制定工作，由此產生了第一版全景視頻標準，即全向媒體格式（Omnidirectional MediA Format，OMAF）。OMAF 標準中闡明，全景視頻從采集到播放主要包括全景視頻采集、拼接、映射、編碼、傳輸、解碼、渲染和播放等［17］。全景視頻傳輸框架如圖1 所示。

圖1 全景視頻傳輸框架Fig.1 Transmission framework of panoramic video

目前全景視頻的采集通常由多個普通攝像機按照一定規律擺放，同步對實景進行拍攝。視頻采集后，并不能直接得到所需的球體視頻，而是從不同方位不同視角拍攝的視頻集合。要得到球體視頻，需通過視頻拼接技術，將多方位攝像機采集的視頻拼接得到全景視頻。伴隨著硬件設施的發展，全景視頻采集技術日漸成熟，目前已有全景視頻專用攝像機，可以提供視頻采集和拼接的一體化服務，極大地方便了全景視頻的制作。

盡管傳統視頻的編碼方案已有豐富的研究基礎，但針對全景視頻的編碼方案仍未完全成熟。為了編碼全景視頻，目前主流解決方案是將全景視頻映射到二維平面上、再對它使用傳統視頻編碼的方案，這一映射過程稱為視頻映射。在OMAF 標準中，指定支持兩種投影格式，即等矩形映射（EquiRectangular Projection，ERP）［18］和立方體映射（Cubic Mapping Projection，CMP）［19］。除此之外，高通提出的金字塔棱臺映射（Truncated Square Pyramid projection，TSP）［20］也是常用的映射方法。各映射格式示例如圖2 所示。ERP 由地圖映射發展而來，是目前主流的全景視頻映射方法。ERP 在球體的緯度上，按照赤道的采樣頻率對視頻內容進行采樣，然后生成寬高比為2∶1 的平面圖像［21］。ERP 簡單、直觀，但在兩極處像素采樣密度大于赤道，兩極處畫面扭曲較大。CMP 是另外一種常見的映射方法。該方法在球體視頻外部構造一個外接立方體，然后從球體中心向外投射光線，從而緩解了兩極處的扭曲。CMP 壓縮效率比ERP 更高［22］，但是在正方體的邊緣和拐角處，會產生更大程度的扭曲；同時，CMP 映射得到的視頻畫面不連續，進而會影響圖像處理的效果。TSP 將全景視頻投影到截斷金字塔的6 個平面上，然后拼接畫面。相較于ERP 映射格式，TSP 畫面失真小，同時一定程度上解決了CMP 畫面不連續的問題，更利于視頻編碼與圖像處理。

圖2 常用映射格式示例Fig.2 Examples of common projection formats

視頻映射后，即可對全景視頻進行編碼處理。目前流行的編碼方案是高效視頻編碼（High Efficiency Video Coding，H.265/HEVC）［23］，而較早的高級視頻編碼（Advanced Video Coding，H.264/AVC）［24］也仍被廣泛使用。此外，2020 最新發表的多功能視頻編碼（Versatile Video Coding，H.266/VVC）［25］在原有編碼方案的基礎上，作了更多擴展，可以更好地支持全景視頻傳輸。

1.2 全景視頻傳輸方案

傳統流媒體視頻一般通過DASH（Dynamic Adaptive Streaming over HTTP）［26］協議進行傳輸，該協議是當前最流行的視頻流傳輸協議之一。DASH 根據網絡帶寬自適應地調節待傳輸視頻序列的碼率，從而保證用戶在網絡波動時也能享受到流暢的觀看體驗。DASH 使用媒體描述文件MPD（Media Presentation Description）描述服務器端存儲的視頻屬性和分片信息［27］。其中，自適應碼率（Adaptive Bit Rate，ABR）是DASH 協議中重要組成部分，通過對網絡吞吐量及播放器緩存器狀態的評估，作出傳輸下一視頻塊的碼率等級的決策。

如何保障用戶流暢、沉浸式的觀看體驗是全景視頻無線傳輸目前的最大挑戰。目前，全景視頻的傳輸主要分為全景傳輸與視口自適應傳輸。

全景傳輸是將全部全景視頻區域以等質量的形式無差別地傳輸給用戶。顯然，這種方案簡單、直接，可以保留全部的視頻信息；但由于FoV 僅占完整視頻的20%左右，全景傳輸方案不僅會造成明顯的帶寬資源浪費，而且容易導致高時延［28］。因此，學者們根據用戶視覺特性，提出根據用戶的FoV 動態調整傳輸區域，將更多的帶寬資源用于提升FoV 內的視頻質量。簡單來說，即FoV 內的視頻區域進行高質量傳輸，而FoV 外的則對應較低質量傳輸或甚至不傳輸。

基于tile 的視口自適應傳輸方案是視口自適應傳輸方案的一種，也是當前主流的視口自適應傳輸方案。如圖3 所示，該方案將DASH 與tile［29］思想相結合，將視頻區域分割為若干個矩形區域，進一步提升了帶寬的利用率。對任一全景視頻，首先在時域范圍內被分為若干個等長的時間塊，通常稱之為chunk 或segment。每個chunk 在空間域上被分為若干個等大小的矩形塊，即tile。每個tile 都以多種分辨率、不同質量等級的版本存儲在服務器中。客戶端首先通過視口預測算法判斷FoV，自適應碼率分配算法則根據當前的網絡帶寬、FoV 等信息做出傳輸方案智能決策，從而大幅減少帶寬的消耗，并提升用戶的體驗質量。

圖3 基于tile的視口自適應傳輸方案Fig.3 Tile-based viewport adaptive streaming

基于tile 的視口自適應傳輸方案通過視口預測機制，可以有效減少帶寬的浪費。在同等網絡狀況下，將更多的帶寬用于提高FoV 內的視頻質量，維持用戶的沉浸式體驗；然而，若用戶當前視口與預測視口不符，會出現黑屏或視頻質量降低等問題。即使在精準預測用戶視口的情形下，同樣需要高效率的自適應碼率分配算法，以適應不同的終端設備與網絡條件。綜上所述，視口預測可以適應用戶的頭部移動，自適應的碼率分配算法則能夠適應網絡狀況的變化。在視口自適應方案中，視口預測算法和自適應碼率分配算法與傳輸系統性能好壞關系密切［28］，而用戶質量評估則是系統性能好壞的關鍵評估指標。

2 用戶質量評估

用戶體驗質量是客戶對服務體驗的滿意度或煩惱度的度量，反映了視頻傳輸系統下用戶體驗感受，常被用于評估傳輸系統的性能。在波動的網絡狀況下，傳輸全景視頻容易發生卡頓、畫面質量頻繁切換等現象，進而影響用戶的體驗質量。在全景視頻傳輸系統中了解如何評估用戶的體驗質量，成為設計全景視頻自適應傳輸方案的首要問題。

MPEG 標準化協會將QoE 評估主要分為主觀評估和客觀評估兩種。主觀評估指由用戶對體驗質量從多個層次、分等級評分，能直接反映用戶對視頻質量的感知，但易受用戶主觀意愿的影響；客觀評估基于數學模型選擇合適的指標衡量視頻質量，可以自動計算，無需過多的人為干預。

2.1 主觀質量評估

用戶體驗質量是一個主觀的概念，受到人主觀因素、系統因素和視頻內容等的影響。全景視頻中涉及人與內容的交互，主觀評估可以更準確地反映用戶的體驗感好壞。

目前，全景視頻主觀質量評估方法大都在傳統視頻評估方法的基礎上進行研究。國際電信聯盟（International Telecommunication Union，ITU）提出使用絕對等級評分（Absolute Category Rating，ACR）和失真等級評分（Degradation Category Rating，DCR）評估QoE。平均意見評分（Mean Opinion Score，MOS）是最常用的ACR 評分方法之一。該方法將視頻內容呈現給大量的體驗用戶，然后要求用戶按1～5 的分值評分，分值越高表示用戶的體驗感越佳。該方法不需要參考原始視頻，直接評價處理后的視頻。差分平均意見評分（Differential Mean Opinion Score，DMOS）是DCR的常用評估指標，常被用于評估失真視頻和原始視頻質量之間的差異，比較適合評估壓縮方案對畫面質量的影響或者不同算法之間的直接性能比較。

2.2 客觀質量評估

傳統2D 視頻中常用的客觀評估指標同樣可用于全景視頻。常用的客觀指標包括峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）、結構相似度指數（Structural SIMilarity index，SSIM）［30］等。盡管一些傳統的客觀評估指標仍能適用，但由于全景視頻中獨特的畫面畸變、壓縮偽影等使傳統的評估指標難以滿足全景視頻場景下的評估需求。例如，由于人眼對畫面質量的感知存在差異，PSNR 難以和用戶的感知質量保持一致。鑒于此，學者們基于傳統的視頻評估指標，結合全景視頻的視覺特性，提出了許多全景視頻專用的評估指標。

在JVET（Joint Video Experts Team）會議［31］中，采納了WS-PSNR（Weighted-to-Spherically-uniform PSNR）［32］、S-PSNR（Spherical-PSNR）［32］和CPP-PSNR（Craster’s Parabolic Projection-PSNR）［33］作為全景視頻質量的評價標準。與PSNR 不同，WS-PSNR 對全景視頻的不同區域的像素點分配不同的權重值。WS-PSNR 直接在二維平面上計算，而S-PSNR 在球上均勻采樣若干個點，然后將它們重新投影到參考和扭曲的全景圖像［34］上，再計算PSNR。相比WS-PSNR，S-PSNR 直接在球域上計算，計算復雜度更高，且采樣點所占比例較低。CPP-PSNR 專用于克拉斯特拋物線投影，將全景視頻用該投影格式后得到二維視頻，再計算所得圖像的PSNR。同樣地，為了適應球體視頻，基于SSIM 提出的WS-SSIM（Weighted-to-Spherically-uniform SSIM）［35］和S-SSIM（Spherical-SSIM）［36］使用類似WS-PSNR 的權重函數，彌補全景視頻的畫面失真，更能真實反映全景視頻用戶的感知質量。

截至目前，盡管學者們已提出多種QoE（Quality of Experience）評估指標，但在實際應用中，這些指標仍難以精準反映用戶的觀看體驗。特別是在全景視頻領域，由于影響用戶體驗質量的因素極為多樣且復雜［37］，加上不同用戶的偏好差異，主觀與客觀評估指標之間的不一致性成為一個顯著的挑戰。這一現象不僅揭示了現有評估方法的局限性，也強調了開發更為精準和個性化評估工具的迫切需求。未來的研究需致力于探索綜合考慮個體差異和多元化體驗要素的新型評估機制，以更真實地反映和提升用戶的全景視頻體驗。

3 視口預測

3.1 視口預測概述

視口預測是自適應傳輸方案中的關鍵技術。由于全景視頻的時延敏感特性，為了避免用戶頭部隨意移動時FoV 出現黑塊或者視頻質量急劇降低［38］，必須提前預測FoV，并把相應的視頻區域預存于播放緩存，從而保證用戶始終能夠流暢地觀看視頻。

一般來說，視口預測主要可以分為與內容無關和與內容相關的預測方法［39］，如表1 所示。與內容無關的視口預測方法只依賴用戶先前的視口位置信息預測未來時刻的位置，一般基于HMD 內傳感器采集到的一段時間內的歷史軌跡信息預測用戶未來時刻的視口位置，因而常被稱為基于歷史軌跡的預測方法。根據是否采用單用戶軌跡預測，基于軌跡的預測方法又可進一步分為基于單用戶軌跡和基于多用戶軌跡預測。與內容相關的預測方法通常基于視頻的顯著性進行視口預測。顯著性預測通過智能算法模擬人的視覺系統特點，預測人類的視覺凝視點和眼動，提取圖像中人類感興趣的區域（Region of Interest，RoI）。除此之外，學者們還提出同時基于視頻內容與歷史軌跡的視口預測方法，該方法與用戶的歷史軌跡和視頻內容相關，視頻內容可以進一步分為基于目標追蹤和基于顯著性，兩者分別使用視頻內物體的運動軌跡和圖像顯著性代替視頻內容。

表1 視口預測算法概述Tab.1 Overview of viewport prediction algorithms

3.2 視口預測研究現狀

由于用戶的視口位置在時間上具有一定的相關性，因此視口預測問題常被建模為時間序列預測問題。一些傳統的時間預測方法被廣泛應用于該場景，包括線性回歸、概率統計和機器學習等。現有的一些視口預測方法基于頭部運動歷史軌跡，使用較簡單的模型預測未來的視口位置。例如平均值（Average）［40］、線性回歸（Linear Regression，LR）［41］和加權線性回歸（Weighted Linear Regression）［42］。文獻［43］中基于1 300 多個數據集測試，比較了線性回歸（Linear Regression，LR）、嶺回歸（Ridge Regression，RR）和支持向量回歸（Support Vector Regression，SVR）在不同預測時間長度的準確率，發現：當預測間隔在1 s 內，LR 能取得最佳效果；當預測間隔大于1 s，RR 可以提高預測算法的魯棒性。學者們還提出基于用戶頭部的多項移動數據，對用戶未來視口進行預測，例如：文獻［44］中提出基于用戶觀看時候的位置信息、頭部轉動速度以及加速度，建立一個頻率驅動（Frequency-Driven）預測模型；類似地，文獻［45］中將用戶的頭部移動數據綜合建模成一個向量，包括了用戶頭動速度與加速度；文獻［46］中通過用戶的角速度與角加速度預測用戶的未來視口位置。

然而，這些模型結構通常比較簡單，難以很好地挖掘用戶的復雜行為。當用戶頭部快速移動時，準確率通常難以保持較高水平。隨著深度學習與強化學習理論的成熟與發展，學者們提出應用深度學習的方法，解決視口預測準確率低的難題。一些研究結果表明，卷積神經網絡（Convolutional Neural Network，CNN）［47］和循環神經網絡（Recurrent Neural Network，RNN）［48］在視口數據集上的測試取得了較好效果，證明深度學習網絡模型用于視口預測可行。Bao 等［49］提出使用長短期記憶（Long Short-Term Memory，LSTM）網絡模型提高預測算法在長期預測的準確率。Xu 等［50］建立了用于頭部運動預測的深度強化學習模型，根據頭部的運動提取FoV，并在長期預測取得了90%以上的準確率。Lee 等［51］在LSTM 中引入了注意力模塊，使用LSTM 和門控遞歸單元（Gated Recurrent Unit，GRU）更精準地預測全景視頻中的用戶頭部位置。

同時一些學者提出視口預測算法的誤差分布服從一定的規律，可以將用戶的頭部運動視為概率事件，構建一個概率模型描述視口預測誤差的分布，用特定的分布擬合視口預測的誤差，從而減小算法預測的錯誤概率。Xie 等［52］指出LR的誤差分布近似于高斯分布，并分別對描述用戶頭部的3 個角度（roll，yaw，pitch）的預測誤差建立高斯分布模型。Zou等［53］發現使用LSTM 預測視口時，誤差分布更接近拉普拉斯分布。Jiang 等［54］提出視口預測誤差分布更接近t Location-Scale 分布。在視口預測中，預測誤差可以建模為系統噪聲。Kalman 濾波器基于隱馬爾可夫的經典模型［55］，常用于預測含噪聲的系統的狀態，因此Kalman 濾波器也常被用于預測用戶的頭動軌跡［56］。盡管如此，現有的誤差分布函數大多都是靜態的，無法適應視頻播放時預測準確率的變化，誤差在時域內不斷累積，導致視口預測算法在長期預測時可靠性降低。也就是說，只考慮單用戶的歷史軌跡信息，在短期預測雖然可以取得較高的準確率，但是預測間隔一旦增長，預測方法的可靠性難以保障。

除了考慮單個用戶的歷史軌跡，一些研究者發現不同用戶觀看同一視頻時常常表現出相似的觀看模式，探索跨用戶行為的相似性可以彌補視口預測結果與實際值不匹配的缺陷。文獻［57］中同時使用了LR 與K近鄰（K-Nearest Neighbor，KNN）算法，既考慮了用戶的歷史位置信息，又考慮用戶之間行為相關性對初步預測結果進行修正，使用KNN聚類進一步提高預測算法的準確率。文獻［58］中考慮用戶觀看模式的相似性，對tile 的觀看概率進行統計分析，并將高頻次出現的tile 與FoV 預測結果取并集，從而一定程度上提高視口預測算法的準確率。文獻［59］中通過識別用戶軌跡，利用用戶之間觀看行為的相似性提高傳統線性回歸方法的準確率。文獻［60］中分別對描述用戶頭部位置的3 個角度建模，并使用聚類算法將相似的軌跡分為不同的子類，分別計算每個子類的軌跡函數。文獻［61］中使用了一種基于密度的DBSCAN（Density-Based Spatial Clustering of Applications with Noise）聚類算法，先將用戶分類，再通過支持向量機（Support Vector Machine，SVM）預測用戶的類別，以預測不同類別對應的觀看軌跡。

除了基于歷史軌跡的與視頻內容無關的視口預測方法，另一類是內容相關的視口預測方法，通常基于視頻內容的顯著性特征進行預測［62］。全景視頻顯著圖示例如圖4 所示（顏色越深代表顯著性越高）。一般來說，視頻顯著性的高低反映了用戶感興趣的程度，視頻內容的顯著性越強，相應被觀看的概率就越高，因此顯著性高的區域內的tile 對應高的傳輸碼率。在傳統視頻中，卷積神經網絡常被用于顯著性檢測。對于全景視頻中的顯著性預測，一些文獻［63-65］中直接將傳統視頻的顯著性檢測模型應用至全景視頻，但是傳統視頻的顯著性檢測模型通常并不適用于全景視頻。由于全景視頻在經過ERP 后，畫面會產生不同程度的扭曲，這種來自空間變化的扭曲失真使傳統CNN 的權重共享無效，導致顯著性檢測效果變差。

圖4 全景視頻顯著圖示例Fig.4 Example of panoramic video saliency map

為了使傳統視頻顯著性檢測的研究成果可以應用至全景視頻，學者們提出了多種方法，例如通過線性加權將傳統視頻的顯著圖轉化為全景圖像的顯著圖［66］，或者通過遷移學習使傳統圖像顯著性檢測模型能夠適應全景圖像的顯著性檢測［67］。文獻［68］中使用淺層網絡進行顯著性檢測，并使用遷移學習的方法生成深度網絡。文獻［69］中使用三維卷積神經網絡（3-Dimensional CNN）提取視頻的時空特征，包括顯著性圖、移動圖等，并與基于歷史視口的預測方法相比，在預測準確率上表現更佳。為了消除畫面扭曲造成的影響，一種方法是將全景視頻轉換為多個透視圖［70-72］，并在每個透視圖上使用傳統CNN 進行處理；但是，這種方法并不能消除失真，而只是將影響降到最低。例如文獻［72］中提出了一種用于全景視頻的顯著性預測網絡，以CMP 格式的視頻幀和光流作為輸入，再通過解碼器和雙向卷積LSTM 對這些特征進行顯著性預測；但因為CMP 映射格式畫面不連續，可能影響顯著性預測性能。除此之外，文獻［73-75］中采用另一種方法策略，通過改變卷積方法抵消失真的影響。例如文獻［74］中提出了一個新的框架SphereNet，根據球面圖像表示的幾何形狀調整卷積濾波器的采樣網格位置，并將濾波器包裹在球體周圍，以避免圖像失真帶來的影響。

除此之外，還可以將用戶的歷史軌跡與全景視頻的內容相結合進行視口預測。文獻［76-78］中認為用戶的觀看區域主要受視頻內運動的物體的影響，應結合目標追蹤算法進行視口預測。文獻［76］中通過YOLOv3（You Look Only Once v3）算法識別視頻內物體的運動軌跡，并使用差分整合移動平均自回歸模型（Auto-Regressive Integrated Moving Average，ARIMA）時間序列預測的方法初步預測用戶的未來視口位置，然后使用被動攻擊回歸算法，修正預測結果。文獻［79］中同時基于用戶的歷史軌跡和圖像顯著性圖，使用LSTM 預測用戶視口，采用預訓練的VGG-16 網絡提取視頻視覺特征，與位置信息級聯經Flatten 層處理后輸入雙層LSTM 網絡。文獻［80］中基于用戶先前視口位置與視頻內容預測未來視口位置，使用LSTM 初步處理，然后與空間顯著特征級聯拼接，聯合輸入到Inception-ResNet-V2 的網絡。文獻［81］中提出了基于深度卷積網絡的顯著性模型PanoSalNet 提取顯著特征，然后將位置信息映射成掩碼，輸入到雙層LSTM 網絡中。文獻［82］中采取了上述類似的方法，在文獻［81］方法基礎上增加了一個修正模塊，補償預測值與實際值的差異。然而，在大量的數據集上測試后發現，現有的同時基于視頻內容與歷史軌跡的預測方法在測試時，性能都低于較新的僅基于歷史視口的預測方法［39］。所以，一些學者在最新的一些研究進展中另辟蹊徑，結合兩種預測模型，并將兩種模型的預測結果整合得到最終的預測結果。文獻［38］中提出的視口預測方法中，基于歷史視口得到第一次視口預測結果，將它記為固定視口；然后基于Spherical Walk 方法［83］（將用戶的頭部運動視為在球體上行走，并基于從一點到另一點的球體運動來預測未來視口位置）得到第二次視口預測結果，即為擴展視口；最后對兩次預測結果取并集，得到最終的預測視口區域。綜上所述，學者們提出了多種方法提高視口預測算法的準確率。基于已有的研究成果，現有的基于單用戶的視口預測方法在短期預測可以維持較高的準確率。隨著預測間隔變長，預測的準確率將會大幅度降低。基于內容顯著性特征與跨用戶行為的相似性可以一定程度上克服該缺陷。從相應的技術手段看，越來越多的深度學習模型用于內容顯著性估計與視口預測。相較于簡單的回歸模型，基于深度學習的視口預測算法在長期預測場景下表現更佳。

4 碼率分配

4.1 碼率分配算法概述

視口自適應傳輸方案基于人們的視口位置進行選擇性傳輸，為視口內區域提供高質量傳輸，其余部分以低質量傳輸［84］。自適應碼率（Adaptive Bit Rate，ABR）算法（或稱碼率分配算法）基于視口位置信息，進行智能決策。碼率分配算法通過選擇合適的碼率版本，為終端用戶提供最佳的用戶體驗質量。為了保障流暢的播放體驗，除了依賴于準確的視口預測，在時變網絡環境中如何高效地進行碼率分配對保障用戶的體驗質量也至關重要。現有的全景視頻自適應碼率分配算法大多借鑒了傳統視頻的ABR 算法，并考慮全景視頻的特性，對傳統的ABR 算法進行了改進。

總體來說，現有的自適應碼率算法可以分為4 類：基于吞吐量（Throughput-based）、基于緩存區容量控制（Bufferbased）、混合控制（Hybrid）和基于學習（Learning-based）。Throughput-based 與Buffer-based 分別通過考慮網絡可用帶寬和緩存區的容量生成碼率分配方案；Hybrid 一般綜合考慮帶寬、緩存區容量和時延等多方面因素，構造自適應碼率模型；Learning-based 強調從系統環境中學習，基于歷史的播放器狀態找到最合適的碼率分配策略。全景視頻傳輸中自適應碼率分配算法的基本邏輯如圖5 所示，碼率分配算法主要包括資源估計模塊和自適應邏輯模塊。資源估計模塊負責收集網絡狀況或者緩存區的容量信息。自適應邏輯則根據當前的網絡狀況或者緩存的容量向視頻服務器請求合適的碼率，將請求的視頻版本預存在視頻播放緩存區中，供用戶觀看設備渲染及播放，以優化用戶的體驗質量。

圖5 全景視頻自適應碼率分配算法Fig.5 Adaptive bit rate allocation of panoramic video

4.2 自適應碼率算法研究現狀

自適應碼率分配算法可在時變的網絡環境中兼顧畫面的質量和視頻的流暢播放，同時提供更好的用戶體驗質量。從自適應碼率分配算法被提出以來，業界涌現了許多經典的算法，包括Festival［85］、MPC（Model Prediction Control）［86］、BBA0［87］、Elastic［88］、BOLA［89］和Pensieve［90］等，算法概述如表2所示。全景視頻傳輸系統中的自適應碼率算法考慮了全景視頻的視覺特性和QoE 模型等，在傳統視頻經典的算法的基礎上作出了改進。

表2 碼率分配算法概述Tab.2 Overview of bit rate allocation algorithms

在全景視頻場景中，最簡單、直接的自適應碼率分配算法ERP［91］被廣泛應用于視頻平臺（例如YouTube）等。該方法對視頻進行ERP 投影后，將視頻在空間域劃分為若干個tile，在帶寬的可用范圍內，對每個tile 分配等質量的碼率。這種方案簡單、直接，但由于非視口區域會占用很多的帶寬，造成帶寬浪費的同時，還降低了視口區域內的畫面質量。許多改進方案在視口區域與非視口區域選擇傳輸不同的碼率版本。文獻［83］中提出CTF（Center Tile First）的策略，即對位于視口區域中心的tile 優先傳輸高質量的視頻版本。文獻［92］中對現有經典的基于tile 傳輸方案進行綜述，統一實驗條件下發現，相較于非tile 的傳輸方案，基于tile 的傳輸方案在視口區域內的PSNR 更優，且不易受視頻塊chunk 的時長和緩存區大小等因素的影響。

文獻［52］中提出使用QoE 驅動的優化方法，在有限的帶寬資源下，為每個tile 分配碼率，最大化用戶的QoE。為了求解碼率分配中QoE 最大化的問題，將碼率分配問題建模成其他的數學問題，并使用不同的算法模型解決問題。文獻［93］中將碼率分配算法轉換為整數線性規劃問題（Integer Linear Programming，ILP），減少了76%的帶寬消耗。文獻［94］中提出了QoE 模型，考慮了畫面亮度、視覺深度等因素對用戶體驗質量的影響。同時提出了大小可變的tile 方案，使用模型預測控制（MPC）算法為每一視頻塊內的tile 分配對應的碼率，在達到相同畫面質量的情況下，可節省40%左右的帶寬資源。文獻［43］中綜合考慮了多種QoE 的影響因素，包括緩存時間、FoV 內視頻質量與相鄰視頻幀之間質量的切換，并將該問題建模為效用函數，使用MPC 求解效用函數最大時的碼率分配策略。效用函數與用戶體驗質量直接相關，從而進一步優化用戶的體驗質量，并節省35%的帶寬資源。文獻［57］中提出碼率分配是典型的非確定性多項式完全問題（Non-deterministic Polynomial，NP-Complete Problem），可以將其視為背包問題（Knapsack Problem）求解。類似地，在文獻［11］中也將碼率分配算法建模為背包問題，并使用貪心算法窮舉碼率分配方案，極大地提高了傳輸后的視頻畫面質量。文獻［16］中使用貪心方法不斷計算每個tile 的傳輸花費與性能提升，找到綜合效益最優的傳輸策略，輸出最終碼率分配結果。文獻［95］中利用多用戶數據組合成一個整體模型，基于預測的用戶視口位置，計算每個tile 的優先級，再通過束搜索的優化方法，根據每個tile 的優先級為它分配對應的碼率。為了確定服務器端最佳的編碼方案，以最大化客戶端觀看質量，文獻［96］中將QoE 優化問題分為不同帶寬下的類優化問題和存儲限制下最大化用戶感知質量的全局優化問題，并分別采取不同的算法分別求解；該方案不僅計算速度快，且視口區域內畫面質量更高。

由于視口預測的誤差會對碼率分配產生較大的影響，學者們提出了雙層（2-tier）的全景視頻傳輸系統。文獻［97］中將視頻分為基礎背景層與增強層，客戶端根據對QoE 的提升動態決定選擇tile 的碼率。利用Lyapunov 優化理論中的漂移加罰（Drift Plus Penalty）方法解決QoE 優化問題，在視口質量、視口質量變化與視頻卡頓上有了顯著的優化。類似地，文獻［98］中將整個全景視頻分為基礎層和增強層。基礎層對所有的視頻區域傳輸一個低質量的視頻版本，防止預測誤差導致的視口區域黑塊現象；增強層則根據視口預測的結果，對FoV 疊加更高質量的視頻版本，保障FoV 內的視覺感知質量；且對不同層的碼率分配方案可以根據視口預測的準確率進行調整，從而增加了碼率分配算法對視口預測的容錯率，保障了用戶的體驗質量。文獻［99］中將全景視頻劃分為兩種質量等級：一是原始視頻對應的質量等級，二是通過將原始質量減半得到的較低質量的視頻。該方案僅考慮視口位置，對視口位置內的tile 分配最高的碼率，對視口以外的tile 則分配較低的碼率。

除了2-tier 的系統以外，還嘗試根據視口位置，將tile 劃分為不同的類別，再根據類別分配碼率。文獻［38］中根據視口預測結果將tile 分為預測視口（Estimated Viewport）區域、外部（External）區域和背景（Background）區域；再分別計算不同類別tile 的權重因子，根據各tile 的權重分配對應的碼率。文獻［100］中同樣將視頻所有的區域分為FoV 的中心區域、邊緣區域和外圍區域，并考慮緩存區的容量和可用帶寬使得視頻播放的時空平滑性最佳，即相鄰chunk 和相鄰tile 的質量切換最小。文獻［101］中將視頻區域分為視點區域（Viewpoint Region）、邊緣區域（Marginal Region）和未觀看區域（Not-Viewed Region），劃分的不同區域由不同的速率失真模型表示，通過聯合考慮速率失真模型和視口預測精度自適應碼率分配策略。文獻［102］中根據視口位置將不同tile 劃分為3 個不同的優先級。在全景視頻流傳輸時，根據優先級為不同的區塊分配不同的比特率。為視點所在tile 分配高碼率，為水平、垂直兩方向上的tile 分配中等碼率，為其余4 個頂角方向的tile 分配低碼率。除了固定的tile 劃分方案，自適應的tile 劃分方案可以增加傳輸系統對視口預測算法的容錯率，保障用戶的體驗質量。文獻［103］中采用自適應的tile 分配方案計算每種tile 劃分方案對應的懲罰值，最后基于MPC算法求解對應tile 方案下最佳的碼率分配策略。文獻［104］中采用popularity-aware 的tile 劃分方式，即基于多用戶的視口信息分布，計算視頻區域的觀看頻次，進而得到觀看頻次最多的區域，標記為macrotile，再將QoE 優化問題建模為NPhard 問題，求解最佳的碼率分配策略。文獻［105］基于視頻內容與用戶觀看行為，提出一種自適應的tile 分塊方式，將tile 劃分為tcurrent、tneighbor與tmerged三類。基于視頻畫面復雜度與用戶觀看區域，計算各tneighbor的NGS（Normalized Growing Speed）指標值。其次，選擇NGS 最大的tile，將它合并，與固定分塊的方式相比，大幅降低了全景視頻傳輸所需的帶寬需求。

伴隨著基于視頻顯著性的視口預測方法的發展，衍生出了一類Saliency-driven（顯著性驅動）的碼率分配算法。文獻［106］中指出基于顯著性的碼率分配算法具有優化用戶體驗質量的巨大潛力。基于顯著性預測結果將整個畫面區域分為High-salient、Low-salient 和Non-salient 這3 個不同顯著性等級的區域。為了保障高QoE，將決策回報定義為與觀看質量以及畫面質量切換相關的決策變量，并考慮畫面區域的顯著性值，用于QoE 加權。在求解QoE 最優化問題時，采用了一種基于元啟發式的模擬退火（Simulated Annealing，SA）算法，在大型搜索空間中對QoE 優化問題進行全局優化。類似地，文獻［107］中提出了RoSal360 模型，同樣基于圖像顯著性分配碼率，并采用類似的數學建模方法；但采用的自適應步長的搜索機制大幅縮短了決策空間的遍歷時間，同時還采用了強化學習糾錯機制，剔除碼率分配效果較差的節點，提高了系統的容錯率，增強了魯棒性。

隨著強化學習理論的發展，強化學習模型也被廣泛應用于碼率分配。強化學習具有可以通過與環境交互進行學習，并計算相應的獎勵回報的機制［108］。一般地，決策空間常被定義為對每一個chunk 內的tile 選擇一個合適的碼率，輸入信息包括當前的可用帶寬、歷史選擇碼率和緩存區的剩余容量，決策回報定義為相應的QoE 函數［109］。文獻［110］中聯合考慮了多個QoE 指標提高流媒體傳輸系統的性能，采用了基于LSTM 的Actor-Critic（AC）模型優化用戶體驗質量，適應了不同的網絡狀況。在不同的網絡條件下的測試實驗結果表明，QoE 提升了20%～30%。

強化學習的方法，決策空間較大，模型訓練耗時長。因此學者們提出了很多方法壓縮決策空間，使得強化學習理論可以實際應用到自適應碼率分配算法。文獻［111］中引入了SRL（Sequential Reinforcement Learning），將決策空間從指數級轉化至線性型，大幅壓縮了決策空間，縮短了模型的訓練時間。其次，SRL 不依賴于準確的帶寬預測，而是觀測過去時刻QoE 的性能，作出碼率決策。該方法與其他算法相比，平均用戶體驗質量提高了12%。文獻［112］中提出將自適應碼率分配問題轉換為非線性離散優化問題，并將碼率自適應邏輯建模為馬爾可夫決策過程，再基于深度強化學習算法動態學習最優的碼率分配方案。與其他全景視頻流系統相比，該系統在平均QoE 上實現了至少1.47 dB 的性能增益。以上模型盡管性能有了一定的提升，但是仍然存在一些問題。在自適應流媒體系統中，不同的業務、用戶對QoE 模型有不同的需求和偏好，但一些模型的訓練一旦完成，QoE 指標的比例關系就基本確定，無法適應各方面、多用戶的不同需求。針對以上問題，文獻［113］中提出了具有穩定性的雙工結構，將碼率決策分為fetch 與prefetch 隊列，碼率分配算法先選擇隊列然后選擇相應的碼率版本，從而壓縮了算法的決策空間。通過將系統的狀態分為SE（State Embedding）和PE（Preference Embedding）適應不同用戶的QoE 偏好，并基于DQN（Deep Q-Network）決策碼率，在數據集上的測試結果表明，該方案將QoE 提升了近20%。

綜上所述，學者們提出了多種碼率分配算法，最終目的都是在節省帶寬資源的前提下提高用戶的體驗質量。盡管很多算法提升了用戶的體驗質量，但是算法復雜度較高，模型訓練耗時長；同時，一些算法追求高碼率，反而沒有綜合考慮用戶的體驗質量的影響因素，或者不同的用戶對體驗質量有不同的偏好。因此，如何控制算法時間復雜度在可接受的范圍，保障用戶的體驗質量一直是學者們研究的問題。

5 未來發展與展望

全景視頻流傳輸要保障用戶良好的體驗質量，需要高帶寬、低時延。由于FoV 的限制，用戶只能看到視頻中一部分區域。為了節省帶寬并提供流暢、高清晰度的視頻，基于tile的視口自適應傳輸成為當前的主流傳輸方案。本章針對該傳輸方案中的幾個可能的研究方向進行概述。

5.1 增強QoE評估的完善度

全景視頻的QoE 評估是全景視頻流系統優化的前提和關鍵。盡管全景視頻的QoE 已經有了很大的進展，但是還缺乏更深入的研究。首先，用于全景視頻QoE 評價的視頻數據集不夠完備，權威的數據集緊缺，而且數據集規模較小。全景視頻中用戶的體驗質量與多方面因素有關，包括用戶因素、網絡因素和傳輸因素等。由于需要考慮的因素眾多，全景視頻的主觀評估實驗難以設計，從而制約了全景視頻數據集的發展。其次，QoE 評估是基于人的感知水平的評價標準。雖然已有很多視頻評價指標被提出，但是這些指標對人眼的視覺特性以及全景視頻的視頻特點考慮不夠完備，客觀評估指標與用戶實際的感受還存在一定的差距。總之，建立充足、完備的視頻數據集用以測試，防止QoE 評估出現過擬合風險的同時，應當充分研究人眼的視覺特性，將QoE 評估與用戶感知相結合是全景視頻QoE 評估的發展方向之一。

5.2 提高視口預測的準確性和魯棒性

視口預測一直被視為視口自適應傳輸中關鍵技術，也是一直以來的研究熱點。視口預測的精度直接影響預取視頻片段與用戶真實觀看區域的一致性，決定了用戶體驗質量的高低。基于歷史軌跡的預測方案可以比較精準地預測用戶的FoV，但預測間隔增長時，精準度會大幅下降。除此之外，基于視頻內容的顯著性，預測用戶的感興趣的區域，精度上有了較好的提升，但算法復雜度更高。目前衍生出了許多同時基于歷史軌跡與視頻內容的預測模型，提高了視口預測算法的魯棒性；然而，盡管對于視口預測的研究已經較為成熟，但是各學者多基于自建或其他人開源的數據集進行測試。目前還沒有較大的數據集統一評估視口預測算法的性能。隨著全景視頻技術的深入發展，除了3DoF 的視頻，還有6DoF 的視頻正逐步發展。視口預測算法的發展應該緊跟全景視頻業務的發展，普適性強、精度高、魯棒性好的視口預測模型仍待探索與研究。

5.3 優化碼率分配算法的決策和訓練過程

傳統的自適應碼率分配算法包括基于吞吐量估計、基于緩存區容量控制、混合控制方法和基于學習的分配方案。全景視頻中碼率分配算法的研究已經持續了很長一段時間，但仍有問題亟須解決。首先，自適應碼率算法的目標是保障用戶的體驗質量，碼率分配的決策過程，勢必要考慮影響用戶體驗質量的眾多因素。其中包含兩個挑戰：其一，用戶體驗質量的指標之間是相互沖突的，例如要保障較高的視覺質量，那么卡頓發生的概率就越大；其二，不同用戶對于QoE 的偏好有所不同。因此，需要優化自適應碼率算法的決策過程，使它能夠兼顧多項用戶體驗指標，或是動態調整碼率分配策略使之能夠自適應不同的用戶偏好。其次，基于Qlearning、Actor-Critic 及其近年衍生出的系列強化學習模型通過過去的播放狀態理解環境的變化機制，被嘗試用以解決全景視頻中的碼率分配問題，進一步提升用戶體驗質量。與此同時，強化學習帶來的決策空間龐大、訓練耗時等問題不容忽視。這一問題目前還沒被較好解決。一些學者嘗試將整幀分成若干個較大的區代替細粒度的tile 分區，縮小決策空間，但會使決策的粒度粗化，不利于最優化。另外，強化學習網絡的訓練也需要通過仿真更新網絡模型的參數，如何建立一個跟現實足夠接近同時又快速的仿真模型也是一個問題。總之，碼率分配算法如何同時以較低算法復雜度，高效完成碼率分配，適應不同的網絡環境和用戶偏好是未來主要的突破方向。

6 結語

全景視頻以獨特的沉浸式體驗廣受到工業界與眾多用戶的青睞，但全景視頻傳輸所需的高帶寬、低時延特性阻礙了它的深入普及。為了在帶寬受限的網絡中提供流暢、高質量的視頻觀看體驗，全景視頻自適應傳輸成為如今的研究熱點之一。學者們提出的基于tile 的視口自適應傳輸方案已成為當前主流的傳輸方案。本文介紹了當前主流的傳輸方式，即基于tile 的視口自適應傳輸方案；分析了該方案的核心技術，包括視口預測和碼率分配的研究現狀，從不同視角分別進行歸納總結。在此基礎上，圍繞現有研究方法的不足和挑戰，展望了未來全景視頻傳輸的發展趨勢。本文從以上方面總結了未來可能的研究方向，旨在為該領域的研究者了解相關研究提供參考，并為深入研究提供思路。