宋彩霞,饒迎節
(1.福州大學,福建 福州 350000;2.福建省媒體信息智能處理與無線傳輸重點實驗室,福建 福州 350000)
VR 是一種綜合計算機圖形技術、多媒體技術、傳感器技術、人機交互技術、網絡技術、立體顯示技術以及仿真技術等多種科學技術發展而來的計算機領域的新技術。它在醫療保健行業、沉浸式遠程監控、遠程醫療、遠程體育以及遠程教育等方面,發揮著重要作用[1]。VR 視頻要求的4K 甚至更高的分辨率給傳統網絡帶來了很大壓力。盡管5G 網絡能在一定程度上解決VR視頻傳輸所要求的帶寬問題,但仍面臨許多未知的挑戰,因此需深入研究5G 網絡下的VR 視頻傳輸。
VR 視頻是一種360°視頻,其中戴有頭戴設備的用戶在三維球體的中心。這樣能為用戶提供一個完全的三維虛擬世界,如圖1 所示。

圖1 VR 視頻觀看示意圖
VR 視頻有不同的自由度形式。3DoF 360 是目前主流的VR 視頻類型。這種形式下,用戶雖然可以自由選擇觀看區域,但是不能主動選擇觀看角度。觀看角度由視頻內容決定,如圖2(a)所示。
理想的VR 技術除了能為用戶提供一個虛擬世界,還支持用戶在虛擬空間內任意走動。因此,視頻類型是多維度下的360 視頻,但目前仍然無法完全實現這種理想的VR 呈現技術。通過一些機械設備的輔助,用戶能體驗到很好的效果,但是這種價格高昂的方式并不適合普通用戶。為此,人們提出6DoF 360,如圖2(c)所示。用戶僅佩戴頭戴設備就可以體驗良好的虛擬現實效果,但是也只能在三個方向上進行位置移動。6DoF 360 需要大量的視頻數據以便在不同方向和不同位置呈現不同的觀看內容。
VR 視頻的觀看場所通常是空間有限的區域,比如室內。為減小視頻數據量同時獲得較好的真實體驗,人們提出了3DoF+ 360。在這種形式下,觀眾只能在三個方向上進行有限的位置移動,如圖2(b)所示[2]。

圖2 不同自由度的VR 形式
3D 360 視頻利用兩路360 視頻,使用戶左右眼觀看到不同的視頻,為用戶提供一種3D 立體感的觀看體驗。因此,相對于傳統的單路VR 視頻,3D 360 視頻數據量將加倍。
根據華為白皮書[3]的建議,理想的VR 視頻幀率應該在120 Hz 以上,分辨率在12K 以上。因此,為提供更加舒適的VR 觀看體驗,需要傳輸的視頻數據量更大。
為避免網絡帶寬波動造成的視頻觀看體驗下降問題,視頻傳輸系統普遍運用基于DASH 的自適應流技術。由于人眼在某一時刻視域有限,只能觀看360 視頻中的一部分,因此將360 視頻在空間上切割為區塊(tile),在時間上切割為片段(segment)。每個tile 分別以不同碼率編碼。將人眼觀看到的視點區域tile 以高質量傳輸,其他區域tile 以低質量傳輸,可以在不降低視頻觀看質量的同時減少需要傳輸的視頻數據[4]。
360 視頻的數據量大,通過客戶端緩存可以平衡帶寬波動帶來的影響。考慮到每一時刻視點區域不一致,傳統網絡下的360 視頻傳輸包含用戶視點預測模塊,即根據用戶的歷史觀看軌跡預測將來時刻視點的可能位置,從而合理獲取將來時刻的tile數據。通過設計合適的碼率選擇機制,即根據帶寬情況、緩沖情況及歷史碼率信息等選擇碼率,能在有限帶寬下為用戶提供最佳的體驗效果?;趖ile的360 視頻自適應流傳輸系統如圖3 所示。
當前,人工智能技術蓬勃發展?;跈C器學習的360 視頻自適應流成為學者們研究的重點。例如,利用深度學習的長短期記憶網絡(Long Short-Term Memory,LSTM)進行視點預測,利用強化學習進行碼率自適應選擇,利用圖像重建(如超分辨、插幀等)有效減小視頻數據量。通過人工智能技術極大地提高了基于DASH 的360 自適應流系統的潛力,緩解傳輸360 視頻造成的網絡帶寬壓力。

圖3 基于tile 的360 視頻自適應流傳輸系統
5G 網絡具有大帶寬和低延遲的特點。5G 的下載速度是4G 的10 ~100 倍。如此大的帶寬使得遠程播放VR/AR 視頻更易實現[5]。但是,5G 網絡也面臨一些問題,如5G 采用的毫米波通信極易受到障礙物的干擾。圖4 展示了一段真實室外環境下的4G 和5G 帶寬軌跡??梢钥闯?,盡管5G 網絡帶寬相比4G 有很大的提升,但是網絡波動顯著。用戶實時觀看VR 視頻時,若直接傳輸360 視頻仍有可能出現視頻不流暢的問題。因此,傳統360 視頻流傳輸方案在5G 網絡仍大有可為,需結合5G 網絡進一步提升其性能。
高分辨率的視頻渲染需要耗費大量的計算資源,同時移動終端設備的計算能力有限,嚴重時會出現卡頓和黑屏現象。Cloud VR 將渲染工作交由云服務器完成[6],但增加了視頻傳輸的延遲,當延遲大于20 ms 時會給觀眾造成眩暈感。邊緣服務器的計算能力和5G 的低延遲特點,能很好地解決該問題。
傳統360 視頻傳輸中,視點預測和碼率選擇通常在本地處理。深度學習中,繁雜的神經網絡通過分析歷史幀獲取視覺關注區域,以進一步提高視點預測精度。通過強化學習可以充分利用網絡帶寬為tile 分配碼率。高幀率和高分辨率的360 視頻能帶來更好的觀看體驗。通過當前流行的基于深度學習圖像超分辨率和視頻幀插值技術,可以實現幀率和分辨率的轉換。通過邊緣計算,可提升分辨率和幀率,減少互聯網的網絡擁塞現象。5G 網絡下,邊緣服務器與終端的結合如圖5 所示。將復雜的計算任務放置于邊緣服務器,既能減小云計算通過網絡主干通路的路由交換產生的延遲,也能激發人工智能技術的潛力,給用戶帶來更好的VR 體驗。
5G 網絡下,視頻傳輸在帶寬較低時可選擇只傳輸用戶視點區域。5G 的低延遲特性允許在視點出錯時暫停下一segment 的傳輸,以保證及時傳輸高編碼質量的tile對視點區域進行彌補,如圖6所示。5G 技術可支持減小傳統傳輸方案中的客戶端緩存,提高視點預測精度,也可以通過視點錯誤糾正提高視點區域質量。

圖4 4G 和5G 帶寬軌跡

圖5 基于5G 網絡的VR 邊緣計算
邊緣服務器通過分析多個用戶觀看的同一視頻內容,可以緩存經常觀看的重點區域tile 和不經常觀看的非重點區域tile,如圖7 所示。這樣不僅能減少傳輸的數據量,還可以減小網絡干路中數據傳輸造成的延遲。此外,利用當前成熟的內容分發技術(Content Delivery Network,CDN),能將網絡延遲降至最小。因此,5G 網絡給人們提供了足夠的支持,使用戶能夠流暢觀看高幀率和高分辨率的VR 視頻。

圖6 只傳輸視點區域和視點錯誤糾正示例

圖7 基于5G 網絡的VR 邊緣緩存
盡管5G 技術在傳輸VR 視頻方面具有明顯優勢,但是對于不同自由度、高分辨率及高幀率的VR視頻仍然存在很多挑戰。通過改進傳統的傳輸方式能有效發揮5G 技術在VR 視頻傳輸中的優勢,有效解決網絡帶寬不足的問題,為用戶提供更好的觀看體驗。