尹芹 呂達
摘要:提出虛擬現實(VR)面臨的2種技術發展挑戰:高帶寬、低時延。圍繞VR的發展,中興通訊創新性地提出端到端VR系統方案的技術理念,研發出一系列創新技術用于實現VR業務,例如:低碼高清技術、基于視野(FOV)的自適應傳輸技術、VR電子節目指南(EPG)、VR機頂盒、VR播放器,并基于網絡功能虛擬化(NFV)技術構建出云化VR網絡架構。這些技術和方案進一步地促進了VR的發展。
低碼高清;FOV;基于FOV的自適應傳輸
In this paper, two kinds of technical development challenges faced by virtual reality (VR) are proposed: high bandwidth and low delay. Focusing on the development of VR, ZTE innovatively proposed the technical concept of an end-to-end VR system solution. A series of innovative technologies were developed to implement VR services, such as low-code high-definition technology and angle of view (FOV)-based adaptation transmission technology, VR electronic program guide (EPG), VR set-top box, VR player, and cloud-based VR network architecture based on network function virtualization (NFV) technology. These technologies and solutions further promote the development of VR.
low-code high-definition; FOV; FOV-based adaptive transmission
1 VR的概念
1.1 VR的作用
1965年,虛擬現實(VR)的概念被首次提出。2016年,Oculus、HTC VIVE、PS VR等各種VR硬件層出不窮地面世,該年也被稱為VR元年。受限于制作精良、吸引用戶眼球并可持續使用的VR內容,受限于帶寬以及更高清分辨率的顯示技術,VR仍然處在爆發前夜。
VR可用于視頻直播、視頻點播、視頻游戲,以及垂直行業的多個應用場景,拉近人與人、人與物之間的距離,帶給用戶沉浸、互動的感受。
2017年,中興通訊推出端到端的VR直播解決方案,并成功應用于南藝520直播。
1.2 VR的挑戰
(1)帶寬挑戰。運營商開展VR視頻業務之后,對帶寬的需求約為300 Mbit/s~1.2 Gbit/s,最高可能將會超過1 Gbit/s,因此千兆帶寬及至5G網絡將會給用戶帶來更佳服務體驗,內容分發網絡(CDN)也將為運營商節約更多帶寬消耗。
(2)時延和丟包挑戰。VR要求運動到圖像的最大時延在20 ms,運動到聲音的最大時延在20 ms,并要求音視頻保持同步。
(3)完美拼接。通常需要在一組攝像機設備上進行采集,然后再進行拼接處理,將來自不同攝像機的視圖合并到一個視圖中。為保障完美的VR體驗,不應引入任何拼接錯誤,不應看到任何拼接線。
1.3 VR的演進過程
動態圖像專家組(MPEG)、第3代合作伙伴項目(3GPP)、數字音視頻編解碼技術標準(AVS)、中國通信標準化協會(CCSA)等多個全球標準組織正在積極推進和制訂VR相關標準。其中,MPEG國際標準組在2015年10月啟動全向媒體應用格式(OMAF)項目,主要針對360視頻以及對應的音頻,研究相應的文件封裝格式,以及在基于HTTP的動態自適應流(DASH)方式下的傳輸,同時還包括編碼的配置、視點的投射等。MPEG OMAF之后,MPEG標準組織認為有必要成立MPEG-I,并包含OMAF。MPEG-I標準的工作時間軸如圖1所示。
MPEG-I的標準制定,又分為3個階段[1]:階段1a、階段1b、階段2,具體如表1所示。
階段1a(3自由度):在特定觀察位置,當頭部左右旋轉、俯仰旋轉、搖擺旋轉時,VR頭顯能正確顯示相應VR內容,需要VR內容、VR采集和VR顯示設備的支持。
階段2(全向6自由度):在特定觀察位置,當頭部左右旋轉、俯仰旋轉、搖擺旋轉,以及一定范圍內向前后、左右、上下3個方向平移時,VR頭顯能正確顯示相應VR內容,需要VR內容、VR采集和VR顯示設備的支持。
階段2(6自由度):典型的使用案例是用戶自由穿過頭戴式顯示器(HMD)上顯示的3D 360 VR內容(物理地或通過專用的用戶輸入裝置)。
1.4 VR端到端架構
3GPP定義的VR視頻架構[2]由采集、球面拼接(可選)、投影(可選)、封包(可選)、編碼、封裝、傳輸、解封裝、解碼、渲染、顯示各環節組成,如圖2所示。
各細分環節的詳細描述,參見如下各章節。
1.4.1 采集
取決于采集系統的功能,VR內容以不同的格式表示,例如:全景圖或球體。許多系統采集覆蓋整個360°×180°球體的球形視頻。通常需要配置多個相機來采集這樣的內容。配置的各種相機可用于記錄2D和3D內容。采集環節可以使用立體相機組、魚眼、廣角鏡頭、相機陣列、光場相機陣列,產生立體效果或光場渲染效果的VR內容。
(1)立體效果
(a)分片立體效果:立體相機組采集3D內容,并以相對較小的重疊排列成星形配置;但這樣的照相機系統一方面可能會有視差錯誤,另一方面基于鏡像的系統可以使用減少視差錯誤的相機組采集3D圖像。
(b)極度重疊的立體效果:立體內容由魚眼或廣角鏡頭、相機陣列采集的重疊圖像創建。在處理過程中,每個圖像傳感器分成左右2部分,并拼接成左右全景圖。
(2)光場渲染
(a)基于深度的光場渲染:是創建3D內容的有前途的方法;但是,光場渲染需要密集的相機陣列。
(b)使用基于深度的渲染來生成中間相機視圖:這是現有方法,可以減少所需相機的數量;但該方法需要非常精確的深度圖和復雜的基于深度的處理流程,增加了所需算力。
1.4.2 球面拼接
球面拼接分為3種:基于鏡像的系統直接拼接、深度感知的拼接(分片立體效果,極度重疊的立體效果)、深度使能的光場渲染。
1.4.3 投影
最常用的VR投影方法包括2種:經緯度展開投影(ERP)、立方體投影(CMP)。
(1)ERP:水平、垂直坐標分別對應經度、緯度,不變換、不縮放。該方法的特點是:赤道上的像素拉伸最小(或一點都沒有拉伸),而越向兩極拉伸越嚴重,因此失真越嚴重。這就產生了大量冗余信息,不適合使用高效視頻編碼(HEVC即H.265)對其進行壓縮。
(2)CMP:將球面全景圖像映射到了立方體的6個面上,中間的4個面為前后左右的圖像,上下3個面為頂部和底部的圖像,每個面都有90°×90°的視野(FOV)。在立方體投影中,直線保持筆直,便于對圖像進行處理,相比于圓柱映射,失真要小很多。好處在于:減少了兩極的冗余,減少了數據量;立方體投影中直線保持筆直,沒有發生彎曲失真(這對于視頻編碼來說十分重要,因為運動矢量是直線);立方體投影對像素進行了分配,兩極和側面都是一樣的;立方體投影的映射更加簡單,只要將每一個面貼到對應的立方體面上即可。
投影方法除了以上這2種以外,根據用于渲染的幾何類型,還有一些其他投影類型,如:球、壓扁的球、圓柱體、柏拉圖固體(正多面體)、立方體(6面)、八面體(8面)、二十面體(20面)、截斷的金字塔、分段球體、直接魚眼(用于視頻監測控制等)。
1.4.4 區域映射(封裝)
在投影之后,所獲得的二維矩形圖像可被分割成可重新排列以產生“封裝”幀的區域。從投影幀產生封裝幀的操作(表示為“封裝”或“區域映射”)可能包括平移、縮放、旋轉、填充、仿射變換等。執行區域映射的原因包括:提高編碼效率或依賴視點的流管理(詳見多流方法)。
區域映射是可選過程,如果未使用區域映射,則封裝的VR幀與投影幀相同。
1.4.5 編碼&解碼
目前的360視頻服務提供了非常有限的用戶體驗,因為用戶視點的分辨率、視覺質量與傳統視頻服務差不多。需要多倍于現有超高清(UHD)分辨率的分辨率,才能以足夠清晰的分辨率覆蓋完整的360°環境。這對現有已建立的視頻處理流程鏈、現有的終端設備都構成了重大挑戰。360視頻傳輸主要考慮3種解決方案:單流方式、多流方式、分片式流方法。
1.4.6 文件/DASH封裝/解封裝
如果DASH用于傳送360視頻,則可能需要額外的信令,例如:投影和映射格式可能需要在媒體呈現描述(MPD)信令上體現,以便用戶可以請求合適的不同碼率、不同碼率的碼流,然后根據考慮的解決方案類型(單流、多流、分片式流)執行不同的文件/DASH封裝。
接收器可以根據當前的視點位置、設備能力(例如:視頻解碼器能力),選擇僅解封裝所接收的視頻流的子集。
2 VR行業應用
為解決用戶體驗、VR成本等問題,Cloud VR通過云端渲染為VR發展提供更佳的解決方案。
Cloud VR場景[3]發展分為近、中、遠期3個階段,Cloud VR巨幕影院、Cloud VR直播、Cloud VR 360視頻、Cloud VR游戲4個場景處于近期階段;Cloud VR教育、醫療、營銷、大空間競技、健身、音樂、K歌場景處于中期階段;Cloud VR旅游、社交、購物、軍事、工程、房地產等場景處于遠期階段。十七大場景的商業潛力空間巨大,但離不開運營商的牽頭。電信運營商具備規模發展Cloud VR業務的必需條件,通過大管道、平臺基礎、用戶、接入光纖資源等優勢吸引優質的VR服務提供商、終端廠商、內容商等加入生態鏈,不僅可以贏得VR行業浪潮的商業先機,還可以帶動整個VR產業的發展。運營商可以先發展Cloud VR 2C市場,再聚合行業應用,擴展到2B市場。
3 中興通訊VR技術創新
3.1 低碼高清技術創新
中興通訊創新地提出低碼高清、低碼超高清技術,對H.264和H.265核心算法提出了5個方面的改進,在保證主觀質量的情況下編碼碼率降為原來的40%左右,為高清和4K超高清視頻業務的發展掃清了接入帶寬方面的障礙,具體包括:
·提出幀級碼率控制方法,有效控制瞬時碼率過高;
·提出基于宏塊距離的空間濾波方法,提高圖像質量;
·提出恰可察覺失真(JND)和人類視覺的感興趣區域(ROI)相結合的分級量化編碼方法,對在相同或降低碼率的情況下,大幅提升視頻編碼的主觀質量;
·提出色度分量策略性編碼方法,有效提升視頻壓縮效率,且視頻主觀質量不會有明顯下降;
·提出非ROI宏塊采用變換域JND進行預測殘差自適應調整編碼方法,從而既保證了編碼的主觀質量,又降低了編碼碼率。
低碼高清、低碼超高清算法是一種復雜的綜合算法,經過不同片源的綜合評測,成為有效的圖像算法,既可以應用在H.264的框架下,也可以融合在H.265編碼標準下。
3.2 基于視點FOV自適應傳輸技術
創新
中興通訊融合CDN支持基于視點FOV自適應傳輸技術。
該技術的原理為:人眼視野范圍內不同區域的敏感度不同,35°范圍外不敏感;而FOV顯示模式可以針對不同區域給予不同分辨率的圖像。當視點發生變動時及時切換到對應的內容頻道。
中興通訊融合CDN能支持對各種自適應碼率格式,擴展偏航角、俯仰角、主視場的水平視角,主視場的垂直視角等信息,根據用戶頭部運動,傳輸用戶感興趣的、基于視點的內容,有效降低帶寬,縮短時延。
3.3 多場景的VR視頻播放技術創新
(1)機頂盒+頭盔
機頂盒作為計算中心,提供圖形計算、渲染等能力;頭顯提供VR呈現,具備九軸傳感器,提供位置等信息給機頂盒;機頂盒和頭顯之間通過高清晰多媒體接口線(HDMI)和USB連接,HDMI傳輸VR視頻,USB傳輸傳感器信號。
(2)手機+頭盔
手機作為計算中心,提供圖形計算、渲染等能力;手機屏幕提供VR呈現,提供位置、角度等信息給手機;通過VR眼鏡的自帶觸控板或遙控器,便捷用戶操作。中興通訊提供VR頁面、VR EPG能力、VR播放器能力支持VR點播業務。
(3)裸眼收看VR業務
手機作為計算中心,提供圖形計算、渲染等能力;手機屏幕提供VR呈現,提供位置、角度等信息給手機;通過VR眼鏡的自帶的觸控板或遙控器,便捷用戶操作。
4 結束語
VR的發展過程是視頻領域的一個技術創新的過程,中興通訊創新地提出端到端的VR架構理念,形成了FOV視點自適應傳輸、低碼高清、VR EPG、VR機頂盒、VR播放器等一批新技術并成功應用在VR系統中,從而推動VR的全面發展。
參考文獻
[1] MPEG.MPEG-I Part 1 Technical Report on Architectures for Immersive Media[S].2017
[2] 3GPP.Virtual Reality (VR) Media Services over 3GPP: 3GPP TR26.918[S].2018
[3] 中國信息通信研究院. “Cloud VR+”場景白皮書[R].2018