徐火順 葉劍章 尹海生
1 VR直播業務簡介
虛擬現實(VR)是一種“互動式的計算機模擬環境, 能感知用戶的狀態和行為, 替換或者加強對一種或多種感知系統的感官反饋信息, 從而使用戶獲得一種沉浸在模擬環境虛擬環境中的感覺”。虛擬現實技術的特點是沉浸性高, 當用戶處于虛擬環境時,如身臨其境。用戶轉變角度時, 虛擬環境也會作出相應的改變[1]。
普通視頻直播中受眾往往只能從某一角度觀看直播, 而不能全方位地了解主播周圍環境的狀況;而虛擬現實技術滿足了這個需求, 使受眾能從各個角度觀看直播,增強了用戶體驗,參與感也大大增強。因此, 虛擬現實與視頻直播兩者相互契合,可以給受眾營造更好的觀看效果[2-3]。
現階段的VR直播主要是指360°全景直播,利用多路攝像機將視頻信號拼接為360°全景視頻,解決傳統直播受眾受鏡頭推移、視線角度的限制不能獲得最佳視覺體驗的問題。用戶可以通過機頂盒(STB)、VR眼鏡等設備進行觀看直播,體驗沉浸感和現場感[4-5]。
VR直播,通過全景攝像機進行視頻的實時采集,并對視頻進行拼接、編碼,通過內容分發網絡進行傳輸,最終在終端上進行視頻的解碼播放。其中用到了多項視頻處理的技術,和普通直播視頻的要求有著很大不同。VR直播業務主要流程如圖1所示。
VR直播可以通過多種方式呈現給最終用戶,在家中可以通過家庭網關,利用機頂盒顯示在電視上VR視頻內容,電視上顯示的全景視頻需要用遙控器控制轉動;也可以使用機頂盒通過高清晰度多媒體接口(HDMI)和USB線連接到頭戴式顯示器(HMD),頭部轉動可以顯示所面向方向的視頻內容,顯示的內容隨著用戶頭部的轉動而轉換顯示內容;另外也可以使用手機+VR眼鏡的方式,手機可以通過Wi-Fi或移動網絡獲取VR全景視頻,顯示效果與HMD的方式類似。VR直播用戶使用場景如圖2所示。
用戶不僅可以觀看直播內容,也可以通過同樣的方法觀看VR視頻點播,VR直播也可以通過回放的方式播放。
2 VR直播業務中的相關
技術
2.1 視頻圖像同步技術
與普通直播視頻拍攝不同,VR直播視頻的采集需要多鏡頭或攝像機同時完成。VR直播視頻拍攝設備的取景范圍為水平360°、垂直180°,如圖3所示。
全景攝像機需要配置好參數,在拍攝過程中,還需要解決多相機的采集同步的問題。常見的同步方式有:閃光同步,即檢測所有相機視頻幀內的“閃光”,如明亮幀、白色幀,利用這個信號進行同步;運動同步,即檢測所有相機視頻幀內的運動信息,通過匹配各幀運動量進行同步;聲音同步,即分析所有相機采集到的聲音頻譜進行同步;手動同步,即根據某一個時刻的所有相機采集的視頻幀手動進行微調。
2.2 投影變換技術
多相機拍攝的圖像是在不同方向下拍攝得到的,所以并不在同一投影平面上,在對重疊的圖像進行無縫拼接前,如果不進行投影平面的變換,直接拼接會破壞實際景物的視覺一致性。投影變換的方式一般有平面投影、柱面投影、球面投影和魚眼投影等[6-7]。
2.3 視頻縫合技術
完成投影變換后進行拼接,拼接過程主要有特征提取—特征匹配—配準—融合等步驟[8]。常用的特征提取方法有尺度不變特征變換(SIFT)、加速穩健特征(SURF)、定向快速特征點提取算法(ORB)、二值化描述算法(BRIEF)等 [9-10] 。特征點匹配可以采用SIFT的作者Lowe提出的比較最近鄰距離與次近鄰距離的SIFT匹配方式,或者KD-Tree算法等。為了將圖像注冊到同一個坐標系中,需要在多幅圖像配準的過程中根據幾何運動模型來配準,采用的幾何運動模型主要有:平移模型、相似性模型、仿射模型和透視模型等。
完成圖像配準后,便可以進行圖像融合操作,即形成了360°全景圖像。圖像匹配拼接如圖4所示。
2.4 圖像增強技術
由于不同角度的畫面是通過不同的相機采集得到,融合后的360°全景圖像會遇到各個區域的曝光不一致的情況,通過曝光補償的技術可以使得拼接后的全景圖像曝光一致。
此外,當場景中的物體存在運動的情形時,融合后的全景圖像中會出現“鬼影”的情況。區域差分(ROD)算法都能夠消除這種“鬼影”[11-12]。
2.5 投影映射及編碼技術
輸入圖像經過拼接后投影到一個三維投影結構上,例如一個單位球體或者正六面方體。投影結構上的圖像數據將被進一步地排布到一個二維平面的投影幀。等角投影(ERP)是目前VR視頻主流格式。
ERP投影類似于地球球面展開成地圖,將球面展開為平面矩形,所以也被稱為經緯圖展開。這種方式簡單并已經普遍使用,但其缺點也是明顯的:球面赤道部分投影展開后失真小,而兩極部分緯度越高,失真越大。同時引入了過多的無效像素,球面展開成ERP后,面積即像素數增加了57%,從而降低了傳輸效率。
正多面體投影(PSP)是業界關注的新方向,具有失真小、壓縮效率高的特點。正多面體投影將球體以球心為中心向外劃分為多個球面區域,并投影到多面體某個面上,正多面體可以是四面體、立方體、金字塔、 十二面體、二十面體等。由于每個球面區域單獨投影,因此失真較小。對于面數多的方案,其總面積增加也較小。同時,正多面體投影格式有利于實現基于視點VR視頻傳輸方案,傳輸部分“面”的視頻圖像,或者對于不同“面”提供不同的分辨率。
對于單目虛擬現實視頻,同一時刻的輸入圖像拼接后生成一個投影幀,用來代表一個視場。對于雙目立體虛擬現實視頻,同一時刻的輸入圖像拼接后生成的一個投影幀代表兩個視場:左眼和右眼。兩個視場可以映射到相同的封裝幀,并基于傳統2D視頻編碼器進行編碼,或者投影數據幀的不同視場可以被映射到各自的封裝幀。
2.6 內容分發網絡endprint
內容分發網絡(CDN)的基本思路是盡可能避開互聯網上有可能影響數據傳輸速度和穩定性的瓶頸和環節,使內容傳輸更快、更穩定。通過在網絡各處放置節點服務器所構成的在現有的互聯網基礎之上的一層智能虛擬網絡,CDN系統能夠實時地根據網絡流量和各節點的連接、負載狀況以及到用戶的距離和響應時間等綜合信息將用戶的請求重新導向離用戶最近的服務節點上。
VR直播業務使用的是全景視屏,現階段大部分采用的是全傳輸的方案,帶寬占用較大,考慮到終端的解碼能力,一般使用展開面積為2~4 K的分辨率,碼率一般可以設置在10 Mbit/s以內的HEVC編碼方式。
3 中興通訊大視頻VR業務
的實現
3.1 VR直播視頻實時采集編碼系統
中興通訊大視頻VR全景視頻采集系統,通過組合4個4 K單反照相機,每個單反配有魚眼鏡頭,通過HDMI將視頻內容傳輸到視頻編碼服務器中,在服務器上實現視頻的投影變換、視頻拼接等操作。視頻內容會編碼為多碼率格式,傳輸到遠端CDN節點一份,并本地保存一份。
4個4 K單反相機進行視頻錄制充分保證了視頻的清晰度,畫面的表現力非常強,在暗光下效果很好,視頻拼接后可以拼接出最大12 K分辨率,一般直播使用4 K分辨率。
3.2 VR直播無法看清細節問題的解決
為了解決VR 360°全景視頻無法看清人臉的問題,中興大視頻項目組在直播中采用了全景視頻拼接方法,增加主要演講人員的高清視頻,使用戶在觀看整體直播時可以在需要時適當轉頭朝向旁邊可以看到宣講人員的大畫面展示,視頻拼接的效果很好地解決了用戶既想觀看全景視頻,又想看清演講者細節的問題。
3.3 支持VR直播業務的大視頻業務
平臺
中興通訊大視頻業務系統是一個開放的、先進的、標準的系統,能為全球的客戶提供滿意的個性化需求及服務。該系統支持網路協定電視(IPTV)&互聯網應用服務(OTT)基礎視頻業務,包括:直播電視、視頻點播(VOD)、直播回看(TVOD)、時移電視(TSTV)等;支持廣告、卡拉OK、游戲、早教等增值業務;支持多屏互動體驗,包括:TV屏、PC屏、手機屏和PAD屏。實現多屏內容、用戶、產品的統一管理,用戶可以在任何時間、任何地點,通過任何設備訪問IPTV和OTT業務。
在大視頻業務系統基礎上,新增加的VR子系統使大視頻業務系統增加了VR業務的能力,包括VR直播、VR VOD、VR TVOD。
3.4 支持VR直播視頻的內容分發網絡
中興通訊大視頻融合CDN廣泛應用于各類場景需求,以全球運營商視頻服務為基礎,還為TV游戲、電子閱讀、應用商店、互聯網內容提供商(IDC)業務、大文件/小文件緩存加速、終端管理和云盤等各種業務提供內容分發服務。
在視頻加速方面,中興大視頻融合CDN系統集實時流傳輸協議(RTSP)和HTTP視頻碼流傳輸技術的兩家之長,創造性地提出了OTT組播解決方案。不僅能對公眾用戶提供OTT直播大規模商用解決方案,也可用同一套系統對集團、政企等優質用戶提供有保障的RTSP高服務質量(QoS)解決方案。
中興通訊大視頻融合CDN系統無縫集成了VR直播能力,采用分布式文件系統(DFS)實現文件更細分的內容分片聚合,充分保證VR直播業務中巨型分片文件細小化、媒體分發的大帶寬和低延遲的產品需求。主動的安全防護,有效地提升了融合CDN產品的安全性,并從系統的主機、網絡、應用3個層面對系統進行防護,把安全檢查變成系統自身、例行的工作,及時發現系統隱藏的隱患;提高系統的安全性,同時根據黑客攻擊模型,變被動(事后處理)為主動(防預),做到事前、事中發現,及時處理;降低安全事件的危害。
3.5 大視頻全流程質量監測控制系統
中興通訊大視頻智能運維系統,支持IPTV、OTT、VR直播等多種視頻直播業務,能實現從頭端—業務系統—網絡側—用戶終端側的服務質量監測控制與故障定位,如圖5所示。
支持VR直播源服務質量的監測控制, 大視頻智能運維系統在VR直播攝像頭入向的頻道部署監測點,用于檢測頭端的編碼質量以及網絡QoS。
(1)支持CDN節點及業務系統質量監測控制。在VR直播CDN節點及系統側,按需部署碼流監測點,檢測OTT平臺本身媒體出口以及相關網絡性能指標。監測點探針支持不同的廠家、平臺以及不同廠家的終端設備,幫助運維人員第一時間發現內容源或者平臺的故障。
(2)支持網絡側服務質量監測控制。大視頻智能運維系統具備專家系統與推理機功能,通過與運營商的IT系統接口同步網絡拓撲數據,結合先進的知識庫與推理機。當用戶出現服務質量異常時,可迅速定位存在的網絡故障,支持全網VR直播用戶的網絡側故障監測與定位。
4 結束語
中興通訊已經在多次商用場景下進行了VR直播,在這一領域已經積累了豐富的應用經驗。目前,基于IPTV/OTT大視頻系統的VR直播解決方案已經步入商用階段,應用場景非常廣泛,適用于如VR娛樂直播、VR教育直播、VR醫療直播、VR購物直播、VR網紅直播等,為用戶帶來革命性的直播視頻體驗。
VR直播業務的背后,是中興通訊在大視頻領域的深厚沉淀。截至2016年底,中興通訊大視頻方案在全球擁有90多個商用局,系統容量達到8 000萬,CDN產品全球局點超過100個,總并發能力超過100 T,位居全球領先地位。中興通訊提出大視頻3.0的概念,讓系統更加智能、更加彈性,助力大視頻發展邁向新高度。
致謝
本研究得到中興通訊大視頻實驗室左羅總工和黃珂資深工程師,以及大視頻客戶端研發產品涂成義經理的幫助,謹致謝意!
參考文獻
[1] 陳靜, 黃慧. 虛擬現實技術在視頻直播中的應用分析[J]. 新聞研究導刊, 2016,7(18):8-9
[2] 王躍華. 虛擬現實視頻的制作和應用場景分析[J]. 視聽, 2016(7): 11-12
[3] 楊磊. 基于虛擬現實頭戴式顯示器用戶體驗研究——以攝像機運動模式為例[J].科技資訊, 2017,15(1):1-2
[4] 夏明革,唐小明,夏仕昌.圖像融合的發展現狀與展望[J].艦船電子工程,2002,(6):2-12
[5] 楊愷. 智能手機HMD高沉浸感體驗的研究與實現[D].北京:北京工業大學, 2017
[6] BOURKE P. Converting Dual Fisheye Images into a Spherical (Equirectangular) Projection[EB/OL].(2016-08)[2017-10-23].http://paulbourke.net/dome/dualfish2sphere/
[7] BOURKE P. Classification of 3D to 2D Projections[EB/OL].(1994-12)[2017-10-23].http://paulbourke.net/geometry/transformationprojection/
[8] 張洋, 李慶忠, 臧風妮.一種多攝像機全景視頻圖像快速拼接算法[J]. 光電子.激光, 2012(9):1821-1826
[9] 林枝葉. 面向全景視頻拼接的圖像融合算法及其GPU實現[D]. 成都:電子科技大學, 2017
[10] 胥陳. SIFT算法的圖像特征處理模塊的芯片設計研究[D]. 南京:東南大學, 2016
[11] 宋振興. 圖像拼接融合技術中去鬼影及裂縫方法研究[D].大連:大連海事大學, 2011
[12] 袁晨鴻. 快速創建全景視頻及去鬼影方法的研究與實現[D]. 哈爾濱:哈爾濱工業大學, 2013endprint