周耀平
(中廣電廣播電影電視設計研究院音視頻設計研究所,北京 100045)
沉浸式視頻通過視頻、音頻及特效等終端系統,構建具備大視角、高畫質、三維聲特性,具備畫面包圍感和沉浸式聲音主觀感受特征的視聽環境,使觀眾能夠在所處位置同時獲得周圍多方位的視聽信息,讓觀眾體驗到單一平面視頻無法實現的高度沉浸感。其呈現形式包括球幕、環幕、沉浸屋CAVE等異形顯示空間,該技術已在文旅、虛擬仿真、展陳、科技場館等多個領域逐漸得到應用。隨著超高清4K/8K 技術日趨成熟和不斷發展,沉浸式視頻也進入了一個新階段:層次更豐富、細節更精致。
2020年9月,國家廣播電視總局頒布 《5G 高新視頻-沉浸式視頻技術白皮書2020》,該白皮書對沉浸式視頻分辨率提出如下建議:以水平視角為180°的球幕為例,若要達到精確辨別的需求,分辨率對應的像素數為7200,一般以8K 標稱;若要達到模糊辨別的需求,分辨率對應的像素數為3600,一般以4K 標稱。
本文基于人眼特性、設備及視場角技術,通過對分辨率的主要影響因素進行分析,探討沉浸式視頻分辨率指標的確定原則。
人眼是個復雜的系統,若僅描述物轉換為像的過程,人眼可簡化為一個光學器件 (晶體)加一個成像面(視網膜),人眼分辨能力取決于兩個因素,一是視網膜上視桿細胞的間距,二是晶體前面瞳孔的直徑,兩者共同作用,構成人眼的分辨能力,下面對已有研究進行簡述。
首先,視網膜結構中對人眼分辨能力起決定性作用的是視桿細胞,人眼單眼視網膜上共約有1.1~1.3億個視桿細胞,平均直徑約2.5μm。要想實現對細節的分辨,必須保證反映物體細節差異的2個光子分別落在2個視桿細胞上,才能形成兩個不同的刺激,即分辨。
其次,人眼晶體可簡化為凸透鏡,具有衍射特性,解像力遵循瑞利判據——即當一個成像愛里斑的中心與另一個成像愛里斑的第一級暗環重合時,剛好能分辨出是兩個像。人眼晶體前的瞳孔直徑為2~8mm,在最小直徑2mm 時具備最高解像力。


圖1 簡化眼成像及視敏角示意圖
通過對人眼分辨能力的分析得出:分辨能力由視網膜視桿細胞分布和瞳孔直徑決定,其中瞳孔直徑是滿足人眼最高分辨能力所需的光學條件。與分辨率指標形成直接關系的是視網膜視桿細胞分布,即分辨率由成像面數據決定。
從認知角度,人觀看畫面首先關注的是其完整性,其次才是細節。前述人眼分辨能力只能說明人眼對局部細節的辨析能力,而分辨率的概念是針對畫面“全貌”的,為此還需要另一個條件的支撐——視覺范圍(FOV),醫學稱為視野,顯示技術上稱為視場,均以角度表示。研究表明,人眼雙眼水平視角約為160°~170°,垂直視角約為110°~120°,且呈不規則形,雙眼視野重合區可簡化成寬高比約為1.33∶1的長方形(單眼視角簡單疊加區的寬高比約為1.8∶1),如圖2所示。

圖2 人雙眼視角示意圖
人眼的視場角內還具有認知方面的以下特性:分辨視角 (15°~30°)——分辨細節;有效視角(30°~60°)——看見全貌;誘導視角 (60°以外)——余光、環境感 (以上量值均為雙眼水平視角)。雖然視角范圍內的視桿細胞分布不均勻,但視網膜形成的“影像”傳遞到大腦后仍然被認知為完整且連續的。
人眼視網膜上視桿細胞的物理分布呈現如下特性:在偏離中央凹6mm (單眼視角20°)附近分布密度最高,然后分布密度逐漸下降,邊沿處只有中心密度的1/3,筆者將視場角和視桿細胞分布密度關系用圖3進行直觀表示。

圖3 人眼視場角和視桿細胞分布密度關系示意圖
根據以上人眼分辨能力及視場角的特性,人的雙眼在15°水平視角范圍內的細節分辨量=FOV/θ=15°/1′=900,垂直方向上為675,可見,在分辨能力一定的情況下,分辨量由視場角決定。在顯示技術應用中,為更直觀表達分辨率和視場角之間的關系,將視場角由觀看距離和屏幕寬高來表達,分辨能力由像素間距來表達,由此產生基于顯示寬度和高度的像素量——分辨率,這就是分辨率概念的理論基礎。如圖4 所示,圖中d為像素間距,θ為視敏角,φ為觀看距離L 和屏幕高度D 之間形成的垂直視場角。

圖4 像素間距、屏幕尺寸和觀看距離與分辨率關系示意
以上基于人眼視場角分辨率的特性,為呈現端分辨率的確定提供了基礎依據。
對于投射型呈現設備,其分辨率和解像力包括:顯示器件分辨率、光學部件解像力、呈現介質解像力這3項指標,典型代表為投影機+投影幕;對于自發光式顯示設備,顯示器件分辨率即為其分辨率,典型代表為LED 顯示屏、液晶顯示屏 (LCD)、等離子顯示屏。
下面對顯示器件分辨率、光學部件解像力、呈現介質解像力以及節目內容的分辨率分別加以介紹。
第一,顯示器件的分辨率。數字化時代,任何節目內容都需要經過顯示器件的視頻信號“轉換”,形成人眼可見的光學影像。通常在投影機中采用的顯示器件為DMD,自發光式顯示設備中采用的顯示器件為LED 或液晶(LCD)或等離子。
顯示器件上的微小原件的分布數量被稱為分辨率,與拍攝設備成像器件稱為××萬像素不同,顯示設備分辨率一般以水平方向的原件數量 (像素)來表述,如:720、1280、1440、1920……。近些年各行業詞匯不斷交叉滲透,出現2K、4K、8K……等略語,這些略語也成為顯示器件分辨率指標的表述方式。
此外,顯示設備常見的PPI指標是標示在器件層面表達的單位尺寸上的像素分布情況,是設備分辨率的基礎,但非整機分辨率概念,本文不作介紹。
第二,光學部件的解像力。非直顯式視頻呈現設備和所有拍攝設備均需通過光學鏡頭來投射影像,在同等圖像單元和同等圖像處理能力情況下,鏡頭的解像力是影響最終呈現端圖像清晰度的重要因素。通常,鏡頭解像力(又稱解析力),表述為lp/mm,即每毫米內的線對數量。可見,鏡頭解像力是基于光學層面的清晰度概念,而前述視頻分辨率是基于信號和電子處理設備層面的概念,有技術分析文章通過物理光學的瑞利判據來推導視頻分辨率,顯然是錯誤的。
第三,呈現介質的解像力。投射顯示方式的視頻設備最后呈現影像的是介質,介質材料的顆粒度、材質微觀分布、光線散射性等因素也是影響最終呈現端圖像清晰度的重要因素,通常,呈現介質的解像力(也稱解析力),表述為lp/mm,即每毫米內的線對數量。
如同前文中人眼瞳孔直徑是影響人眼分辨能力一樣,呈現設備介質解像力和光學部件解像力均屬于光學層面的概念,雖然是最終圖像清晰度的影響因素,但不屬于視頻分辨率范疇,本文不作深入介紹。
第四,節目內容的分辨率。數字節目內容的像素分布情況也稱為分辨率,與顯示設備一樣,通常以水平方向的像素來表述,如:720、1280、1440、1920…,隨著顯示和攝制技術的發展,近些年也出現2K、4K、8K…等略語。在不考慮光學器件及呈現介質因素情況下,要想忠實還原節目內容的分辨率,顯示設備的分辨率指標應大于等于節目內容的分辨率,否則節目內容中有用信息會被顯示端“丟棄”。
小結:在顯示技術方面,人眼分辨率、設備分辨率、設備光學部件解像力、呈現介質解像力、節目內容分辨率具有相關性但概念不同,可用圖5進行直觀表示。

圖5 顯示技術中不同的分辨率與解像力概念
無論是從觀眾對顯示品質的主觀需求還是從視頻行業技術發展的趨勢來看,分辨率指標一直是視頻技術的第一要素。從模擬到數字,從標清到高清到超高清,從576 到720 到1280 到1920 到2K 到4K、8K,分辨率一直是消費者、專業技術、廠家不斷談論和追求的視頻領域技術話題,現今各種2K、4K 分辨率的內容及顯示端呈現出來的品質已使觀眾得到了耳目一新的體驗。分辨率的提升對顯示質量起到至關重要的作用。
盡管如此,由于人眼分辨能力是存在先天極限的,分辨率達到一定量值后,繼續提升分辨率對提高觀眾畫面質量的感受作用就會越來越不明顯。要想提高顯示質量,就必須從色彩、對比度、幀率、視場角等多個維度進行改進,其中視場角的改進就是沉浸式視頻在傳統視頻觀感效果上的技術迭代。
傳統視頻的觀看模式基本上是基于15°~30°視場角,即:專注方式地“看”內容,畫面內容主要分布在人眼的分辨視角范圍內,典型場景是標清、高清電視及電腦顯示器的觀看。按前述人眼視敏角量值,傳統視頻的分辨率定義在960~2K 區間,節目內容和顯示終端也是按此原則進行指標約定。而電影為了讓觀眾更加投入劇情,除了在環境和音效方面的要求高外,其視場角是明顯大于傳統視頻的。所以在傳統視頻盛行時期,電影和電視的界限涇渭分明:看電視,畫面只占據視野小部分區域,視野的其他部分可能是家具、物品等;看電影,畫面占據視野大部分區域,場景感強,尤其是環幕、球幕、巨幕等特種電影,場景感更強,所以即便當初電影還未升級到數字4K 的時候,2K 分辨率的電影也比2K 電視的畫面感受要好,這也充分證明了人眼在追求分辨率到一定階段后,需要更強的畫面“包裹感”,這就為沉浸式視頻的出現奠定了基礎。
沉浸式視頻是在VR、特種電影、顯示技術等多種因素發展成熟后,誕生出的一種新興視頻模式,其與傳統視頻的重要區別之一是:畫面覆蓋形成約120°的視場角。原理是:在保持人眼或頭部不轉動的情況下,畫面盡量覆蓋人的視野,以形成觀看安全的高度畫面包圍感,即“沉浸式”,此命名借鑒了人體主觀感受的表達。120°視場角的確定是基于人眼生理特性:顳側和鼻側視桿細胞分布的不對稱性,及顳側在視軸60°以外視桿細胞迅速減少,視野范圍消失。所以取視軸顳側和鼻側雙側對稱60°共120°作為沉浸式視頻的綜合視場角,如圖6所示。

圖6 人眼單眼視場角與視覺細胞分布示意
但沉浸式視頻的分辨率指標應該怎么確定呢?筆者2020年參加的某課題曾做過一個約800人的群體調查問卷,其中關于沉浸式視頻畫面分辨率方面,約24.5%的受訪者認為應達到4K 的指標,約51.5%的受訪者認為分辨率越高越好。可見,觀眾對沉浸式視頻的分辨率指標還是希望選“高”的。
以人眼1.1~1.3億個視桿細胞在水平方向上的簡化的分布數據指標12000~13000個計算,沉浸式視頻提供的120°視場角內畫面,已經對約70%的視桿細胞形成刺激 (考慮到視網膜上視桿細胞的非平均分布特性),可以說,沉浸式視頻在超大且安全的視場角指標方面為觀眾提供了以往視頻模式及常規商業電影所不具有的“沉浸感”,同時,基于120°視場角下的8K 分辨率已經達到人眼極限。
因此,按上文沉浸式視頻的綜合視場角約定,120°水平視角情況下人眼的細節分辨量=FOV/θ=120°/1′=7200,以畫面像素與人眼細胞感應點對點對應,則畫面像素數為7200 (標稱8K),這就是沉浸式視頻的分辨率確定依據。
綜上,沉浸式視頻分辨率的理論基礎是人眼的視敏角特性,確定依據是其視場角,可以歸納為:視場角決定視頻的最高分辨率指標。目前,沉浸式視頻在視場角和分辨率指標方面已趨于達到人眼感知極限,因此未來的視頻技術發展和應用一定會在色彩、對比度、幀率等方面形成新的技術迭代和模式。?