梁 麗,褚晶輝,張小佩,李英敏
(天津大學電視與圖像信息研究所,天津300072)
隨著科技進步和人們對生活品質的不斷追求,3D電影已一步步走進我們的生活。與傳統二維影視的無深度和臨場感的顯示技術不同,3D電影給觀眾帶來身臨其境的逼真感覺和無與倫比的立體觀賞效果。
3D電影的盛行迫切需求3D字幕技術的革新。目前的3D電影往往將字幕直接放置在立體圖像的最前面,字幕自始至終浮現在銀幕前,并沒有考慮立體圖像內容的景深變化,觀眾很難同時看到字幕和內容,眼睛會感到累甚至頭昏眼花,沒有解決視覺疲勞問題。立體圖像強烈的縱深感,是疊加3D字幕時必須考慮的因素。針對上述問題,文獻[1]提出了3D字幕與立體圖像內容自適應的解決方案,將三維圖像做垂直樣本線投影將其簡化為一個抽象圖像對,計算代理深度以確定一個字幕元素的渲染屬性。此方法極大的加快了深度的計算,具有實時性,但由于丟失了大量信息而不可避免地降低可靠性。本文經過實驗,提出了3D字幕視差與立體圖像景深的對應關系,基于立體視覺的雙目視差原理疊加3D字幕,一定程度上緩解了觀看時的視覺疲勞問題,可實現更好的觀看效果。
人類的立體視覺由心理立體視覺與生理立體視覺組成[2]。雙眼視差[3]是人眼最強烈的生理立體視覺因素。Julesz利用隨機點圖已經證明,在排除一切心理立體視覺之后,一組完全無異議的視覺刺激,只要具備視差條件,就能經雙眼產生深度上的感覺[4]。雙目視差反映了客觀景物的深度信息。具有視差的雙眼視圖經視覺皮層融合,產生立體感。若能為左右眼提供同一場景的立體圖像對,并采用光學或其他技術措施,使觀看者的左右眼分別只能看見對應的左右眼視圖,則觀看者就能感知到立體圖像。在影響生理立體視覺與心理立體視覺的諸多因素中,與立體圖像有直接關系的只有雙目視差。即,影響人眼立體視覺的外界因素主要是立體圖像中的雙目視差信息。
立體圖像固然生動形象,但由于當前技術條件限制觀看時會產生視覺疲勞問題,其主要原因是雙目會聚與焦點調節不一致[5]。現實世界中會聚與焦點調節是一致的,然而在觀看立體圖像時,若視差大小在融合范圍[6]內,調節和會聚距離雖然不一致,但是仍可以把左右眼視差圖像融合成一幅立體圖像,觀看者在立體屏幕上看到的是一幅具有縱深感的立體圖像;若視差的大小在融合范圍之外,觀看者則無法將左右眼兩幅視差圖像融合成一幅立體圖像,觀看者看到的是一幅不清晰的串擾圖像,從而產生嚴重的視覺疲勞。
綜合影響立體視覺的諸多因素,在立體圖像中疊加3D字幕主要依據立體圖像中的雙目視差信息。而3D字幕的視差必須在融合范圍內,不可為了追求超強立體感而過度加大視差。人眼的視覺特性決定了人眼在某一時刻只能會聚在立體圖像的某一個點上。在觀看立體視頻時,人眼自然跟隨立體圖像內容而運動。為了同時且舒適的看到3D字幕和立體圖像,3D字幕的感知深度需與立體圖像內容的深度保持一致。
3D字幕不能對立體圖像的內容造成干擾,才能使疊加3D字幕的立體圖像給人以自然的立體感。研究發現[7]:3D字幕位置稍微比立體圖像內容的感知深度離觀眾近些,可提供最佳的觀賞體驗。假設字幕與圖像深度相同時,觀眾既看字幕又看立體圖像,需不斷地在字幕與內容之間轉換焦點,容易分散注意力;而字幕在立體圖像后面就更不舒服了,觀眾很難看到字幕。
其次,字幕的大小應足夠大,顏色容易觀看。視差的大小體現了再現立體深度大小,字幕在場景中的深度隨著立體圖像內容的深度變化而不斷變化。為了讓觀眾感覺字幕沒有明顯的改變,字幕的大小要隨著視差的大小而調整。同時字體的其他屬性,如字體的類型、顏色、亮度等,也需跟隨立體圖像內容做自適應調整,以減少遮擋,增強觀賞體驗。
針對上述問題,本文提出3D字幕視差與立體圖像景深的對應關系——字幕的視差由立體圖像內容的視差決定?;诹Ⅲw視覺的雙目視差原理將具有視差的字幕疊加在立體圖像對上,3D字幕視差相對于立體圖像內容視差適當加大,字幕字體的屬性隨立體圖像內容自適應調整。該方法在立體圖像上疊加了人眼感覺舒適的3D字幕,一定程度上緩解了觀看時的視覺疲勞問題。
3D字幕的疊加是基于立體視覺中的雙目視差原理,3D字幕的視差由立體圖像內容的視差決定。采用改進的基于區域增長的立體匹配算法提取立體圖像的視差信息。在立體圖像對的左右眼視圖上用OpenGL疊加具有視差的字幕,由視差的大小調整字幕的大小、顏色等屬性。
選取立體圖像,分離出左右眼視圖,為立體匹配提供只有水平視差的原始圖像。采用改進的基于區域增長的立體匹配算法對左右視圖進行處理,得到較為準確的視差圖。將視差結果應用于OpenGL字幕疊加,并根據視差值的大小調整字體的類型、大小、顏色、亮度等屬性。最后將疊加字幕后的立體圖像對立體顯示,使觀眾看到的3D字幕舒服流暢。
程序共分3步:1)立體匹配計算視差;2)取字幕區域視差,OpenGL疊加3D字幕;3)立體顯示。程序設計詳細流程圖見圖1。

圖1 程序設計流程圖
立體匹配是指根據對所選特征的計算,建立特征間的對應關系,從而建立同一個空間物理點在不同圖像中的像點之間的關系,并由此得到相應的視差圖[8]。本文以文獻[9]的基于區域增長的立體匹配算法為基礎,引入對極幾何約束、松弛迭代法、中值濾波等方法對匹配點進行優化,得到更精確的立體圖像點對和視差圖。由于立體圖像對僅在水平方向有視差,為了降低算法的復雜度,只考慮水平方向的區域增長。該算法的基本思想:選取種子點并對其進行匹配,在種子點基礎上根據區域增長策略找出所有的匹配點對。即,一旦找到一個準確可靠的匹配點對,就可以根據它們之間的相對位置關系將匹配迅速傳播至整個圖像區域。其優點在于利用連續性約束極大地提高了匹配的效率,并且消除了重復圖案間大的匹配誤差[10]。
算法的具體操作過程。第一步,種子點的選擇。能量函數計算視差,若選擇點視差的誤差能量小于等于預設的閾值,則認定其為種子點,進行下一步;否則認為其為無用點,繼續查找。為了找到準確、可靠的種子點,利用對極幾何約束對種子點進行優化。第二步,區域生長的過程。由種子點的視差計算其相鄰點視差的誤差能量,若其值小于等于預設的閾值,則認定其為增長區域;否則返回第一步尋找新的種子點。最后用松弛迭代法去除誤匹配點,鄰域均值濾波和中值濾波去噪,降低噪聲的干擾,增加視差的可靠性。其中誤差能量公式為

由上述改進的區域增長算法計算得到的視差圖較理想,算法準確且復雜度不高。在視差圖上選定字幕區域,提取字幕區域的視差最大值作為字幕的視差值。用OpenGL在左右視圖上疊加具有此視差值的字幕。
字幕區域的選擇需要大量的實驗測試和主觀評價,以找到令人感覺最舒適的位置。本文依據大眾的觀看習慣將字幕區域選定在顯示屏幕的底部,同時為了減小遮擋問題,根據圖像內容的空白區域作適當調整。
選定字幕區域,采用OpenGL中文字體的繪制位圖方法疊加字幕[11]。將左眼視圖以原比例大小作為場景的背景顯示,在場景上創建具有一定屬性的字體,用GDI方式將文字形成單色位圖,并在字幕區域調用OpenGL繪制位圖函數glBitmap()便可清楚地將文字顯示出來。該方法簡單可行,右眼視圖疊加字幕時只需將字幕水平坐標向右平移視差值。應用OpenGL可方便、快速地更換文字內容、字體屬性及文字的位置等。隨著視差的變化,字幕字體的大小隨之改變,以便觀看效果清晰流暢。字體的其他屬性也需跟隨立體內容改變而調整,以減少遮擋,增強觀賞性。
最后,視圖與字幕一起保存為原視圖大小的BMP圖,將疊加了字幕的立體圖像對立體顯示即可看到具有深度感的3D字幕。
利用Red Star Studio Ltd.的Benjamin Smith制作的立體視頻[12],將其分離出左右眼視圖,應用本文的程序對左右眼視圖進行處理,運行結果在顯示器上顯示。使用的觀看設備是NVIDIA GeForce 3D立體眼鏡與Samsung SyncMaster 2233RZ顯示器,顯示器的分辨力為1 680×1 050,刷新率為120 Hz。
圖2~4是不同方法實現的3D字幕疊加紅藍效果圖。目前3D電影將字幕直接放置在立體圖像前面,沒有考慮立體圖像內容的景深情況,結果如圖2所示。圖3為“Sizzle”視頻中使用Poliscript 3DITOR字幕制作軟件,將3D字幕放置在銀幕的頂端圖[13]。一般圖像頂端場景深度感不明顯,3D字幕視差小甚至無視差,容易疊加。相對圖3有一定改進,但是觀眾觀看時會感覺不習慣。圖4是本文提出的方法實現的3D字幕疊加。通過對比不同方法的實驗結果發現,本文方法實現的3D字幕疊加效果更加舒適流暢,符合大眾的觀看習慣。

圖2 普通字幕效果圖

圖3 頂端字幕效果圖

圖4 本文3D字幕顯示效果圖
根據實驗結果可以得出以下結論:立體字幕放置位置是基于立體圖像內容的。立體顯示的再現立體深度與視差圖的視差大小有關,字幕的視差由立體圖像內容的深度決定,并且隨著立體圖像序列內容的深度改變而改變。為了獲得最佳的觀賞效果,需對字幕視差進行微調,使3D字幕的位置比立體圖像內容稍微靠前一些。
可將立體圖像上的3D字幕顯示在一個令人感覺舒服、可接受的深度位置的3D字幕疊加系統是很有實用價值的。本文從人眼的視覺特性出發,分析了影響立體視覺的感知深度因素,運用3D字幕視差與立體圖像景深的對應關系,基于雙目立體視覺原理將具有視差的字幕疊加在立體圖像對上,實現了基于三維圖像內容深度疊加3D字幕的系統,緩解了觀看時的視覺疲勞問題,使觀眾同時舒適地觀看立體圖像和3D字幕。
[1] BERIC T.Methods and systems for presenting three dimensional motion pictures with content adaptive information:US,WO2010/064118[P].2010-06-10.
[2]楊嘉琛,侯春萍,雷建軍.基于人眼視覺特征的立體圖像質量客觀評價方法[J]. 天津大學學報,2009,42(7):622-627.
[3] OKOSHI T.Three dimensional imaging techniques[M].New York:Academic Press,1976.
[4]JULESZ B.Binocular depth perception of computer generated pattens[J].Bell System Technical Journal,1960,39(5):1125-1162.
[5]王愛紅,王瓊華.光柵式自由立體顯示器概述[J].現代顯示,2009(10):14-17.
[6]荊其誠.人類的視覺[M].北京:科學出版社,1987:124-126.
[7] CLAYDON L J,GARDNER J FD,CORNE R,et al.Systems,apparatus and methods for subtitling for stereoscopic content:US,2010/0220175[P].2010-09-02.
[8]章毓晉.圖像工程[M].北京:清華大學出版社,2007.
[9] ALAGOZ B B.Obtaining depth maps from color images by region based stereo matching algorithms[J].OncuBilim Algorithm and Systems Labs,2008,8(4):1-13.
[10]唐麗.基于區域增長的立體像對稠密匹配算法[J].計算機學報,2004,27(7):936-943.
[11]徐明亮,盧紅星,王琬.OpenGL游戲編程[M].北京:機械工業出社,2008:126-132.
[12] Knight’s quest 3D[EB/OL].[2011-04-21].http://www.nvidia.cn/object/3d-vision-3d-movies-cn.html.
[13] Sizzle 3D stereoscopic video with proper 3D subtitles overlayed[EB/OL].[2011-04-21].http://3dvision-blog.com/sizzle-3d-stereoscopic-video-with-proper-3d-subtitles-overlayed/.