Stefan Meltzer, Max Neuendorf, Jan Plogsties, Robert Bleidt
( Fraunhofer Institute for Integrated Circuits (IIS) )
MPEG-H電視音頻系統及國際標準化發展(I)
Stefan Meltzer, Max Neuendorf, Jan Plogsties, Robert Bleidt
( Fraunhofer Institute for Integrated Circuits (IIS) )
目前,下一代廣播電視標準成為了全球廣播電視領域熱議的話題。而沉浸式、互動式等技術特點成為了未來廣播電視標準中能夠為用戶帶來更高價值的核心競爭力。本文重點介紹了被ATSC 3.0成功采納,并成為其最終標準的下一代廣播電視音頻標準:MPEG-H電視音頻系統,并主要介紹了其技術特征以及其在下一代廣播電視標準應用中的核心性能。同時,還詳細地闡述了MPEG-H在ATSC 3.0標準展過程中的大事記,以及對下一代電視音頻標準商業推廣的相關思考。
MPEG-H電視音頻;3D音頻;沉浸式聲音;互動式聲音
MPEG-H電視音頻系統基于音頻編碼標準化組織MPEG最新開發的MPEG-H 3D音頻標準,能夠為家庭端帶來沉浸式聲音體驗,增強電視節目的真實感和沉浸感,并通過音頻對象為觀眾呈現個性化的音頻內容。為了方便用戶使用交互性功能,廣播電視公司可以提供“預設”服務,即預定義對象增益和位置的混音效果。而沉浸式聲音的制作播出則可通過將基于聲道的信號或基于場景的聲音元素與靜態或動態音頻對象相結合的方式來實現。改良后的響度和動態范圍控制,能夠根據不同類型的用戶設備和收聽環境來定制聲音效果,從而實現最佳的聲音還放。
目前,MPEG-H電視音頻系統已經被DVB標準采納,并已成為ATSC 3.0數字電視標準中的正式音頻標準。此外,韓國于2017年5月31日推出基于ATSC 3.0標準的超高清電視服務,這也是首個采用MPEG-H電視音頻系統(下一代音頻編解碼器)的常規廣播電視服務。
2014年,為了支持包括沉浸式聲音和交互性能等在內的全新音頻功能并提升用戶體驗,美國高級電視系統委員會(ATSC)發布公告征集下一代廣播電視音頻系統標準方案,并將其作為ATSC 3.0標準的一部分。與此同時,ATSC還要求解決方案能夠實現部分高級功能,例如:將通過互聯網發送的音頻元素與通過地面廣播路徑傳輸的音頻元素相結合;支持觀眾調整節目中的某些聲音元素;使音頻可以適用于各種終端用戶設備,從而通過同一音頻碼流就可以服務于所有類型的終端用戶設備;通過binaural(雙耳還放)技術實現耳機端的沉浸式聲音還放等。而MPEG-H 3D音頻標準可以滿足以上所有需求,MPEG-H電視音頻系統是MPEG-H 3D音頻標準的子集,專為滿足ATSC 3.0和DVB所規定的廣播電視需求而定制。
2.1 沉浸式聲音
MPEG-H電視音頻系統能夠通過在垂直維度上擴展聲像實現“3D”聲音還放,進而實現沉浸式聲音并區分于傳統環繞聲。該功能能夠使聲音聽起來更加真實,使用戶不再是一名旁觀者,而是體驗身臨其境般的感受。研究表明,與環繞聲相比,在沉浸式聲音環境下,人們感知到的整體音質明顯改善,兩者之間的差異就像立體聲與環繞聲之間的差異一樣大。圖1為與22.2聲道參考信號相比,環繞聲、沉浸式/3D聲音格式的聲音還放系統擴展后的整體音質改善。

圖1 聲音還放系統擴展后的整體音質改善
2.2 交互功能/個性化定制
MPEG-H電視音頻系統中包含“預設”功能。內容創作者可以定義“預設”內容,以及涵蓋不同聲音元素的組合或者調整不同元素在位置和音量上的關系。如此一來,廣播電視公司可以讓用戶輕而易舉地選擇不同的聲音體驗。另外,通過MPEG-H電視音頻系統,用戶能夠與其他混音元素的比較,直接選擇和調整不同混音元素在位置和音量上的關系,從而對聲音體驗進行微調。其中一個典型的例子是調高或調低解說員的聲音(也稱為“對白增強”)或者選擇不同的解說評論的語言,如圖2所示。而實現傳輸交互內容其實也并不復雜,只需對現有制作流程稍作調整便能夠為內容創作者提供全新選擇,也能夠為觀眾帶來更好的體驗。而廣播電視公司對于用戶所能實現的個性化功能調整享有完全的控制權。

圖2 MPEG-H的交互功能
2.3 通用傳輸
在多平臺環境下,相同的MPEG-H內容通過不同的分發網絡進行傳輸(例如:廣播電視網絡、移動網絡和寬帶網絡),并且在不同的環境(如嘈雜的公交車和安靜的客廳)和設備上(如電視機、移動設備和AVR)進行播放。為了滿足以上需求,MPEG-H電視音頻系統針對每個完整混音甚至是單一音頻元素提供響度和動態范圍控制,以及對輸出的峰值和削波預防進行控制。此外,全新的主動下混算法能夠帶來更高質量的下混音頻信號。為了能通過耳機聆聽沉浸聲和環繞聲音頻內容,MPEG-H電視音頻系統還包含binaural渲染器。
3.1 碼流效率
下一代廣播電視節目需要能夠通過各種方式向用戶提供內容,其中包括最高質量的有線電視和衛星電視傳輸方式以及移動設備上的流媒體傳輸方式等。為此,電視音頻系統需要傳輸各種音頻內容,從立體聲道到5.1聲道、7.1聲道和用于沉浸式音頻內容的更多聲道。MPEG-H音頻規范的目標碼流范圍旨在滿足質量和效率的雙重目標。對于當今的5.1環繞聲,96~256kb/s的碼流便能夠提供良好甚至優異的音頻質量。對于未來具有更多聲道(5.1+4H或者7.1+4H)的音頻內容,256kb/s~1.2Mb/s的碼流即可實現相同的音頻質量。
MPEG-H音頻編解碼器能夠利用相同的碼流承載更高質量和/或更多聲道的音頻內容。例如,在常用的廣播音頻數據傳輸碼率(384kb/s)下,MPEG-H能夠傳輸最多包括四個附加對象的7.1+4H音頻聲道的信號,從而實現高度揚聲器播放效果。
3.2 動態范圍控制
動態范圍控制(DRC)技術能夠使產生的音頻信號適應于不同的還放設備和聆聽環境。在MPEG-H電視音頻系統的DRC框架內,通過信號傳輸的不同DRC增益序列能夠在播放設備中實現由編碼器控制的動態范圍處理。多個單獨的DRC增益序列可以通過高分辨率信號傳輸,以適用于各種播放設備和收聽環境,如:移動環境和家庭環境。通過MPEG-H DRC技術,還可以實現更好的削波預防和峰值限制效果。
3.3 響度標準化
為了符合不同的響度規范并帶來一致的用戶體驗,響度信號傳送和標準化對于任何下一代音頻系統都扮演著至關重要的角色。在MPEG-H電視音頻系統中,基于EBU R128或ITU-R BS.1770-3所有響度相關測量數據都被嵌入到用于響度標準化的數據流之中,并通過解碼器對音頻信號進行標準化,從而將節目響度映射至還放所需的目標響度。例如,在移動設備上,目標響度范圍為-12至-15dB LKFS,而在家庭AVR(音視頻接收機)上,目標響度通常設置為-31dB LKFS。然而,通過下混和動態范圍控制,可能會改變信號的響度。因此,可以將專用的節目響度元數據植入到MPEG-H比特流中,以確保在還放端實現正確的響度標準化。
3.4 音頻對象
將音頻對象作為附加音軌嵌入到音頻節目內容中,可以實現一系列的全新應用。其中,最為突出的應用就是允許用戶通過改變混音效果實現交互性功能。用戶可以選擇不同的語言音軌、附加音軌,例如導演對電影的評論或針對視障者的場景敘述等。同時,用戶能夠調節特定音軌聲音,以便獲取個性化收聽體驗,例如調高解說評論的聲音使其高于背景音。
諸如對白的音頻對象可以根據其動態范圍進行單獨控制,這樣可確保在任何壓縮模式下都能清晰地聽到對白內容。利用音頻對象的概念,還可以在不同播放場景下,實現準確的空間聲音還放。為實現以上需求,可將描述幾何位置的對象元數據嵌入到比特流中。MPEG-H電視音頻系統的解碼器包含一個對象渲染器,它能夠根據元數據和用戶家中揚聲器的位置將對象信號映射并分配至揚聲器中。
3.5 Ambisonics
Ambisonics能夠通過特定的數學方程式呈現聲場壓力,隨著Ambisonics階數的提升,其還放準確度也隨之升高。此外,Ambisonics的呈現不受終端揚聲器配置的影響,因此,在聲音還放之前可以輕而易舉地對其進行調整。得益于以上特性,Ambisonics還放技術非常適用于當今的虛擬現實應用。目前,結合音頻對象的FOA(一階高保真)技術和HOA(高階高保真)技術在虛擬現實制作中的應用越來越廣泛。(未完待續)
The MPEG-H TV Audio System and its Developments in International Standardizations (I)
Stefan Meltzer, Max Neuendorf, Jan Plogsties, Robert Bleidt
( Fraunhofer Institute for Integrated Circuits (IIS) )
The article introduces the major features of the MPEG-H TV Audio System and its core elements. The MPEG-H TV Audio system has been adopted and fully specified in the ATSC 3.0 Digital Television standard. Its features include immersive and interactive sound, which have been key requirements of a future TV broadcast standard in order to bring added value to the viewers. The article also describes the major steps in the process of the standardization and, necessary considerations regarding the commercial roll out of the next generation TV standard.
MPEG-H TV Audio; 3D Audio; Immersive Sound; Interactive Sound
10.3969/J.ISSN.1672-7274.2017.07.015
TN948,TN941文獻標示碼:A
1672-7274(2017)07-0040-03