湯偉彬
(中國傳媒大學(xué),北京 100024)
在當(dāng)今的數(shù)字音頻時代,絕大部分的音樂、影視混錄工程師、現(xiàn)場擴聲調(diào)音師,都離不開多樣化、強大且便利的各類數(shù)字音頻插件。數(shù)字音頻插件在一代代音頻工程師的努力下,從開始單純用算法去模仿模擬設(shè)備,如老派經(jīng)典的均衡器、壓縮器、機械式混響器等,到可以使用脈沖響應(yīng)技術(shù)進行逼真模擬聲學(xué)空間特征,以及對模擬電路建模仿真;再到如今音頻處理的自動化、智能化。數(shù)字音頻插件正以其強大優(yōu)勢得到越來越多的應(yīng)用,映射出音頻行業(yè)發(fā)展的軌跡。
所謂智能化,是指事物在網(wǎng)絡(luò)、大數(shù)據(jù)、物聯(lián)網(wǎng)和人工智能等技術(shù)的支持下,所具有的能滿足人的各種需求的屬性[1]。而在專業(yè)音樂創(chuàng)作、音頻制作領(lǐng)域,各種插件的智能化屬性正日益突顯,自動分析音頻信號并理解音頻工程師的意圖與預(yù)期進行繁瑣復(fù)雜而又高效率處理的能力不斷提升。各類智能化數(shù)字音頻處理軟件(可以在操作系統(tǒng)下獨立運行并處理)或插件(必須在數(shù)字音頻工作站中運行),如雨后春筍般地出現(xiàn),并不斷推陳出新。例如,在基于多層神經(jīng)網(wǎng)絡(luò)進行深度學(xué)習(xí)的人工智能作曲、歌聲合成方面,已有較為成熟的Amper、AIVA、Jukedeck、Humtap、鯨鳴等獨立軟件平臺,集作詞、作曲、編曲、修音為一體;在基于大數(shù)據(jù)分析與機器學(xué)習(xí)的人工智能音頻分析、處理方面,有Zynaptiq Unveil、iZotope、PhonicMind等插件,可實現(xiàn)去混響、分離人聲及樂器等功能。
在本文中,筆者主要對近年來涌現(xiàn)的用于編輯、處理、控制的在數(shù)字音頻工作站中運行的插件的性能和使用方法進行分析與討論,為音頻工作者提供較新的技術(shù)參考。
相關(guān)信號間的相位關(guān)系的校準(zhǔn)處理一直是音頻工作者日常工作中不可忽視的問題,諸如現(xiàn)場擴聲環(huán)境下?lián)P聲器系統(tǒng)的擺放,錄音棚中對一件樂器采用多傳聲器的拾音,影視同期聲錄音使用多傳聲器拾音等。對此,傳統(tǒng)的數(shù)字音頻插件要進行信號間梳狀濾波、相位干涉等問題的處理,如Waves的相位修正插件InPhase(見圖1)、現(xiàn)場擴聲處理插件Sub Align(見圖2),它們均是通過波形顯示的輔助手段,人為觀察并仔細調(diào)整延時量,以達到相位校準(zhǔn)的目的。

圖1 Waves的InPhase插件

圖2 Waves的Sub Align插件
在2010年、2018年相繼問世的Sound Radix的Auto-Align、Auto-Align Post(傳聲器定位插件),采用了信號自動探測與自適應(yīng)技術(shù),無需觀察波形,僅用手動拖拽方式,使得工作效率大大提高。如圖3所示,當(dāng)前的一個混音工程中有三軌素材,分別是底鼓內(nèi)鼓皮、底鼓外鼓皮、底鼓超低,只需將該插件插入到這三軌,在其內(nèi)部總線分別設(shè)置為SEND1、RECV1、RECV1,隨后點擊后兩者的DETECT并播放,Auto-Align在短短幾秒鐘內(nèi)就能計算并自動補償采樣點精度的相位差(圖3中右上角所示,分別為40、20個采樣點,也可以切換為毫秒、厘米、英尺的單位),達到理想的相位對齊。從中央的頻譜相位表可以看到各頻率的相位差基本為正,而從聽感上也能明顯感覺到梳狀濾波效應(yīng)的改善,低頻顯著提升。特別是Audio Suite的Post版本,還可以根據(jù)傳聲器移動、環(huán)境改變,分區(qū)塊進行自動適配,使后期制作的聲音修復(fù)和處理向智能化邁進。

圖3 Avid Pro Tools AAX AudioSuite的插件Auto-Align

圖4 音頻對齊插件VocAlign
除了相位校準(zhǔn)之外,音頻素材的時間對齊與同步也是縮混編輯環(huán)節(jié)中經(jīng)常讓人頭痛的問題,有時多達幾十軌的人聲素材、樂器素材、影視同期聲素材需要花費數(shù)個小時進行整理。在1995年,Synchro Arts作為業(yè)界知名的音頻對齊技術(shù)研發(fā)者,推出第一代算法的VocAlign(見圖4)。其用法很簡單,選中要與之對齊的目標(biāo)軌道作為GUIDE軌,再依次選擇需要整理的素材軌道進行渲染處理,該插件便會根據(jù)波形形狀進行對齊。不過其局限性也較為明顯,處理素材的長度不能超過120 s,一次只能對齊一軌。直到2012年,基于第三代算法與機器學(xué)習(xí)的Revoice Pro獨立軟件問世(見圖5),可以在合理范圍內(nèi)同時處理無限數(shù)量音頻軌道,沒有素材長度限制,并且根據(jù)信號的性質(zhì)匹配最優(yōu)算法。這種智能化的對齊方式,將幾小時繁重枯燥的編輯工作簡化為導(dǎo)入,點擊對齊即可,區(qū)區(qū)數(shù)秒。
與錄音棚錄高質(zhì)量音頻素材不同,對于現(xiàn)場擴聲、影視同期聲的音頻素材通常或多或少會存在如環(huán)境噪聲、臟混響、可聞失真、風(fēng)聲、噴麥碰麥、哼聲等各種問題,而解決這些問題的傳統(tǒng)數(shù)字音頻插件雖然不勝枚舉,但大部分基于普通的均衡處理以及側(cè)鏈壓縮等技術(shù),結(jié)果往往不夠人性化與自然。

圖5 Revoice Pro獨立軟件

圖6 音頻修復(fù)獨立軟件RX 7
自2012年始,許多廠家開始陸續(xù)推出較為智能化的音頻修復(fù)類插件,如Accusonus的ERA 4 Pro套裝包含去混響、去噴麥、去嘶聲等模塊,Klevgrand的適應(yīng)多系統(tǒng)(iOS、PC)的降噪插件Brusfri,Waves的自適應(yīng)實時噪聲抑制插件NS1,以及具有編碼恢復(fù)、梳狀濾波修復(fù)的插件Zynaptiq等。在2018年年底,iZotope推出了新一代的基于機器學(xué)習(xí)的音頻修復(fù)軟件RX7(見圖6),與上一代的RX6相比,RX7不僅開發(fā)了更多的功能,還將機器學(xué)習(xí)算法普及到了各個模塊當(dāng)中,將音頻修復(fù)推上智能化處理的高度。
RX7除了作為獨立的音頻處理軟件外,還可以在任意的數(shù)字音頻工作站中加載其單獨模塊的數(shù)字音頻插件。如圖7的Dialogue De-reverb與Dialogue Isolate(對白去混響與分離)功能不需要像傳統(tǒng)的去混響插件需要加載用戶提交的混響特征文件,而是通過機器學(xué)習(xí)算法分離出對白與混響的成分,用戶只需要通過簡單的調(diào)整Sensitivity(靈敏度越高,去除的混響成分越多,但是可能會降低對白的清晰度)、Reduction(衰減量越大,去除的混響信號越多)、Ambience preservation(環(huán)境特征比例,決定了環(huán)境相關(guān)的背景噪聲的保留程度,該比例越高時,環(huán)境噪聲越明顯,但是有可能將不想要的混響信號也識別成環(huán)境噪聲)就可以達到理想的效果。
另外,RX7最新的Music Reblance(音樂重平衡)功能(見圖8),是對已經(jīng)縮混完畢的立體聲格式音頻進行重塑的手段。它摒棄了傳統(tǒng)的利用左右聲道反相消除人聲或者低頻樂器的原理,利用機器學(xué)習(xí)算法去直接分離出人聲、貝司、打擊樂組、其他樂器4個聲部,不僅可以僅通過4個推子進行單一聲部的衰減與提取,還可以重構(gòu)聲部間的平衡,這在以前是無法做到的。
在RX7中可有三種不同的算法供選擇:
(1)Channel Independent——在該模式下,RX7會忽略聲道間的相關(guān)性,直接對每一個聲道先處理再合并,速度最快的獨立聲道處理模式,適合實時預(yù)覽;

圖7 RX7的對白去混響與分離功能

圖8 RX7的音樂重平衡功能
(2)Joint Channel——先對多聲道文件進行預(yù)合并處理,通常相關(guān)性強的文件為佳,再確定整體的特征性參數(shù),這種方式的音頻質(zhì)量會比(1)算法高很多;
(3)Advanced Joint Channel——適合高采樣率的音頻格式文件以及不以440 Hz為標(biāo)準(zhǔn)音的音樂作品等,算法最復(fù)雜,處理質(zhì)量最高。
縱觀模擬域與數(shù)字域的音頻信號處理單元,對設(shè)備更完善、更強大、更智能的追求就未曾停止過。20世紀90年代初期,各類模擬音頻設(shè)備無論是可調(diào)參數(shù)還是處理能力都已經(jīng)非常成熟,如BSS DPR 901的多段壓縮開始出現(xiàn);數(shù)字域的新秀TC M5000也擁有了MD2(Message-Digest)算法的母帶多段壓縮功能,這給許多數(shù)字音頻工程師也帶來了啟發(fā)。之后,McDSP、HOFA等廠家?guī)缀跤谕粫r間發(fā)布了首批動態(tài)均衡器,使得音頻信號處理從單一的“靜態(tài)”化開始向“動態(tài)”化轉(zhuǎn)變。到了2020年,多段壓縮、動態(tài)均衡也已成為了傳統(tǒng)的處理方式,頻率與動態(tài)范疇間的關(guān)系與處理正變得更加緊密與智能化。
Sonible公司于2019年推出了三款基于智能化的自適應(yīng)數(shù)字均衡器與壓縮器插件:smart: EQ live(見圖9)、smart:EQ 2(見圖10),smart:comp(見圖11)。
smart:EQ 2和smart: EQ live這兩款均衡器處理插件,除了live版本有零延遲功能以及在UI(User Interface)設(shè)計、鍵位布局上更適合現(xiàn)場擴聲的工作人員使用之外,沒有區(qū)別。除了基本的均衡器功能外,重要的特點是如果開啟了smart模式并播放,會進行幾秒鐘的分析運算,該軟件便會根據(jù)當(dāng)前音頻素材的屬性與聲音變化進行實時分析,生成一個復(fù)雜的實時變化的均衡曲線,用戶還可以自行調(diào)節(jié)該曲線的使用比例與范圍,如在衰減共振峰的同時增加底鼓的沖擊感、衰減人聲的毛躁感與可能存在的近講效應(yīng)等,適合現(xiàn)場調(diào)音師進行快速的處理及提供個性化的單軌均衡參考意見。
smart:comp依托于智能化的處理技術(shù),結(jié)合了時域分析壓縮技術(shù)和頻域分析壓縮技術(shù)。開啟smart模式后,該軟件通過短時的信號分析之后,會自動生成一套包括閾值、壓縮比、啟動釋放時間的壓縮方案,并且會根據(jù)實時信號的變化及頻譜性質(zhì),自動識別并隨時調(diào)整啟動壓縮的頻率范圍,相當(dāng)于一個有著2 000個頻段的多段壓縮器。如圖11所示,當(dāng)前在一個人聲軌上使用了smart:comp壓縮器,上半部分是經(jīng)過機器學(xué)習(xí)得到的時域壓縮方案,閾值為-33 dB,壓縮比為2:1,啟動時間為50 ms,釋放時間為73 ms,增益衰減量大約是-6 dB,比較適合當(dāng)前這個搖滾風(fēng)格的音樂。而從下半部分的頻域壓縮可以看出,該壓縮器主要對500 Hz~1 kHz的信號(即圖中發(fā)亮部分)進行壓縮,其他頻段的信號的壓縮量按比例進行衰減。
Soundtheory團隊經(jīng)過14年的理論研究,于2018年發(fā)布了它們目前唯一的一款產(chǎn)品Gullfoss均衡器(見圖12)。這個數(shù)字音頻處理軟件使用的是一種受量子理論和數(shù)學(xué)方法(例如非交換代數(shù)、微分幾何和信息論)啟發(fā)的信號處理替代方法、與以往采用的技術(shù)完全不同,沒有使用神經(jīng)網(wǎng)絡(luò)、等響曲線、傳統(tǒng)的DSP方法或機器學(xué)習(xí)算法,而是采用了純粹的計算機聽覺感知仿真技術(shù)。

圖9 smart:eq live

圖10 smart:EQ 2

圖11 smart:comp

圖12 Gullfoss均衡器
Gullfoss均衡器和傳統(tǒng)的數(shù)字均衡器完全不同,無法自行處理任何頻點,只能通過紅色選框來選擇需要處理的頻段,其本質(zhì)是根據(jù)音頻信號進行實時優(yōu)化。可調(diào)整的參數(shù)只有上方欄中的5個參數(shù):Recover/Tame(控制所有參數(shù)的主導(dǎo)方向)、Bias/Brighten(根據(jù)音樂風(fēng)格調(diào)整亮度和暗度)、Boost(根據(jù)聽覺特性進行不同的頻率增益),其他界面均為儀表和頻譜變化圖。通過調(diào)整上述5個參數(shù),Gullfoss可以做到根據(jù)素材特性進行頻率處理,如圖12所示,在一個人聲軌上使用Gullfoss,將處理頻段設(shè)置為6 kHz~20 kHz,通過聽感將TAME設(shè)置到了52%,Gullfoss會對該頻段進行智能衰減,基本去除了不需要的嘶聲成分,之后再通過Bias和Brighten補充一些高頻,結(jié)果非常自然。除此之外,Gullfoss還可應(yīng)用于母帶均衡階段,以及聲音設(shè)計和5.1環(huán)繞聲處理。
音頻后期制作本質(zhì)上是基于精神的藝術(shù)創(chuàng)作行為,它融合了音頻工作者的審美與經(jīng)驗,那么是否智能化的手段和設(shè)備可以從更高的層面代替人為的抉擇與判斷呢?

圖13 現(xiàn)場樂隊錄音分軌

圖14 Nectar 3和Neutron 3的實時音頻處理
iZotope作為數(shù)字音頻軟件廠商中人工智能與機器學(xué)習(xí)技術(shù)的代表,一直以來都專注于如何將音頻處理變得更加智能化。截止到2019年底,其軟件產(chǎn)品線中有3款都擁有Assistant(智能助手)功能(不包括音頻修復(fù)RX 7的獨立程序助手):Ozone 9(智能母帶處理插件)、Neutron 3(智能混音處理插件)、Nectar 3(人聲智能處理插件)。下面以一個實際的例子看看,一個混音工程是如何不需要音頻工程師創(chuàng)造性思維的介入而完成的。
如圖13所示,為一現(xiàn)場樂隊錄音分軌,由常規(guī)的鼓組、貝司、人聲、電吉他、鍵盤構(gòu)成。現(xiàn)在在人聲軌道插入Nectar 3、其他所有軌道插入Neutron 3(如圖14),為軌道選定樂器類型后(也可以讓其自動識別),點擊Assistant鍵并播放,Nectar 3和Neutron 3會實時對音頻進行分析并自動為軌道做出相應(yīng)的均衡、壓縮、去嘶聲、激勵、頻譜優(yōu)化、混響等處理,直接完成所有的單軌混音音色處理的操作。
接下來,進行音量與聲像處理。在所有軌道上插入Relay 2插件,這是Neutron 3插件的組成之一,目的是將所有軌的音頻信號送入到插件的內(nèi)部總線上,從而進行分析。隨后,打開Neutron 3,點擊Balance Assistant(平衡智能助手),這里將會展示出所有已經(jīng)準(zhǔn)備好分析的軌道,如圖15所示。在這里需要選擇重點關(guān)注的軌道,例如吉他獨奏、人聲獨唱等,進一步增加分析的權(quán)重程度。最后,再點擊開始監(jiān)聽,并將工程文件從頭播放一遍,在此過程中,Neutron 3會基于音樂風(fēng)格進行相應(yīng)的全局音量調(diào)整與聲像設(shè)置。結(jié)果可以通過VISUAL MIXER(可視化虛擬混音插件)來查看最終的結(jié)果并進行進一步微調(diào),如圖16所示。

圖15 Relay 2插件的音量與聲像處理

圖16 VISUAL MIXER插件的混音微調(diào)

圖17 Ozone 9的編碼預(yù)覽功能
最后,在總線上加載Ozone 9,點擊Master Assistant(母帶智能助手)并播放,該軟件將對混音作品進行整體分析,從聲場、頻率、動態(tài)等方面做全自動化母帶處理。值得一提的是,Ozone 9還提供了Intelligent Release Control(IRC)母帶算法。其中,最復(fù)雜的IRC IV,在已有的智能釋放控制算法上,加入了頻譜整形功能以減少失真和抽吸效應(yīng),并且對于高于閾值的信號,IRC IV算法會根據(jù)不同的頻率內(nèi)容來限制峰值,并從心理聲學(xué)的角度減少不同頻率成分之間的掩蔽。IRC IV還提供了三種不同的處理風(fēng)格供選擇:Classic(Ozone的傳統(tǒng)算法,有一定的諧波色);Modern(較前者有更好的清晰度);Transient(一種對瞬態(tài)進行保留的優(yōu)化算法,清晰度最佳)。除此之外,Ozone 9還有編碼預(yù)覽功能,可以直接對最后的成品進行客觀的分析,如圖17所示。
在上述過程中,音頻工程師利用一系列的智能化數(shù)字音頻軟件,只需要幾次簡單的點按操作,無需主觀創(chuàng)造性的處理介入,并且處理結(jié)果可以接受。近幾年,除了數(shù)字音頻軟件之外,也涌現(xiàn)了許多被稱為“黑匣子”的在線混音、母帶處理網(wǎng)站,上傳提交,返還結(jié)果,如AI Mixing、AI Mastering、LANDR等,更為簡單直接。
從上述音頻處理軟件的發(fā)展變化看,數(shù)字音頻軟件的智能化、網(wǎng)絡(luò)化的趨勢愈加顯現(xiàn)。作為音頻行業(yè)的從業(yè)人員,應(yīng)該開拓新思維,掌握新理念,勇于嘗試新技術(shù)。同時,也不要過度依賴智能化的設(shè)備、軟件等工具,無論以后數(shù)字技術(shù)的智能化發(fā)展到哪種程度,它們提供的始終是參考價值,對聲音的決定權(quán)一定是掌握在自己手中。