數(shù)字音頻插件的智能化發(fā)展趨勢

2020-07-15 09:05:28湯偉彬

演藝科技 2020年5期

關(guān)鍵詞：智能化

湯偉彬

(中國傳媒大學(xué)，北京 100024)

在當(dāng)今的數(shù)字音頻時代，絕大部分的音樂、影視混錄工程師、現(xiàn)場擴聲調(diào)音師，都離不開多樣化、強大且便利的各類數(shù)字音頻插件。數(shù)字音頻插件在一代代音頻工程師的努力下，從開始單純用算法去模仿模擬設(shè)備，如老派經(jīng)典的均衡器、壓縮器、機械式混響器等，到可以使用脈沖響應(yīng)技術(shù)進行逼真模擬聲學(xué)空間特征，以及對模擬電路建模仿真；再到如今音頻處理的自動化、智能化。數(shù)字音頻插件正以其強大優(yōu)勢得到越來越多的應(yīng)用，映射出音頻行業(yè)發(fā)展的軌跡。

所謂智能化，是指事物在網(wǎng)絡(luò)、大數(shù)據(jù)、物聯(lián)網(wǎng)和人工智能等技術(shù)的支持下，所具有的能滿足人的各種需求的屬性[1]。而在專業(yè)音樂創(chuàng)作、音頻制作領(lǐng)域，各種插件的智能化屬性正日益突顯，自動分析音頻信號并理解音頻工程師的意圖與預(yù)期進行繁瑣復(fù)雜而又高效率處理的能力不斷提升。各類智能化數(shù)字音頻處理軟件（可以在操作系統(tǒng)下獨立運行并處理）或插件（必須在數(shù)字音頻工作站中運行），如雨后春筍般地出現(xiàn)，并不斷推陳出新。例如，在基于多層神經(jīng)網(wǎng)絡(luò)進行深度學(xué)習(xí)的人工智能作曲、歌聲合成方面，已有較為成熟的Amper、AIVA、Jukedeck、Humtap、鯨鳴等獨立軟件平臺，集作詞、作曲、編曲、修音為一體；在基于大數(shù)據(jù)分析與機器學(xué)習(xí)的人工智能音頻分析、處理方面，有Zynaptiq Unveil、iZotope、PhonicMind等插件，可實現(xiàn)去混響、分離人聲及樂器等功能。

在本文中，筆者主要對近年來涌現(xiàn)的用于編輯、處理、控制的在數(shù)字音頻工作站中運行的插件的性能和使用方法進行分析與討論，為音頻工作者提供較新的技術(shù)參考。

1 音頻編輯與修復(fù)的智能化

1.1 校準(zhǔn)對齊插件

相關(guān)信號間的相位關(guān)系的校準(zhǔn)處理一直是音頻工作者日常工作中不可忽視的問題，諸如現(xiàn)場擴聲環(huán)境下?lián)P聲器系統(tǒng)的擺放，錄音棚中對一件樂器采用多傳聲器的拾音，影視同期聲錄音使用多傳聲器拾音等。對此，傳統(tǒng)的數(shù)字音頻插件要進行信號間梳狀濾波、相位干涉等問題的處理，如Waves的相位修正插件InPhase（見圖1）、現(xiàn)場擴聲處理插件Sub Align（見圖2），它們均是通過波形顯示的輔助手段，人為觀察并仔細調(diào)整延時量，以達到相位校準(zhǔn)的目的。

圖1 Waves的InPhase插件

圖2 Waves的Sub Align插件

在2010年、2018年相繼問世的Sound Radix的Auto-Align、Auto-Align Post（傳聲器定位插件），采用了信號自動探測與自適應(yīng)技術(shù)，無需觀察波形，僅用手動拖拽方式，使得工作效率大大提高。如圖3所示，當(dāng)前的一個混音工程中有三軌素材，分別是底鼓內(nèi)鼓皮、底鼓外鼓皮、底鼓超低，只需將該插件插入到這三軌，在其內(nèi)部總線分別設(shè)置為SEND1、RECV1、RECV1，隨后點擊后兩者的DETECT并播放，Auto-Align在短短幾秒鐘內(nèi)就能計算并自動補償采樣點精度的相位差（圖3中右上角所示，分別為40、20個采樣點，也可以切換為毫秒、厘米、英尺的單位），達到理想的相位對齊。從中央的頻譜相位表可以看到各頻率的相位差基本為正，而從聽感上也能明顯感覺到梳狀濾波效應(yīng)的改善，低頻顯著提升。特別是Audio Suite的Post版本，還可以根據(jù)傳聲器移動、環(huán)境改變，分區(qū)塊進行自動適配，使后期制作的聲音修復(fù)和處理向智能化邁進。

圖3 Avid Pro Tools AAX AudioSuite的插件Auto-Align

圖4 音頻對齊插件VocAlign

除了相位校準(zhǔn)之外，音頻素材的時間對齊與同步也是縮混編輯環(huán)節(jié)中經(jīng)常讓人頭痛的問題，有時多達幾十軌的人聲素材、樂器素材、影視同期聲素材需要花費數(shù)個小時進行整理。在1995年，Synchro Arts作為業(yè)界知名的音頻對齊技術(shù)研發(fā)者，推出第一代算法的VocAlign（見圖4）。其用法很簡單，選中要與之對齊的目標(biāo)軌道作為GUIDE軌，再依次選擇需要整理的素材軌道進行渲染處理，該插件便會根據(jù)波形形狀進行對齊。不過其局限性也較為明顯，處理素材的長度不能超過120 s，一次只能對齊一軌。直到2012年，基于第三代算法與機器學(xué)習(xí)的Revoice Pro獨立軟件問世（見圖5），可以在合理范圍內(nèi)同時處理無限數(shù)量音頻軌道，沒有素材長度限制，并且根據(jù)信號的性質(zhì)匹配最優(yōu)算法。這種智能化的對齊方式，將幾小時繁重枯燥的編輯工作簡化為導(dǎo)入，點擊對齊即可，區(qū)區(qū)數(shù)秒。

1.2 更聰明的補救插件

與錄音棚錄高質(zhì)量音頻素材不同，對于現(xiàn)場擴聲、影視同期聲的音頻素材通常或多或少會存在如環(huán)境噪聲、臟混響、可聞失真、風(fēng)聲、噴麥碰麥、哼聲等各種問題，而解決這些問題的傳統(tǒng)數(shù)字音頻插件雖然不勝枚舉，但大部分基于普通的均衡處理以及側(cè)鏈壓縮等技術(shù)，結(jié)果往往不夠人性化與自然。

圖5 Revoice Pro獨立軟件

圖6 音頻修復(fù)獨立軟件RX 7

自2012年始，許多廠家開始陸續(xù)推出較為智能化的音頻修復(fù)類插件，如Accusonus的ERA 4 Pro套裝包含去混響、去噴麥、去嘶聲等模塊，Klevgrand的適應(yīng)多系統(tǒng)（iOS、PC）的降噪插件Brusfri，Waves的自適應(yīng)實時噪聲抑制插件NS1，以及具有編碼恢復(fù)、梳狀濾波修復(fù)的插件Zynaptiq等。在2018年年底，iZotope推出了新一代的基于機器學(xué)習(xí)的音頻修復(fù)軟件RX7(見圖6)，與上一代的RX6相比，RX7不僅開發(fā)了更多的功能，還將機器學(xué)習(xí)算法普及到了各個模塊當(dāng)中，將音頻修復(fù)推上智能化處理的高度。

RX7除了作為獨立的音頻處理軟件外，還可以在任意的數(shù)字音頻工作站中加載其單獨模塊的數(shù)字音頻插件。如圖7的Dialogue De-reverb與Dialogue Isolate（對白去混響與分離）功能不需要像傳統(tǒng)的去混響插件需要加載用戶提交的混響特征文件，而是通過機器學(xué)習(xí)算法分離出對白與混響的成分，用戶只需要通過簡單的調(diào)整Sensitivity(靈敏度越高，去除的混響成分越多，但是可能會降低對白的清晰度)、Reduction(衰減量越大，去除的混響信號越多)、Ambience preservation(環(huán)境特征比例，決定了環(huán)境相關(guān)的背景噪聲的保留程度，該比例越高時，環(huán)境噪聲越明顯，但是有可能將不想要的混響信號也識別成環(huán)境噪聲)就可以達到理想的效果。

另外，RX7最新的Music Reblance（音樂重平衡）功能（見圖8），是對已經(jīng)縮混完畢的立體聲格式音頻進行重塑的手段。它摒棄了傳統(tǒng)的利用左右聲道反相消除人聲或者低頻樂器的原理，利用機器學(xué)習(xí)算法去直接分離出人聲、貝司、打擊樂組、其他樂器4個聲部，不僅可以僅通過4個推子進行單一聲部的衰減與提取，還可以重構(gòu)聲部間的平衡，這在以前是無法做到的。

在RX7中可有三種不同的算法供選擇：

（1）Channel Independent——在該模式下，RX7會忽略聲道間的相關(guān)性，直接對每一個聲道先處理再合并，速度最快的獨立聲道處理模式，適合實時預(yù)覽；

圖7 RX7的對白去混響與分離功能

圖8 RX7的音樂重平衡功能

（2）Joint Channel——先對多聲道文件進行預(yù)合并處理，通常相關(guān)性強的文件為佳，再確定整體的特征性參數(shù)，這種方式的音頻質(zhì)量會比（1）算法高很多；

（3）Advanced Joint Channel——適合高采樣率的音頻格式文件以及不以440 Hz為標(biāo)準(zhǔn)音的音樂作品等，算法最復(fù)雜，處理質(zhì)量最高。

2 頻率與動態(tài)處理的智能化

縱觀模擬域與數(shù)字域的音頻信號處理單元，對設(shè)備更完善、更強大、更智能的追求就未曾停止過。20世紀90年代初期，各類模擬音頻設(shè)備無論是可調(diào)參數(shù)還是處理能力都已經(jīng)非常成熟，如BSS DPR 901的多段壓縮開始出現(xiàn)；數(shù)字域的新秀TC M5000也擁有了MD2（Message-Digest）算法的母帶多段壓縮功能，這給許多數(shù)字音頻工程師也帶來了啟發(fā)。之后，McDSP、HOFA等廠家?guī)缀跤谕粫r間發(fā)布了首批動態(tài)均衡器，使得音頻信號處理從單一的“靜態(tài)”化開始向“動態(tài)”化轉(zhuǎn)變。到了2020年，多段壓縮、動態(tài)均衡也已成為了傳統(tǒng)的處理方式，頻率與動態(tài)范疇間的關(guān)系與處理正變得更加緊密與智能化。

2.1 Sonible-smart系列

Sonible公司于2019年推出了三款基于智能化的自適應(yīng)數(shù)字均衡器與壓縮器插件：smart: EQ live（見圖9）、smart:EQ 2（見圖10），smart:comp（見圖11）。

smart:EQ 2和smart: EQ live這兩款均衡器處理插件，除了live版本有零延遲功能以及在UI（User Interface）設(shè)計、鍵位布局上更適合現(xiàn)場擴聲的工作人員使用之外，沒有區(qū)別。除了基本的均衡器功能外，重要的特點是如果開啟了smart模式并播放，會進行幾秒鐘的分析運算，該軟件便會根據(jù)當(dāng)前音頻素材的屬性與聲音變化進行實時分析，生成一個復(fù)雜的實時變化的均衡曲線，用戶還可以自行調(diào)節(jié)該曲線的使用比例與范圍，如在衰減共振峰的同時增加底鼓的沖擊感、衰減人聲的毛躁感與可能存在的近講效應(yīng)等，適合現(xiàn)場調(diào)音師進行快速的處理及提供個性化的單軌均衡參考意見。

smart:comp依托于智能化的處理技術(shù)，結(jié)合了時域分析壓縮技術(shù)和頻域分析壓縮技術(shù)。開啟smart模式后，該軟件通過短時的信號分析之后，會自動生成一套包括閾值、壓縮比、啟動釋放時間的壓縮方案，并且會根據(jù)實時信號的變化及頻譜性質(zhì)，自動識別并隨時調(diào)整啟動壓縮的頻率范圍，相當(dāng)于一個有著2 000個頻段的多段壓縮器。如圖11所示，當(dāng)前在一個人聲軌上使用了smart:comp壓縮器，上半部分是經(jīng)過機器學(xué)習(xí)得到的時域壓縮方案，閾值為-33 dB，壓縮比為2:1，啟動時間為50 ms，釋放時間為73 ms，增益衰減量大約是-6 dB，比較適合當(dāng)前這個搖滾風(fēng)格的音樂。而從下半部分的頻域壓縮可以看出，該壓縮器主要對500 Hz～1 kHz的信號（即圖中發(fā)亮部分）進行壓縮，其他頻段的信號的壓縮量按比例進行衰減。

2.2 Soundtheory-Gullfoss均衡器

Soundtheory團隊經(jīng)過14年的理論研究，于2018年發(fā)布了它們目前唯一的一款產(chǎn)品Gullfoss均衡器（見圖12）。這個數(shù)字音頻處理軟件使用的是一種受量子理論和數(shù)學(xué)方法（例如非交換代數(shù)、微分幾何和信息論）啟發(fā)的信號處理替代方法、與以往采用的技術(shù)完全不同，沒有使用神經(jīng)網(wǎng)絡(luò)、等響曲線、傳統(tǒng)的DSP方法或機器學(xué)習(xí)算法，而是采用了純粹的計算機聽覺感知仿真技術(shù)。

圖9 smart:eq live

圖10 smart:EQ 2

圖11 smart:comp

圖12 Gullfoss均衡器

Gullfoss均衡器和傳統(tǒng)的數(shù)字均衡器完全不同，無法自行處理任何頻點，只能通過紅色選框來選擇需要處理的頻段，其本質(zhì)是根據(jù)音頻信號進行實時優(yōu)化。可調(diào)整的參數(shù)只有上方欄中的5個參數(shù)：Recover/Tame（控制所有參數(shù)的主導(dǎo)方向）、Bias/Brighten（根據(jù)音樂風(fēng)格調(diào)整亮度和暗度）、Boost（根據(jù)聽覺特性進行不同的頻率增益），其他界面均為儀表和頻譜變化圖。通過調(diào)整上述5個參數(shù)，Gullfoss可以做到根據(jù)素材特性進行頻率處理，如圖12所示，在一個人聲軌上使用Gullfoss，將處理頻段設(shè)置為6 kHz～20 kHz，通過聽感將TAME設(shè)置到了52%，Gullfoss會對該頻段進行智能衰減，基本去除了不需要的嘶聲成分，之后再通過Bias和Brighten補充一些高頻，結(jié)果非常自然。除此之外，Gullfoss還可應(yīng)用于母帶均衡階段，以及聲音設(shè)計和5.1環(huán)繞聲處理。

3 全局控制的智能化

音頻后期制作本質(zhì)上是基于精神的藝術(shù)創(chuàng)作行為，它融合了音頻工作者的審美與經(jīng)驗，那么是否智能化的手段和設(shè)備可以從更高的層面代替人為的抉擇與判斷呢？

圖13 現(xiàn)場樂隊錄音分軌

圖14 Nectar 3和Neutron 3的實時音頻處理

iZotope作為數(shù)字音頻軟件廠商中人工智能與機器學(xué)習(xí)技術(shù)的代表，一直以來都專注于如何將音頻處理變得更加智能化。截止到2019年底，其軟件產(chǎn)品線中有3款都擁有Assistant（智能助手）功能（不包括音頻修復(fù)RX 7的獨立程序助手）：Ozone 9（智能母帶處理插件）、Neutron 3（智能混音處理插件）、Nectar 3（人聲智能處理插件）。下面以一個實際的例子看看，一個混音工程是如何不需要音頻工程師創(chuàng)造性思維的介入而完成的。

如圖13所示，為一現(xiàn)場樂隊錄音分軌，由常規(guī)的鼓組、貝司、人聲、電吉他、鍵盤構(gòu)成。現(xiàn)在在人聲軌道插入Nectar 3、其他所有軌道插入Neutron 3（如圖14），為軌道選定樂器類型后（也可以讓其自動識別），點擊Assistant鍵并播放，Nectar 3和Neutron 3會實時對音頻進行分析并自動為軌道做出相應(yīng)的均衡、壓縮、去嘶聲、激勵、頻譜優(yōu)化、混響等處理，直接完成所有的單軌混音音色處理的操作。

接下來，進行音量與聲像處理。在所有軌道上插入Relay 2插件，這是Neutron 3插件的組成之一，目的是將所有軌的音頻信號送入到插件的內(nèi)部總線上，從而進行分析。隨后，打開Neutron 3，點擊Balance Assistant（平衡智能助手），這里將會展示出所有已經(jīng)準(zhǔn)備好分析的軌道，如圖15所示。在這里需要選擇重點關(guān)注的軌道，例如吉他獨奏、人聲獨唱等，進一步增加分析的權(quán)重程度。最后，再點擊開始監(jiān)聽，并將工程文件從頭播放一遍，在此過程中，Neutron 3會基于音樂風(fēng)格進行相應(yīng)的全局音量調(diào)整與聲像設(shè)置。結(jié)果可以通過VISUAL MIXER（可視化虛擬混音插件）來查看最終的結(jié)果并進行進一步微調(diào)，如圖16所示。

圖15 Relay 2插件的音量與聲像處理

圖16 VISUAL MIXER插件的混音微調(diào)

圖17 Ozone 9的編碼預(yù)覽功能

最后，在總線上加載Ozone 9，點擊Master Assistant（母帶智能助手）并播放，該軟件將對混音作品進行整體分析，從聲場、頻率、動態(tài)等方面做全自動化母帶處理。值得一提的是，Ozone 9還提供了Intelligent Release Control(IRC)母帶算法。其中，最復(fù)雜的IRC IV，在已有的智能釋放控制算法上，加入了頻譜整形功能以減少失真和抽吸效應(yīng)，并且對于高于閾值的信號，IRC IV算法會根據(jù)不同的頻率內(nèi)容來限制峰值，并從心理聲學(xué)的角度減少不同頻率成分之間的掩蔽。IRC IV還提供了三種不同的處理風(fēng)格供選擇：Classic（Ozone的傳統(tǒng)算法，有一定的諧波色）；Modern（較前者有更好的清晰度）；Transient（一種對瞬態(tài)進行保留的優(yōu)化算法，清晰度最佳）。除此之外，Ozone 9還有編碼預(yù)覽功能，可以直接對最后的成品進行客觀的分析，如圖17所示。

在上述過程中，音頻工程師利用一系列的智能化數(shù)字音頻軟件，只需要幾次簡單的點按操作，無需主觀創(chuàng)造性的處理介入，并且處理結(jié)果可以接受。近幾年，除了數(shù)字音頻軟件之外，也涌現(xiàn)了許多被稱為“黑匣子”的在線混音、母帶處理網(wǎng)站，上傳提交，返還結(jié)果，如AI Mixing、AI Mastering、LANDR等，更為簡單直接。

4 結(jié)束語

從上述音頻處理軟件的發(fā)展變化看，數(shù)字音頻軟件的智能化、網(wǎng)絡(luò)化的趨勢愈加顯現(xiàn)。作為音頻行業(yè)的從業(yè)人員，應(yīng)該開拓新思維，掌握新理念，勇于嘗試新技術(shù)。同時，也不要過度依賴智能化的設(shè)備、軟件等工具，無論以后數(shù)字技術(shù)的智能化發(fā)展到哪種程度，它們提供的始終是參考價值，對聲音的決定權(quán)一定是掌握在自己手中。