999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視覺畫面的空間音頻合成及電影行業應用研究

2023-10-10 01:35:16李思佳劉世光
現代電影技術 2023年9期

李思佳 劉世光

天津大學智能與計算學部,天津 300350

1 引言

科技的發展不斷推動電影技術創新,也有力支撐著電影藝術的蓬勃發展。如人工智能(AI)、虛擬現實(VR)等技術,正在逐步改變電影工業的傳統工藝并逐步定義著未來的發展方向。科學技術是第一生產力,電影產業技術的自主研發和創新已成為新時代的必然要求。為此,我們需要加強自主創新,站在科技發展的前沿,緊跟科技發展趨勢,更好地掌握主動權,促進產業升級,進一步解放和發展生產力,推動電影產業和文化產業高質量發展。

電影效果的呈現不僅依賴于視覺的設計,也離不開聽覺、觸覺、嗅覺等的應用。與畫面匹配的逼真音頻可以給用戶營造一種更真實的體驗,例如,當畫面中有一個人從鏡頭的左側走到右側時,同時也應聽到從左到右的腳步聲,即在鏡頭左側時左耳聽到更明顯的腳步聲,走到鏡頭右側時則右耳聽到更清晰的聲音。如果用戶在觀影過程中能夠聽到模擬現實中雙耳效果的,帶有與畫面一致的空間感的音頻,沉浸感會得到顯著提升。

部分早期的影片僅包含單聲道音頻,用戶不易獲得很好的聽覺體驗。當影片僅包含單聲道音頻時,人的雙耳接收到的信息是完全一致的,在不依靠視覺信息的情況下無法辨認聲源位置,這顯然與現實聽感不符,導致整體代入感減弱。我們無法直接將單聲道音頻轉換為雙耳音頻,因為我們不能憑空添加缺失的空間信息。但在一部電影中,同時擁有畫面和聲音,視覺和聽覺反映了一致的空間信息,因此我們可以利用視覺中的空間信息,對單聲道音頻進行空間化。

本文將介紹一種視覺信息輔助的音頻空間化方法,可以將視頻中的單聲道音頻轉換為與畫面位置信息相一致的空間音頻。該框架輸入視頻幀和單聲道音頻,輸出對應的具有兩個聲道的雙耳音頻,即左右聲道分別還原左右耳聽到的聲音。本文將該任務拆解成兩個子任務,即聲源分離定位和空間音頻重構,緩解了由于空間音頻數據集規模較小引發的過擬合問題,實現了在給定視頻條件下空間音頻的直接合成,提升了用戶體驗。近年來,AI 大模型逐漸成為研究熱點,在自然語言[1]、視覺[2]、音頻領域[3]以及多模態領域[4]都取得了一定的進展。如果可以將大模型的知識運用到本文特定任務的小模型中,對其效果也將有所提升。

2 國內外研究現狀

近年來,基于視覺的音頻空間化受到了越來越多的關注。由于我們處理的是視頻場景,因此無法直接獲得聲源及其信息以進行空間音頻[5]的渲染。隨著深度學習的發展,出現了使用監督學習進行音頻空間化的方法,利用數據驅動,隱式地學習音頻中的空間信息。

單聲道音頻缺少空間信息,無法直接進行空間音頻的重建,必須借助其他模態,如視覺信號,對其空間信息進行補充。有許多研究者利用將不同的信號與單聲道音頻相結合,實現單聲道音頻的空間化。其中Morgado 等人[6]利用全景視頻進行輔助,預測不同方向上的聲音分量以獲得音頻的空間信息。雖然全景視頻提供了較多的視覺位置信息,但是日常生活中的多數視頻并非全景格式,因此其適用范圍有限,不直接適用于普通視角的視頻。同樣基于全景視頻進行音頻空間化的還有Kim 等人[7],不同的是作者估計的是房間的幾何結構和聲學特性以重建空間音頻。類似地,也有利用聲學脈沖響應[8]或估計房間的聲學材料特征[9]以完成空間音頻渲染的相關研究。以上這幾種方法仍然有使用場景的局限性,只適用于室內場景,無法拓展到室外的聲學場景。

針對普通視角的視頻,Gao 和Grauman[10]采用監督學習的方法來解決這個問題。他們針對此問題采用專業人頭錄音設備錄制了一個雙耳聲數據集,即FAIR-Play 數據集,該數據集包含上千段室內樂器演奏的雙耳聲視頻。作者采用UNet 網絡,輸入視頻幀和單聲道音頻,預測雙耳聲音頻。Lu 等人[11]同樣使用UNet 網絡作為主干網絡,同時在生成網絡后添加了一個分類器來完善模型。由于雙耳聲的左右聲道不能互換,因此分類器用來判斷生成雙耳聲的左右聲道是否相反,依次進行生成任務和分類任務,以進一步約束模型。Yang 等人[12]首先學習空間音頻的良好表示,再將空間音頻生成作為一項下游任務來進行。同一視頻的視覺和音頻所包含的空間信息存在一致性,因此作者通過判斷音視頻特征是否在空間上對齊以學習一個空間音視頻的良好表示。這里的空間音頻生成作為音視頻表示學習的下游任務,兩項任務是獨立考慮的。與本文密切相關的另一項研究則是視覺輔助的聲源分離與音頻空間化的多任務學習[13]。該研究將聲源分離任務視為一種特殊的音頻空間化任務,即將音頻分離看作聲源分別在最左端和最右端的音頻空間化。研究者設計了一種關聯神經網絡結構以更好地融合視聽特征,但這種方法需要引入額外的數據集。

以上討論的方法都是監督學習的方法,雖然生成效果較好,但也存在一些問題。一方面,現有的可用于監督學習的空間音頻數據集較少,數據規模較小,場景也較為局限,多為樂器演奏或室內視頻。這使得這類方法很容易產生過擬合問題,泛化性較差,不易推廣到其他應用場景。另一方面,空間音頻的錄制需要一定的成本,錄制大規模的數據集較為困難,這也限制了訓練出的模型的能力。因此,也有研究者嘗試在不依賴此類數據集監督訓練的情況下,對給定單聲道視頻,直接合成相應的空間音頻[14]。研究者首先挑選出只有單個聲源的視頻,并將其裁剪下來,得到畫面和聲音都只包含一個聲源的視頻。之后再將這些視頻隨機粘貼到空間中的不同位置,得到一個新的混合視頻。有了聲源及其位置,便可以進行空間音頻的合成。合成出來的新的空間音視頻,又可以作為監督學習數據集的補充,進行數據增強,改善監督學習合成的效果,緩解過擬合問題。但是該方法需要選擇單聲源數據,這類數據依舊較少。另外該方法在不斷創建本來不存在的新數據,而不是直接對給定視頻數據進行轉換,更類似于一種數據增強方法。

本文旨在介紹一種更加直接的音頻空間化方法,將給定的單聲道視頻轉換為空間音頻,這里重點關注的是具有左右聲道的雙耳聲。本文將音頻空間化任務分成兩步執行,即視覺信息輔助的聲源分離定位以及空間音頻的重構。我們首先訓練一個聲源分離網絡,然后對視頻幀沿水平方向進行等距劃分,并將每個分區的中心位置作為聲源的位置坐標。將這些視頻幀輸入到訓練好的聲源分離網絡中,得到分離出的聲源。有了聲源及其位置信息,便可以對其進行空間音頻的重構,獲得具有空間感的較為逼真的聲音效果。

3 音頻空間化

我們的雙耳能根據聽到的聲音辨別物體的方位,這種特性也被稱為雙耳效應,如果在音頻制作中模擬這種效果,可以增強觀眾的聽覺體驗。人耳可以依據雙耳時間差和雙耳聲級差實現聲源的定位,前者是指聲音傳播到左右耳的時間不同,存在時間差,后者則指左右耳接收到的聲音信號強度也有所差異,這些左右耳聽到的聲音差異就是我們辨別聲源方位的依據。在單聲道音頻中,左右耳接收到的信號完全一致,減弱了沉浸感。如果可以利用電影畫面信息作為提示,補全雙耳聲音信號之間的差異,將會帶來更真實的體驗。

本章詳細介紹將視頻的單聲道音頻轉換成空間音頻的方法,主要分為兩個步驟:聲源分離定位和空間音頻重構。總體流程圖如圖1所示,輸入視頻幀和單聲道音頻,通過聲源分離定位模塊得到分離出的多個單聲源及其位置信息,之后將其輸入到空間音頻重構模塊,完成音頻空間化。具體來講,對需要進行音頻空間化的電影片段,我們首先對其電影畫面的視頻幀進行提取,然后將電影的單聲道音軌分離出來。分別將電影畫面幀及音頻輸入到雙流(Two-Stream)網絡中,實現電影畫面的聲源分離定位。如電影畫面中有兩個人物在進行不同的活動,我們將其分割開,并將二人發出的聲音也從混合音頻中剝離出來。之后我們依據二人的位置重構空間音頻,使最終的聽感和二人在畫面中的位置一致。接下來我們對本文的模塊展開介紹。

圖1 空間音頻轉換流程

3.1 聲音分離定位模塊

聲音分離定位模塊的主要作用是將包含多個聲源的音頻分離成單個聲源的音頻,并給出每個聲源在畫面中的位置坐標。本文將視頻畫面劃分成不同區域,把每個區域視作一個聲源,用其中心位置代表其坐標。同時采用混合分離的訓練策略[15]訓練聲源分離網絡,將單個聲源依據畫面分離出來。

聲源分離網絡采用的是PixelPlayer 模型[15],是一個雙流處理網絡,主要由三部分組成:視頻處理模塊、音頻處理模塊以及音頻合成模塊,如圖2所示。

圖2 聲源分離模塊訓練和測試示意圖

視頻處理模塊提取每個視頻幀中重要的視覺特征,用于指導之后的聲源分離。網絡的主干結構是帶有擴張卷積的ResNet 網絡,這里采用在ImageNet上預訓練的模型初始化其權重。

與視頻處理模塊相對應,音頻處理模塊主要作用是分離聲音分量。音頻網絡的架構采用UNet 網絡,其輸入是音頻譜圖,輸出是音頻譜圖的不同分量,其分量數目和視覺特征的維度相匹配,將原始音頻進行分解以便和視覺特征相關聯。

最后由音頻合成模塊實現視聽特征的整合,并預測最終分離的輸出。視頻特征的維度和音頻譜圖分量的數目相同,可以通過乘法操作將二者進行結合,得到一個和音頻譜圖大小一致的掩模。該模塊預測不同視覺特征對應的聲源掩模,得到掩模再和原始混合音頻譜圖相乘,得到該視覺特征對應的音頻譜圖,即根據視覺分離出不同的聲源。之后利用逆短時傅里葉變換(Inverse Short Time Fourier Transform,ISTFT)將譜圖轉換回時域即可。

在訓練過程中,由于采用的數據集MUSIC-21[16]沒有標注,因此要構建合適的訓練目標。本文采用的是混合分離訓練策略[15],隨機選取兩個視頻,將其音頻進行混合得到混合音頻,網絡訓練目標是還原這兩個視頻的原始音頻,從而達到學習聲源分離的目的。所以訓練時網絡的輸入是兩個視頻的視頻幀以及它們的混合音頻,輸出是兩個視頻分別對應的原始音頻。通過人為地構造監督條件,可以在無標注數據的條件下,完成聲源的分離。

在測試階段,不再隨機選取多個視頻混合,而是直接對給定的視頻進行處理。考慮到人耳對水平方向上的聲音更敏感,因此可以將給定的視頻幀沿水平方向進行切分,將其分割成不同的聲源。首先將視頻幀從中間切分成左右兩個部分,將左右兩側看成兩個不同的聲源。和訓練過程相對應,此時待混合的視頻變為切分后的兩個視頻,而混合音頻則是原視頻對應的音頻。將其輸入到訓練好的網絡中后,可以分別得到切分后的視頻畫面對應的音頻。至此,可以從一個混合的聲源中分離出兩個單獨的聲源。選取兩個分區的中心位置(在原視頻中的位置)作為其聲源的坐標,完成聲源的分離和定位。

在本文中,視覺處理網絡利用的是在ImageNet數據上預訓練的ResNet 網絡,也可以考慮將其換成更大規模的模型,如ViT[17]、Swin Transformer[18]等,將其作為主干網絡進行特征提取,獲得更豐富的視覺特征,不過其對訓練資源的要求也會更高。近年來,結合自然語言處理(NLP)領域的大模型也越來越多,尤其是文本和圖像的結合[19][20]成為了又一個熱點。加入文本模態,用文字提示來輔助對畫面的音頻分離,或許會是一種更有效的方式。

3.2 空間音頻重構模塊

通過聲源分離定位模塊,獲得了聲源及其位置信息,再將其輸入至空間音頻重構模塊,便可以獲得模擬雙耳的空間音頻。該模塊利用高保真環境立體聲(Ambisonics)和雙耳聲重構技術[14],利用多個聲源及其位置重構空間音頻。

和文獻[14]的研究類似,假設聲源分布在一個球面上。不同的是,本文旨在對給定的單聲道進行直接的空間音頻轉換,在轉換過程中不再創建新的視頻。本文將畫面劃分成不同的區域,每個區域看作一個抽象的聲源,不再利用目標檢測對畫面進行裁剪,因為其非常依賴于目標檢測器的精度。聲源的位置坐標也不再是隨機生成,而是計算每個區域的中心位置坐標進行近似。另外文獻[14]要求選取的是單聲源視頻,數據要求較高,本文通過添加聲源分離定位模塊避免了這個問題。

由于假設聲源分布在球面上,首先要進行坐標系的轉換。將平面直角坐標轉換到球面坐標,從而將聲源映射到球面上,即:

得到球面坐標后,可以利用Ambisonics 技術進行空間音頻的重建。將聲源映射到球面后,利用球諧函數分解來對空間音頻進行描述。如果聲源的入射方向為Ω =(θ,φ),則球諧函數可以用式(2)表示:

其中m是階數,l是次數則是伴隨勒讓德多項式是歸一化常數,采用的是施密特正交化。球諧函數可以作為基函數,因此一個給定的從Ω 方向入射的聲音信號可以用式(3)表示:

其中L是最高次數是對應的系數。每一項的系數都可以根據聲源及其位置信息計算出來。因此,只要在聲源分離定位模塊計算出聲源和位置,就可以實現空間音頻的重構。本文只考慮一階Ambisonics 的情況,即有四個方向上的聲道:全向、x 方向、y 方向以及z 方向,每個方向對應的系數同樣可以通過聲源及其所在位置計算出來。

之后我們只需將其轉換成雙耳聲即可,這里需要利用頭相關脈沖響應((Head-Related Impulse Response,HRIR))。先將信號分解成N 個不同方向上的虛擬聲源,利用其球諧函數將其求解出來。求解出的虛擬聲源再和HRIR 進行卷積,由于雙耳聲有兩個聲道,分別進行卷積得到左耳和右耳對應的聲音:

其中hl和hr分別是左耳和右耳對應的HRIR是虛擬聲源。

4 實驗結果與分析

本章主要介紹實驗所用的數據集,并對不同模塊的結果進行展示,以表明其有效性。針對電影畫面,我們首先將其切割成視頻片段,然后對每個片段進行抽幀,并分離出單聲道音軌。再將得到的電影片段視頻幀及單聲道音頻按照第三章的方法進行處理,即可得到具有空間音頻效果的電影片段。

4.1 實驗數據集

在聲源分離定位模塊,本文采用MUSIC-21 數據集[16],其是視覺輔助的聲源定位領域常用的數據集之一。它對數據集MUSIC[15]進行補充,原始數據集包括714 個樂器演奏視頻,涵蓋11 種樂器,分別為:手風琴、原聲吉他、單簧管、長笛、大提琴、薩克斯管、大號、小號、二胡、小提琴和木琴。通過查詢樂器名加演奏擴充后,MUSIC-21[16]共收集了1365 個You-Tube 上的樂器演奏視頻,多為獨奏或二重奏,涵蓋21種樂器,與之前相比新添加了以下10種常見的樂器:電貝斯、風笛、康佳鼓、班卓琴、古箏、巴松管、鋼琴、鼓、琵琶和尤克里里。該數據集沒有額外的標注,其中1065個視頻用于訓練集,300個視頻用于測試集。

在空間音頻重構模塊,本文采用的是CIPIC HRTF 數據集[21]。這是一個實驗測量得到的頭相關傳輸函數(Head Related Transfer Function,HRTF)數據集。在空間音頻重構模塊中,本文利用了頭相關脈沖響應(HRIR),其正是HRTF 的時域表示。將聲源分離定位模塊得到的單聲源與頭相關脈沖響應(HRIR)進行卷積,得到模擬的雙耳聲。也可以先對聲源信號進行傅里葉變換,再與頭相關傳輸函數(HRTF)做乘積得到雙耳聲。該數據集記錄了45 名受試者的相應數據,其中共有男性27 人,女性16 人。其中音頻的采樣率為44.1kHz,16 比特位深。頭相關脈沖響應(HRIR)的長度約為4.5 毫秒,大約200 個樣本點。該數據集在半徑1 米的1250 個方向上進行測量,同時也包含了受試者的身體測量數據。該數據集是常用的HRTF 數據集之一,可以利用它實現對雙耳聲較好的模擬重現。

4.2 聲源分離結果

給定一個視頻幀,往往存在多個同時發聲的聲源,聲源分離定位模塊旨在根據畫面內容將其分解成多個單聲源音頻,本節展示該模塊的分離結果,驗證其有效性。對于聲源分離網絡,訓練和測試階段的輸入有所差異。在訓練階段,輸入在數據集中任選的兩個獨奏視頻的視頻幀及其混合音頻。在測試階段,則只選取了數據集中任意一個二重奏視頻的視頻幀及其音頻作為輸入。將視頻幀沿水平方向分割裁剪,再將這些分割后的視頻輸入到網絡中,得到每個分區對應的聲音。之后再分別計算其中心坐標作為聲源的位置信息。

部分分離結果如圖3 所示。展示的例子中存在兩個聲源,分別是左側的吉他和右側的小提琴。可以從其音頻譜圖中看出,兩種聲源混疊在一起,難以直接從譜圖中進行區分。圖3 中下面兩圖是將該視頻幀從中間等分裁剪后分別輸入至網絡得到的結果。可以看出網絡根據圖像內容將聲源較好地分離出來,從混合音頻中成功分離出來畫面左側的吉他聲音以及畫面右側的小提琴聲音,驗證了聲源分離定位模塊的有效性。

圖3 聲源分離結果展示

4.3 空間音頻重構結果

有了聲源分離和定位的結果,將其輸入到空間音頻重構模塊,模擬現實中的雙耳聲效果。如果我們獲得分離出的聲源后,只是簡單地將它們分別分配給左右聲道,這顯然是不符合實際的。因為人的左耳不止能聽到畫面左邊的聲音,也能聽到畫面右邊的聲音,只是接收到的聲音信號的時間和強度存在著一些差異。因此我們必須根據其在畫面中的位置進行重構,而這正是聲源分離定位模塊的輸出。

部分重構后的空間音頻結果如圖4 所示。由于本文重建的是雙耳聲,所以重建結果中有兩個聲道,分別對應左右耳的聲音。從圖4中可以看出,空間音頻重構模塊將兩種聲源重新進行組合,獲得了模擬雙耳聲的效果。左右兩個聲道的譜圖非常接近,但又存在著細微差異,既不會像單聲道音頻左右耳聽到完全一樣的聲音,也不會像將聲源簡單地分配給左右聲道而聽到完全不同的聲音。當佩戴耳機時可以感受到與畫面一致的有空間感的音頻,驗證了空間音頻重構模塊的有效性。

圖4 音頻空間化結果展示

5 結語

本文介紹了一種視覺信息輔助的音頻空間化方法,可以根據給定的視頻幀直接將其單聲道音頻轉換為空間音頻。該方法包括聲源分離定位和空間音頻重構兩個模塊。首先訓練一個聲源分離定位網絡,然后將給定的視頻幀按水平方向進行等區域劃分,將劃分后的區域看作單獨待分離的聲源輸入進訓練好的網絡,得到對應的音頻。分別取其中心位置作為聲源坐標,編碼得到Ambisonics 音頻,再利用頭相關脈沖響應(HRIR)解碼成雙耳聲。相比單聲道音頻,采用本文方法的結果具有更強的空間感,能給用戶帶來更加沉浸的體驗,可應用到電影沉浸式音頻的制作。由于存儲方式或壓縮等其他因素的影響,部分電影只留下了單軌音頻,當觀眾再次觀看時不能獲得良好的體驗。通過本文方法將其轉換為空間音頻后,可以盡力還原沉浸式的音頻體驗。

本文方法依然有許多局限性,在未來的工作中仍有待改進。本文方法將音頻空間化拆成兩個子任務并順序執行,導致后一個任務對前一個任務有著較強的依賴性。如果聲源分離的效果較差,則在后一步也很難渲染出具有真實感的雙耳聲。例如當畫面中存在兩個相似的樂器時,很難完美地將其分離開。另外在此過程中可能會引入噪聲,導致最終高頻細節缺失,影響音頻聽感。在本文中沒有考慮運動信息,但聲音是由物體振動產生的,對運動的描述有利于更好地重構聲音,這也是未來值得研究的工作。此外,如何進一步提高模型的泛化性,使其能更好地應用到現實世界的視頻中,也是未來需要考慮的方向。對AI 大模型的融入或許是一個解決方法,AI 大模型在大規模數據集上進行訓練,可以引入一些額外的先驗知識,在一定程度上可以緩解部分泛化性問題。另外利用大語言模型(LLM)將文本模態引入,利用文本提示來進行空間化的輔助,也是一個研究方向。

未來我們需要自主提出更多的創新算法,彌補現有不足,并將創新技術應用到實際中,理論結合實踐,努力實現電影科技自立自強,為電影強國的建設添磚加瓦。同時也要捕捉科學技術發展的新趨勢,站在科技發展前沿,研發先進的視聽技術,推動電影產業的持續發展與提質升級。

作者貢獻聲明:

李思佳:設計和實現算法,撰寫論文初稿,全文文字貢獻90%;

劉世光:指導論文框架,修訂論文,全文文字貢獻10%。

主站蜘蛛池模板: 中文字幕免费视频| 精品国产成人高清在线| 亚洲无码A视频在线| 无码不卡的中文字幕视频| 婷婷六月综合网| 精品国产黑色丝袜高跟鞋 | 国产区91| 亚洲成人精品久久| 日韩欧美在线观看| 四虎永久在线| 欧美人人干| 亚洲一欧洲中文字幕在线| 69av在线| h网站在线播放| 国产一二视频| 国产成人免费| 青青草原国产免费av观看| 国模私拍一区二区| 国产原创第一页在线观看| 亚洲日韩每日更新| 五月综合色婷婷| 成人福利一区二区视频在线| 国产精品开放后亚洲| 国产综合无码一区二区色蜜蜜| 高清乱码精品福利在线视频| 日本欧美成人免费| 亚洲美女视频一区| m男亚洲一区中文字幕| 亚洲一区二区三区麻豆| 伊人福利视频| 国产一二三区视频| 91极品美女高潮叫床在线观看| 在线视频精品一区| 国产丝袜91| lhav亚洲精品| 99青青青精品视频在线| 波多野结衣一二三| 国产精彩视频在线观看| 亚洲码一区二区三区| 黄色污网站在线观看| 中文字幕永久在线观看| 97狠狠操| 精品无码一区二区三区在线视频| 色悠久久久久久久综合网伊人| 99re经典视频在线| 亚洲香蕉在线| 欧美三级日韩三级| 无码一区中文字幕| 无码福利视频| 国产精品女熟高潮视频| 亚洲不卡影院| 国产真实乱子伦视频播放| 精品丝袜美腿国产一区| 国产手机在线观看| 国产成人高精品免费视频| 久久精品人人做人人| 久久香蕉国产线看观看精品蕉| 91精品国产一区自在线拍| 五月婷婷导航| 精品久久777| 国产一区二区网站| 亚洲αv毛片| 国产麻豆福利av在线播放 | 亚洲精品福利视频| 无码AV日韩一二三区| 国产尤物视频在线| 国产永久无码观看在线| AV在线麻免费观看网站| 国产成人精品无码一区二 | 欧美劲爆第一页| 成人免费一级片| 天堂久久久久久中文字幕| 亚洲Va中文字幕久久一区| 91极品美女高潮叫床在线观看| 亚洲精品国产日韩无码AV永久免费网 | 欧美日韩国产精品综合| 亚洲高清中文字幕| 综合色区亚洲熟妇在线| 91久久夜色精品国产网站| 国产高清不卡| 亚洲乱码视频| 国产成人盗摄精品|