毛潤坤 張 瑩 董雪婷
(上海大學上海電影學院 上海 200072)
隨著虛擬現(xiàn)實技術的飛速發(fā)展,目前國內外各大流視頻平臺大都開設了虛擬現(xiàn)實板塊,這種新型的影視模式越來越貼近普通觀眾的生活。隨著5G時代全面到來,虛擬現(xiàn)實影視內容將迎來新一輪的爆發(fā)增長。同以上發(fā)展趨勢形成鮮明對比的是內容制作上的探索還停留在初期,是一片亟待深入開發(fā)的領域。雖然在虛擬現(xiàn)實影片中針對聲音的特點及設計要求[1]、還音制式[2]等方面已有許多廣為認可的觀點,但是針對聲音的內容設計上所做的研究還難以匹配虛擬現(xiàn)實對高真實感和高沉浸感的要求。針對此現(xiàn)狀,有學者提出將生態(tài)聲學中的聲景觀理論引入虛擬現(xiàn)實影片的聲音設計中[3-4],但該類研究只是從聲音設計的美感和人文關懷的角度將兩種學科融合,提供了一種新的審美角度,但未解決具體聲景設計中缺乏更精細、客觀的標準這一問題。
本文從科學量化的角度,提出了一種基于生態(tài)聲學的綜合算法,通過量化聲景中的各種元素之間的比例和特征,從而用數(shù)值表達該虛擬現(xiàn)實影視場景下的地點、時間、生物氛圍等基本信息,以解決傳統(tǒng)聲音設計中過于依賴聲音設計師主觀聽感和生活經(jīng)驗所導致的空間信息模糊、聲音元素比例不夠精確等問題。本文方案給影視聲景設計師提供了精準的輔助判斷依據(jù),幫助其構建一個貼近現(xiàn)實世界的聲景觀。
影視聲景的研究主體是故事發(fā)生的背景環(huán)境下的聲音構建,與故事內容和情緒烘托等相關元素無關。它需要提供的信息一般包括地點、時間和天氣等,但又不應該出現(xiàn)對主角的動效或者臺詞產(chǎn)生任何干擾的聲音。其設計原則是:在還原客觀真實世界中的自然聲景信息的前提下,避免有較大動態(tài),避免有記憶特征的聲音信息出現(xiàn),以此來保證影視聲景的沉浸感和對故事敘述的低干擾及可持續(xù)性。
針對影視聲景設計是基于對真實自然聲景的還原這一設計原則,本文方案理論基礎來自以自然聲景為研究主體的生態(tài)聲學。該學科發(fā)展時間久、成果較多,有較為完整的研究體系。
經(jīng)過國內外生態(tài)聲學的學者的大量研究總結發(fā)現(xiàn)[5-6],自然景觀下的聲景元素可依據(jù)其發(fā)生動機分成自然聲、地球聲、人為聲三類。其中自然聲指的是自然環(huán)境中不包括人在內的生物所發(fā)出的鳴叫聲,如鳥叫、蟬鳴等;地球聲則指的是地球現(xiàn)象所產(chǎn)生的聲音,如風聲、雨聲、海浪聲等;人為聲指的是一切由人類活動或者人類生產(chǎn)所產(chǎn)生的聲音,如交通聲、機器轟鳴聲等。這三類聲音在頻率分布上有一定特性,自然聲主要集中在3~8 kHz,若空間中出現(xiàn)了利用超聲波進行活動的動物(如蝙蝠等),這個頻率段將會擴展至8 kHz以上;人為聲的主要頻率段則集中在0.2~1.5 kHz;地球聲則因為其頻率上的彌漫性,其頻率特性類似顏色噪聲這一類音頻。
NDSI[7]指數(shù)通過計算人為聲與自然聲在聲景中的比例,從而反映人類活動對環(huán)境的影響。在影視聲景的量化體系中可轉化成對地點信息的描述。通過采集到聲景觀音頻的PSD,計算人為聲和生物聲的頻率范圍內PSD積分的矩形估計值。利用如下公式,得到NDSI:
(1)
式中:a表示人為聲分量;b表示生物聲分量。NDSI值越趨近于1則表明該景觀下自然聲占比更多,影視聲景所處地點城市化程度較低,環(huán)境比較自然幽靜;而越趨近于-1則表明人為聲占比更多,影視聲景所處地點城市化程度較高,以各種交通聲、機器聲為主。
ACI[8]計算的核心思想是計算兩個元時間段上的功率波動的情況。最開始這個指標是為了量化鳥類的叫聲,因為鳥類叫聲的發(fā)聲頻率和聲功率變化相比人為聲來說變化比較大,在聲譜矩陣上表現(xiàn)為相鄰時間出現(xiàn)較大的波動。但是后來逐漸發(fā)展到昆蟲一類的生物檢測,其可表示這片區(qū)域的生物活躍性[9]。在影視聲景的量化體系中可轉化成對該區(qū)域自然氛圍的描述。該描述一方面可結合實際的生活經(jīng)驗為觀眾提供大致的時間信息,另一方面可烘托影視場景的情感氛圍,是死氣沉沉還是生機勃勃。
具體的計算流程如下:
通過短時傅里葉變化,將所獲得的音頻文件提取出功率譜矩陣。記L頻段上相鄰單位時間上的功率差異為dk:
dk=|Ik-I(k+1)|
(2)
再將元時間內的相鄰功率差之和記為D:
(3)
式中:n為元時間內單位時間的個數(shù)。又為了消除麥克風距離對其相關密度的影響,故將所得D與該元時間上所有單位時間的總功率之和相除:
(4)
至此,得到在某特定頻段上一個元時間內的ACI,將時間橫軸擴充到文件長度,則某特定頻段上的全文件長度ACI為:
(5)
式中:m為全文件長度中元時間的個數(shù)。頻率縱軸擴充到全頻段,則得到了整個文件完整的ACI值:
(6)
式中:q為頻率段數(shù)。
ACI值與生物活躍度成正比,當ACI值越大時則表明該區(qū)域生物活躍的越高,則說明該影視聲景觀中鳥叫或者蟲鳴聲較為頻繁。
因為天氣變化產(chǎn)生的地球聲具有廣頻的頻率特征,在量化時將其視作噪聲進行估計。利用的是噪聲估計中的MCRA,其原理是信號聲音活動期間,信號在單點頻段上會發(fā)生衰減,最終與噪聲功率持平,因此可以采用該算法來持續(xù)更新噪聲功率的變化?;贛CRA的SNR計算流程如圖1所示。

圖1 基于MCRA的SNR計算流程
根據(jù)平均遞歸的通式,可得噪聲估計值:
D(λ,k)=αs(λ,k)D(λ-1,k)+

(7)
根據(jù)譜減法的原理,原始音頻的組成為:
Y(λ,k)=X(λ,k)+D(λ,k)
(8)
在已知Y(λ,k)和D(λ,k)的情況下,可知X(λ,k)。代入式(9)可得SNR。
(9)
SNR與地球聲含量成反比,SNR越大則天氣因素的影響較為微弱,而SNR越小則風聲或雨聲的能量較多,其能一定程度上在影視聲景觀的重建中量化天氣因素。
所用實驗樣本來自實地全景聲錄制。錄制設備為Tetra Mic麥克風和ZOOM H6錄音機,所得音頻格式為Ambisonics A Format。錄制地點有兩處,Location1為上海市靜安區(qū)內距離四車道主干馬路100米左右的開放式居民區(qū),Location2為遠離主干馬路的小區(qū)深處小樹林。
經(jīng)過剪輯處理,最后采集得到樣本46個。其中包括晴天天氣下兩個地點上午、下午各10個音頻片段,以及大風天氣下分別在兩個地點錄得的3個音頻片段。
原始錄制所得樣本中包含4軌獨立的單聲道音頻信息,經(jīng)由Sennheiser公司提供的格式轉換插件AMBEO A-B Converter,將錄音獲得的A Format信號轉換成B Format信號,最后將所得到的包含完整空間信息的B Format信號用Magnitude-LS的方式[10]進行雙耳解碼,得到雙聲道音頻文件。將該雙耳信號進行量化計算,得到結果如表1所示。

表1 所有樣本的量化結果
表1總結了全部46個樣本的三項指標結果的平均值。其中NDSI指數(shù)描述影視聲景的地點信息,數(shù)值越高則說明場景所在的城市因素占比較低,可能處于樹林、公園、鄉(xiāng)村等城市化程度較低的區(qū)域。ACI指數(shù)描述影視聲景的生物氛圍信息,數(shù)值越高表明生物活躍度越高,根據(jù)日常生活經(jīng)驗大致可判斷聲景的時間信息。SNR指數(shù)描述影視聲景的天氣信息,反映天氣元素的強弱,數(shù)值越大則表明天氣成分占比少,傾向于微風、細雨等天氣。
46個聲景觀采樣樣本的NDSI數(shù)值和ACI數(shù)值計算結果如圖2所示。

(a)所有晴天樣本中ACI數(shù)值的量化結果
在晴天沒有地球聲干擾的情況下,結合之前對兩處采樣點的客觀環(huán)境介紹,實驗結果非常直觀地從聲景觀采樣中的自然聲與人為聲的比例和自然聲的活躍度兩個方面區(qū)分了這兩個區(qū)域的所在地點和時間。小樹林的聲景觀采集下的NDSI數(shù)值、ACI數(shù)值比同時間段的臨近馬路的小區(qū)要高,與其所在地點較為幽靜、自然生態(tài)系統(tǒng)比較活躍有直接關系。另外在同一地點的不同時間段的對比看來,兩處采樣環(huán)境下均是早上的生物活躍度較高,自然聲與人為聲的比例較高,這樣的采樣結果客觀上是符合生物活動規(guī)律和人類社會活動規(guī)律的。從兩處采樣景觀早上、下午的NDSI和ACI數(shù)值差異來看,兩處ACI數(shù)值在上午下午的差異比較一致,說明了這兩處單純的生物活動的變化較為一致,而臨近馬路的小區(qū)早上與下午的NDSI數(shù)值差異比小樹林的更大,說明該處聲景觀的變化受人類活動影響更明顯。
而在刮風天時,比較兩處采樣點的NDSI和ACI數(shù)值所反映的聲景觀中的人為聲和自然聲的特征上與晴天時相似,而量化風聲的SNR數(shù)值則顯示,臨近馬路的小區(qū)的風聲比小區(qū)樹林的風聲更大。因為實際風量的大小同一時間不同地點會不一樣,同一地點的不同時間也會不一樣,所以對地球聲的量化是否精準,將在主觀聽感實驗中具體討論。
從聲景設計的根本是聽感這一原則出發(fā),本文設置了主觀聽感的語義分析實驗[11],將該實驗結果與本文提出的量化算法得到的數(shù)值相比較,以判定景觀經(jīng)算法量化得到的數(shù)值是否符合設計師對影視聲景觀設計的主觀感受。主觀聽感語義分析實驗設置如下:
挑選接受過聲音設計教育或有相關經(jīng)驗的人員10名進行試聽實驗,試聽主要分為兩個部分,分別針對晴朗天氣下NDSI和ACI與主觀聽感中對地點和自然氛圍的判斷是否匹配,以及刮風天氣下SNR用于量化風聲對于整體聲景觀比例的準確性,以此來描述天氣因素的強弱。
第一部分的測試內容是晴朗天氣下的所有采樣中,忽略采樣地點和時間等因素,選取的5條聲景觀素材;第二部分的測試內容則是在忽略地點的情況下,在所有刮風天的采樣中,選取5條聲景觀素材。
設置的語義量化如表2所示。

表2 各項特征的語義量化表
實驗所得主觀測試結果和算法量化結果的趨勢如圖3所示。

(a)測試樣本中ACI的主觀客觀結果比較
可以看出,關于影視聲景中地點因素的量化,主觀測試的結果與算法量化的結果趨勢基本保持一致,可以證明基于NDSI的聲景觀人為聲與自然聲比例算法在計算結果上與專業(yè)的影視聲景設計師對與地點因素的考慮是有同一性的,說明其在實際運用中有可靠性。另外關于自然氛圍的量化,主觀測試結果與算法量化的結果在趨勢上大致上是相似的,只有在1號測試樣本或者4號測試樣本中,主觀測試與算法量化的結果出現(xiàn)了細微的差異。原因可能應該是4號樣本主觀測試的聽感低于所期待的算法量化值對應的聽感,因為4號測試樣本中人為聲的比例較高,城市交通噪音對樣本中鳥叫音在聽感上產(chǎn)生了掩蔽效應,所以在聽音測試中,部分鳥類的活動被人耳忽略,而導致了這樣的主觀客觀之間的差異。
關于風聲對其他信息的掩蓋程度方面,主觀聽感測試的結果與算法量化的結果基本保持了一致。補充證明了基于SNR的地球聲與其他聲音成分比例的算法在實際的影視化聲景觀設計中是可靠的。
本文方案基于學科融合的思想,利用科學量化的手段,為聲音設計師在重塑某特定時間地點的影視聲景觀時提供了一個相較于傳統(tǒng)影視聲景觀制作而言更為精準、直觀的方式,能給予客觀的量化參考,方便其做出理智的分析,創(chuàng)作出符合實際情況的聲景觀。實際運用中,聲音設計師在為虛擬場景做聲景觀設計時,可將自己作品的聲景觀指數(shù)與參考聲景觀指數(shù)作比較,從三個維度有的放矢地去修改設計中與實際情況有出入的部分。該方案通過與實際客觀情況作分析,聲景觀的量化情況符合實際;與聲景觀設計師的主觀測試打分的結果進行對比和分析,雖然發(fā)現(xiàn)了一定程度的出入,但在合理范圍之類,且恰好可以證明科學量化的結果能在一定程度上彌補人耳的聽覺效應。下一步的研究工作計劃如下:(1)豐富對地球聲的采集,不僅是針對風聲的樣本的補充,還須采樣更多元的地球聲種類;(2)拓寬采樣點區(qū)域的類型,將現(xiàn)在的兩個采樣點拓展成更多種類的環(huán)境,以進一步精細該方案。