李紫凈 朱偉

【摘? ?要】 提出在現有的聽音訓練方法上引入視覺信息以輔助進行聽音訓練的設想,梳理聲音可視化及聽音訓練的發展情 況,并對聲音可視化在聽音訓練上的應用進行討論。
【關鍵詞】 聲音可視化;聽音訓練;視聽映射
文章編號: 10.3969/j.issn.1674-8239.2018.10.005
A Preliminary Study on the Application of Sound Visualization in Ear Training
LI Zi-jing, ZHU Wei
( Communication University of China, Beijing 100024, China)
【Abstract】The idea of introducing visual information into the ear training is proposed. This paper reviews the development of ? sound visualization and ear training, and the application of sound visualization in ear training is discussed.
【Key Words】sound visualization; ear training; mapping
1? 研究背景及意義
毋庸置疑,聽音能力對于錄音師來說至關重要。在工作過程中,任何一個錄音參數的設定、傳聲器的選擇和擺位等,都會對最終錄制出來的聲音有一定的影響。這也就要求錄音師能時刻根據聽到的聲音效果做出判斷調整。這種對聲音的專業聽評能力并不是完全與生俱來的,而是隨著工作經驗的累積得到提升,或者通過系統的聽音訓練在更短的時間里取得一定的進步。然而,對于一些剛剛接觸錄音行業的受訓人員,由于缺少實踐經驗和對聲音的敏感性,可能在聽音訓練中無法快速地理解、區別聽音要素。因此,有必要通過一定的方法來幫助受訓人員更好地理解各種聲音要素的變化,提高訓練效率。
在面臨復雜環境時,聽覺、視覺等多種感知通道會產生交互,以保證對當下情況的充分了解。也有研究表明,跨通道的訓練效果等效甚至更好于單通道的訓練效果。因此筆者設想,在現有的聽音訓練機制中引入一個視覺上的參考信息,幫助錄音師從另外一個角度加深對聲音要素的理解,有利于準確快速地達到訓練的目標,提高訓練效率。
在聽音訓練中引入視覺信息,需要保證該視覺信息可以與聲音要素的變化相對應,保證視覺信息起到幫助訓練人員理解聲音信息的作用。因此,該設想的核心問題可以理解為聲音信息的可視化,設想的關鍵在于確定適合于聽音訓練的聲音與圖像之間的映射關系。
2? 聲音可視化的研究現狀
雖然至今針對聽音訓練進行視覺輔助的相關研究寥寥可數,但此類研究開展已久。聲音與圖像之間的映射關系在20世紀就已經被提出。已有研究中,聲音參數大多映射到圖像的顏色、形狀和紋理,其中與顏色空間的映射是常常討論的內容。由于研究方法以及應用情況不同,各個文獻研究所提出的模型也不盡相同。
Walker R(1987)[1]通過實驗研究了四個聲學參數(頻率、波形、幅度和持續時間)的視覺隱喻選擇,結果顯示出以下的傾向:頻率與垂直位置相匹配,幅度與大小相匹配,波形與圖案相匹配,持續時間與水平長度相匹配。同樣,Scott D. Lipscomb與Eugene M. Kim(2004)[2]的實驗也調查了聲音參數音高、響度、音色和持續時間與視覺參數顏色、垂直位置、形狀和大小之間的映射關系,結果顯示:除了持續時間與任何視覺參數匹配程度都并不高外,其他結果與WalkerR的實驗一致。但其發現某些參數并不僅有單一的匹配,例如視覺參數顏色與聲音參數音高和響度均可匹配。Mats B. Küssner與Daniel Leech-Wilkinson(2013)[3]的實驗通過直接繪畫出相應的被試聆聽素材的方法,也驗證了WlakerR關于音高、響度、持續時間的映射關系。
在Giannakis, K與 Smith, M(2001)[4]的實驗里,考量的聲音參數為響度和音高,視覺參數則是HSV顏色空間(Hue-Saturation-Value)。結果顯示,純音的響度和音高可以分別與飽和度(Saturation)和明度正相關;沒有發現色調(Hue)與音高或響度有任何直接的關聯,但色調和某些聲音頻率范圍之間存在一定的關系。Giannakis K(2006)[5]通過實驗探究了音高、響度、音色與兩種視覺映射的關系,其中音色維度展開為尖銳度、緊湊度與不和諧度(粗糙度)。結果顯示,對于音高,高度的映射優于亮度的映射;響度上,映射到飽和度與映射到亮度的兩種理解性都很好;音色上,尖銳度、緊湊度與不和諧度分別映射到紋理粗糙程度、粒度與紋理重復的規則性比分別映射到線數量、像素化和密度更為容易理解。
另外,很多文獻沒有通過實驗來探究基本視聽參數的映射關系,但也提出了在不同應用前提下的可視化解決方案。對于一些需要表征聲音元素的具體位置等信息的可視化模型,很多文獻都將聲音元素表現為球體。David Gibson(1997)[6]在表示混音情況時,就引入球體來表示不同的樂器元素。聲像位置由左右的變化來體現,音量大小主要由前后來體現,音高即頻率高低由上下來體現。Jarrod Ratcliffe (2014)[7]加入手勢的混音控制器中的可視化模型參考了David Gibson的設置。Kaper H G, Wiebel E與Tipei S(2000)[9]的M4Cave為呈現聲音在聲場中的位置,將聲音呈現為一組球體,頻率決定球體沿垂直軸的位置,振幅與球體大小成比例,混響則會影響球體顏色。Outram B I. (2016)[10]在對音樂的可視化中,把頻率映射到顏色,即將聲音的等響度校正的對數頻率功率譜映射到有效可見光功率譜上,音量映射到球體大小,不同的樂器音軌對應著上下空間中不同的行,時間處于前后向的空間維度上。
同時,還有一些不同應用環境下的可視化模型在視聽要素的選擇上另辟蹊徑。Stephen V. Rice (2005)[13]直接制定了從聲音頻率信息到顏色的映射關系,例如紅色成分的顏色會分配給高頻,深色分配給低頻,中頻至高頻呈綠色,低頻至中頻則呈藍色等,以達到使用者更快識別音頻片段的目的。Grill T與Flexer A(2012)[14]將音高從高到低的映射選擇為亮度與色調相結合,即從明亮黃色到深紅色;同時其還將一些聽覺主觀感受作為可視化對象,比如將樂音程度、有序性、粗糙程度等映射到色彩飽和度、瓦片元素的規律性、瓦片元素輪廓的粗糙度等。后續調查評估顯示,被試者可以將聲音與正確的圖像相關聯。另外,對于部分涉及音頻檢索的可視化應用,其聲音要素的選擇就更加多樣。George Tzanetakis(2000)[15]通過主成分分析(PCA)提取特征向量的前三個主要分量,將其映射到RGB或HSV顏色空間中的顏色。Andrew Mason, Michael Evans與 Alia Sheikh(2007)[16]也選擇了三種音頻特征(過零率等)映射到RGB顏色空間。
綜上所述,可視化中考慮的聲音要素一般都會涉及音高(頻率)、音量(幅度),對于音色,有的文獻將音色看作一維維度(僅使用不同的樂器素材來表示),也有文獻將音色展開為尖銳度、緊密度、和諧度等多維度。視覺要素則比較多樣,軸向位置、大小、形狀、顏色、紋理排布等都有被使用;對于顏色,部分文獻使用了顏色空間的理念,部分文獻僅選用幾種顏色進行探討,也有文獻將可見光譜展開來進行映射;形狀、紋理排布的選用也都各取所需。另外,由于應用不同,對于可視化的需求就有一定差別。比如對樂曲等可視化就需要考慮樂曲本身所帶有的其他音樂屬性,音頻檢索等則考慮識別效果。另外,從一些文獻的實驗結果來看,對某一參數的映射并不是唯一的:音高映射到高度、亮度、顏色都是可以被識別的;基于光波長變化的顏色也均能與音高和響度匹配。因此,可視化的選擇并不是唯一的,具體的可視化方案必須從應用層面出發,選擇合適的映射關系。對于視覺輔助聽音訓練的聲音可視化這一應用情況,需要綜合已有可視化的成果來進行新的建構,以突出聽音訓練所需要關注的聽覺要素。
3? 聽音訓練的方法背景
聽音訓練的方法自Letowski(1985)[19]就已經開始了研究。基本訓練方法是讓受訓人員將參考信號與其經過聲學修改的版本進行比較,了解其差異,然后重復此過程直到他們能夠可靠地確定聲音差異。通過重復和定期練習,人們可以獲得對聲音細節更高的敏感度,提高耳朵識別信號處理中特定參數的效率和準確性。傳統上,聽音訓練是團體培訓,需要專業的講師指導。講師可以為受訓人員提供一定的示范講解,受訓人員也可以分享聽覺體驗,達成一定的交流反饋。但其對時間、環境、人力都有一定的要求。這種情況下出現了各種形式的教材,如D. Moulton 的“Golden Ears”CD, HARMAN的“How to listen”、L. Herranz的“Train your ears”等軟件,以及書籍與軟件結合的Jason Corey的“Audio Production and Critical Listening: Technical Ear Training”[20]等。隨著計算機水平的發展,目前很多關于聽音訓練軟件中的互動反饋、自適應、個性化難度設置的研究也取得了一定的成果。
4? 聲音可視化在聽音訓練上的應用
有很多研究表明,跨模態訓練存在潛在的學習優勢。首先,當同時有多種感官參與訓練時,學習的注意力自然會更加集中。第二,關聯性強的其他模態的信息介入,有助于學習者產生聯想記憶。第三,跨模態的訓練可能會引導學習者擴展發現單一模態下不容易注意的信息。
其實,在相關音頻工作中已經依靠了一定的視覺提示,如電平表、波形顯示和一些直觀的信號處理參數。相較于視覺信息,聲音的無形性更加明顯,因此,需要一些具體而有形的信息來幫助認識抽象概念。所以,對于新手來說,相比于聲音信號的細微變化,視覺信息的變化會更容易被注意到。
目前,將視覺信息與聽音訓練聯系起來的研究仍然寥寥無幾。Thilo Schaller與Ian G. Burleigh [21]提到了應用可視化的聽音訓練方法,試圖通過可視化來解釋相關理論,例如演示了復雜的周期波形的正弦分量加法合成,來表現分量的幅度相位變化對整體聲音的影響;使用音高螺旋(PitchSpiral)來演示復雜音調的諧和性等。對于聽音訓練,則開發了噪聲螺旋(Noise Spiral),如圖1所示,來進行均衡的頻帶變化識別,噪聲螺旋可以顯示頻率及元音共振峰數據,與其他聽音訓練方法類似,要求受訓人員通過噪聲或音樂等素材來進行識別頻率帶的提升或衰減。
Thilo Schaller與Ian G. Burleigh的可視化則聚焦于如何讓受訓人員更好地理解聽辨內容的原理,其可視化需要一定的注意力去觀察理解,而并非是直觀的視覺感受。
可視化是否必須精準細致,是值得討論的。如果追求精準的聲音可視化,實時頻譜分析無疑是一種細致清楚的方法,可以準確客觀地顯示頻率成分等。但大家并不會在平時的混音工作中十分依賴它,原因在于聲音信號是時刻變化的,實時頻譜也隨之變化,使其難以被迅速理解,反而分散了大量的注意力,增加了工作負擔。這也是這類精準的可視化對聽音訓練不適用的原因。
聽音訓練可視化的目的并不是為受訓人員提供詳細的頻譜內容。聽音訓練的本質仍然在于“聽”,如果視覺信息喧賓奪主反而會起到反作用。因此,該可視化模型的具體呈現需要比較簡化,使其在起到提示作用的前提下,盡可能少地分散用戶的注意力。
在聲音對應的音高、響度、音色三大特征中,音高與響度主要的影響因素就是頻率和幅度,而音色是一個多維屬性,不同的樂器、不同的發聲方法會使音色變化萬千。值得一提的是,普通人就已經具備分辨出小提琴與大提琴音色不同的能力了,因此,在音頻工程師的工作中,對這種顯而易見的音色變化的辨別是不需要去練習的,需要練習的是來自于信號處理帶來的頻譜內容以及頻譜平衡上的一些變化。所以,筆者選擇了頻率和幅度作為聽音訓練可視化中考量的聲音要素。
對于視覺素材的選擇,正如前文所述,并沒有完全統一的結論。在此處,筆者更加傾向于在頻率與色調、幅度和亮度之間建立聯系。眾所周知,頻率與聲波的波長有關,而色調也與可見光的波長有關,顏色的冷暖與聲音的冷暖也都具有一定的類比關系。幅度和亮度都是一種能量多少的象征,即都來自強度這一概念,兩者之間也可以較好地建立聯系。這一可視化方案的視覺參數較少,在視覺呈現上用色塊的亮度變化即可完成,可以達到簡潔且非絕對化的提示作用。
另外,給用戶一個來自于其他模態的提示信息,某種意義上是需要靠受訓人員的直覺來感應的。“直覺”的概念是模糊的、因人而異的,是否能起到幫助理解的作用,也與其自身的知覺感應有關。具體的可視化方案的優化及其效果仍然需要通過后續的系列實驗來進行驗證。
參考文獻:
[1] Walker R. The effects of culture, environment, age, and musical training on choices of visual metaphors for sound[J]. Perception & Psychophysics, 1987, 42(5):491-502.
[2] Lipscomb S D. Perceived Match Between Visual Parameters and Auditory Correlations : An Experimental Multimedia Investigation[C]// International Conference on Music Perception & Cognition. 2004.
[3] Kussner M B, Leech-Wilkinson D. Investigating the influence of musical training on cross-modal correspondences and sensorimotor skills in a real-time drawing paradigm[J]. Psychology of Music, 2013, 42(3):448-469.
[4] Giannakis K, Smith M. Imaging Soundscapes:identifying cognitive associations between auditory and visual dimensions [J]. Musical Imagery, 2001, 161-179.
[5] Giannakis K. A comparative evaluation of auditory-visual mappings for sound visualisation[M]. Cambridge University Press, 2006.
[6] David Gibson.The Art of Mixing[M]. MixBooks , 1997.
[7] Ratcliffe J. MotionMix: A Gestural Audio Mixing Controller[J]. 2014.
[8] Ferguson S, Moere A V, Cabrera D. Seeing Sound: Real-Time Sound Visualisation in Visual Feedback Loops Used for Training Musicians[C]// International Conference on Information Visualisation, 2005. Proceedings. IEEE, 2005:97-102.
[9] Kaper H G, Wiebel E, Tipei S. Data sonification and sound visualization[C]// Computing in Science and Engineering. 2000:48 - 58.
[10] Outram B I. Synesthesia audio-visual interactive-sound and music visualization in virtual reality with orbital observation and navigation[C]// IEEE International Workshop on Mixed Reality Art. IEEE, 2016:7-8.
[11] Ford J, Cartwright M, Pardo B. MixViz: A Tool to Visualize Masking in Audio Mixes[J]. 2015.
[12] Wedekind S, Fraundorf P. Log complex color for visual pattern recognition of total sound[J]. Journal of the Audio Engineering Society, 2016:Paper Number 9647.
[13] Rice SV, Frequency-Based Coloring
of the Waveform Display
to Facilitate Audio Editing and Retrieval[J]. Journal of the Audio Engineering Society, 2005:Paper Number 6530.
[14] Grill T, Flexer A. Visualization of perceptual qualities in textural sounds[C]// International Computer Music Conference. 2012:Paper Number 9647.
[15] Tzanetakis G, Cook P. Audio Information Retrieval (AIR) Tools[J]. IN PROC. INT. SYMPOSIUM ON MUSIC INFORMATION RETRIEVAL (ISMIR, 2000:II-725 - II-728.
[16] Mason A, Evans M J, Sheikh A. Music Information Retrieval in Broadcasting: Some Visual Applications[J]. 2007.
[17] O'Sullivan L, Boland F. Visualizing and Controlling Sound with Graphical Interfaces[C]// Audio Engineering Society Conference:, International Conference: Audio for Games. 2011.
[18] Berthaut F, Desainte-Catherine M, Hachet M. Combining audiovisual mappings for 3D musical interaction[C]// 2010.
[19] Letowski T. Development of Technical Listening Skills: Timbre Solfeggio[J]. Journal of the Audio Engineering Society, 1985, 33(4):240-244.
[20] Corey, Jason. Audio production and critical listening : technical ear training[M]. Focal Press, 2010.
[21] Schaller T, Burleigh I G. Using Web Audio for Ear Training of Sound Engineers[C]// UkAes Conference on Audio Education. 2015.