黃阿羅李 莽
(1.四川音樂學院,四川 成都 610021;2.電子科技大學,四川 成都 611731)
聲樂演唱中音色的評價標準在客觀評價軟件算法中的運用*
黃阿羅1李 莽2
(1.四川音樂學院,四川 成都 610021;2.電子科技大學,四川 成都 611731)
本文首先研究了聲樂演唱中主觀音色評價的普適標準,然后論述了如何將這些標準進行量化和編碼表達,以輸入智能客觀評價軟件的方法。文中簡要敘述軟件中核心算法的工作原理和實現方法,以及最終的測試結果。本文的核心是建立主觀評價與機器客觀評價的關聯關系,使得聲樂演唱的智能評價結果符合主觀評價標準,以進一步推進聲樂智能評價系統走向準確和實用化。
聲樂演唱;音色評價;主觀評價;客觀評價
聲樂演唱的客觀評價是研究采用計算機對演唱錄音進行處理的方式,將聲音作為隨時間變化的物理量,提取其物理特征并完成對聲音的客觀評價的智能信息技術。針對聲樂演唱的聲音處理技術目前也是信號與信息處理國際學術界研究的熱點,并取得了長足的發展。客觀分析和評價軟件可以運用到聲樂比賽打分環節中,減少人為的偏見和疏漏,也可應用到聲樂學習的過程中,為演唱者提供實時的輔助,以及時糾正演唱中的不當之處,幫助其調整到最佳的聲音狀態。可以預想,機器客觀評價將有可能成為聲樂專業領域中一個強有力的工具。
本文就將探尋一種智能的方法來仿真音色的主觀感受。為此,本文采用了先進的人工神經網絡的智能算法來完成對音色效果的機器學習和自動辨別。具體將采用多層感知器來建模神經網絡,將人腦對音色的感受編碼為數值向量,而在人工神經網絡各層的節點上完成表達,完成主觀感受的算法定義。從而可以通過節點向量模式識別方式,完成音色評價。
本文設計的客觀評價軟件將借鑒目前國際上先進的智能語音分析算法來實現。學術界大量的研究和語音處理領域的大量工程應用已經取得了很好的實驗結果,因而確保了該軟件具有優異的性能,且開發思路符合聲音演唱的專業特征。軟件的使用分為學習和判斷兩個階段,軟件在學習階段一方面需要輸入主觀評價標準的編碼內容,另一方面需要大量的樣本來訓練算法的多層感知器。訓練的過程是有導師的,即提供答案的。訓練是算法迭代運算的過程,直至算法收斂到穩定地節點權值。大樣本訓練的結果是獲得了一個客觀評價標準的表格,它可能以節點權值定義的矩陣或關系數據的形式給出并存儲于計算機中。軟件在訓練學習完成之后才算已經準備完畢,可以進入測試階段了。
在這一過程中,研究關鍵在于評價準則問題,即確保客觀評價的準則符合主觀標準。顯而易見,聲樂歸根到底是一種人文藝術,信息技術只是聲樂評價的一個輔助工具,評價的準則一定是人本位的,是主觀的。于是,如何將聲樂藝術主觀評價的普適部分物化、算法化,而使其具有對基于信息技術的聲音客觀評價軟件的控制能力,已變成為聲樂智能分析中急需解決的問題。換句話是說,這一問題就是如何完成主觀評價的規則與客觀分析軟件的連接。這就是本文研究的問題和動機。
本文首先討論聲樂演唱中音色的主觀評價標準,我們將去除個性化的內容,提煉出一些普適公認的標準。進一步再討論如何將這些標準物理化、數學化,最終令其轉化為信息技術中可以控制代碼運行的一組標準控制碼。然后簡要介紹了聲音客觀評價的核心算法工作原理,以及聲樂演唱定制的聲音處理軟件,論述了主觀準則在處理軟件中如何貫徹和控制,最終讓機器完成符合主觀標準的聲樂評價。論文最后給出了軟件實驗的結果和分析。
目前聲樂演唱的評價過程大都是人為的,其評判結果都可能帶有各自的偏好和個性特征。但在藝術為眾人接受的同時,也很大程度地具有共性審美標準。聲樂演唱專業發展到現在,審美同一性是顯而易見的。因而事實上已經在相當大的程度上形成了較為統一的評判標準,不僅僅多數評價者的主觀審美趨向于這樣一種統一標準,而且大眾取向也影響并認可這樣的標準。這樣的同一性是藝術固有的特征,也是本文研究在客觀評價中貫徹統一的主觀標準的可行性前提。因而這部分研究的目的十分明確,即在建立客觀評價系統之前,我們應明確主觀和客觀兩種評價方式的標準是統一的,且均基于聲樂基礎理論并與傳統聲樂演唱共性審美的聽覺標準相吻合。
在聲樂的評價系統中,音調、音色和節奏是主要的參考指標。如果我們將聲音看作是一個時間序列,這樣的參考指標則是最易于物化的時間序列特征參數。在目前的客觀評價方式中音準和節奏都已經有比較多的研究,并已經編寫出軟件應用于一些娛樂活動或比賽參考中。而音色這個指標因為其建模的難度研究較少,也尚無一個比較準確的評價軟件。
本文的核心問題集中于聲樂演唱的音色評判。但音色是典型的具有多樣性的模糊評價指標,而且相對于音準和節奏來說更難以提煉出其物理模型。這也是本文研究的難度所在。
通常情況下,通過正確的發聲訓練,有正常嗓音條件的聲樂學習者都能完成相應難度的作品。但每個人都有屬于自己的獨一無二的嗓音,每個人的先天嗓音條件和訓練過程的好壞不同都會造成唱出來的音色有或多或少的差別。比如那些聲帶寬長和有力量的嗓音與聲帶細窄、力量柔弱的嗓音哪怕是經過完全相同的訓練過程,最終的音色都可能是有極大差別的。在共性審美中有力量、輝煌的音色能引起更多的青睞,而細、暗的音色則不那么受歡迎。這是本文所構建主觀評價準則模型時考慮的規則之一。第二,同一個人演唱不同音區的音符也具有不同的音質。同一聲區的音質更相近。除了先天條件以外,不同的喉頭位置、不同程度的呼吸都會產生不同的音色效果,通常,喉頭位置低且穩定的音色更寬厚和富有金屬感,而喉頭位置高且不穩定的音色就細窄、暗淡。有良好呼吸支持的聲音穩定、結實,而呼吸支持淺的聲音則虛弱、搖晃,缺乏穩定性。以上兩點是本文評價音質優劣的兩個主要方面,我們會采用不同的數值編碼去表達這兩個指標的好壞,并采用聲樂專業經驗加權來獲得一個最終的編碼模型,再將其與多層感知網絡的節點狀態向量對應起來,以模擬主觀的音色感受。在此過程中我們要對數值的方差進行歸一化,而且對其均值進行調整找到好壞的中間點,平衡正負數值,以為最終訓練完成對音色的感知奠定基礎。
在如上過程中,識別問題是評價的核心問題和先決步驟。識別方法是采用對聲音波形進行數據分析的途徑。分析方法主要是準則研究、數據建模與算法研究、軟件設計等方面。其中最主要的問題是算法研究部分。學術界已廣泛開展了識別算法的研究,目前先進的處理算法采用人工神經網絡的方法,通過建立一個基于人工神經網絡的非線性模型,設計相應的算法,采用訓練序列完成其中參數和權值的計算。基于人工神經網絡進行樣本訓練之前首先要對主觀評價標準進行整理和標準化,并進行量化和數學表述。這一過程建立在主觀評價標準基礎上,首先對每個音色中各種特征進行初步的預分類。比如,好的音色里包含有良好的泛音、干凈的基音,聲音的振幅小而快,聽覺上是“密度大”、“明亮向上”的聲音形象,而差的音色則會是不規則的泛音和雜亂的基音,聲音的振幅大而慢,聽覺上就會覺得“笨重”或者“虛弱向下”。有的聲音又介于好和差之間,又要區分到底“好”的因素多還是“差”的因素多,好音色中泛音的因素占了多少,基音的因素占了多少,還有一些無法描述的感覺占了多少,即應當不僅僅給出定性的結果還要給出量化的數值指標。因而我們在構建模擬神經網絡時都要把每個維度都考慮進去,進行量化并完成數學表達。網絡訓練的過程就是將主觀評價與網絡特征量相聯系在一起,完成單一或復合特征的提取。提取出的特征與人工神經網絡的節點連接狀態匹配相連,不同的音色特征對應不同的節點狀態,經過多次學習訓練之后,就形成了和主觀評價相一致的一套節點狀態和特征量。
從原理上講,人在進行主觀評價活動的時候,不同的音色會帶來不同的神經反應。比如聽到刺耳的、泛音振動比較雜亂的聲音時,神經系統里就會有相應的部分激活、發熱。而聽到聲音位置高、泛音振動有規律的聲音時,神經系統中的激活、發熱的部分就會區別于聽到另一種聲音。也就是說不同音色造成的不同程度的緊張感和舒悅感。在神經元的連接點是有區別的。這些不同的神經元的狀態,各個突觸之間不同的連接形式都是客觀評價方式可以參照的具體數據。這些數據被量化到具體的算法中,首先對單個聲音進行評價,即某個聲音在短時值的飽滿度、明亮度的分數如何。接著再看這個聲音在延長過程中的保持度如何,聲音色彩上有無衰減和增強,向上向下的程度有多少。對這些狀態作出整體評分后,再看演唱兩個音的過渡狀態如何。在一個音向另一個音轉換時,有多少音色參數上的改變,有了對連接過程的評分,才能進行到對長樂句的評價。而單個音的評價和對長句子的評價是有各自相應的算法,并不是單個音的簡單相加。因此,對過渡音的評分就需要更多的參數來描述,如泛音振動幅度的變大變小、尖銳度的變高變低、飽和度的變濃變淡等。涉及到的維度越多,評價的精確性就越高。在進行總體音色的評分之后,對每一種音色特征也可作出具體評價,比如聲音亮度、飽和度、柔和度、金屬感、穿透力等主觀評價中常用的評價角度。而各個音色特征對應相應的聲樂技術點,比如聲音的穿透力評分高的,就對應歌唱呼吸運用良好。在兩個音的連接中,聲音穿透力分數下降,就對應歌唱呼吸動力減弱。聲音亮度分數高,就對應聲音位置高。聲音飽和度分數高,就對應歌唱腔體打開充分。這個階段可稱為反饋或修訂階段,這在聲樂教學的課后練習中可以起到“老師”的作用。這個“老師”可排除自身的其他狀態等原因,準確且不辭辛勞的起著指導作用。本文主要以前期的音色特征的評分為主,以此為基礎,反饋階段可作為下一步的延伸研究。
本文設計的客觀評價軟件算法中使用到的模型是卷積神經網絡。該網絡也被廣泛應用于圖像處理和自然語言處理當中。目前在這些領域都有較為成熟的成果,它們與音色特征提取在算法上有相通之處,但參數設定、訓練過程等又有各自的特點。接下來本文就將介紹具體實施過程及可能發生的結果。
在構建這個模擬神經網絡之前,我們需要獲取數據和并做好準備。為此我們進行了一系列的數據采樣,使用的數據集包括錄制的不同程度的聲樂學生演唱的聲音以及一些歌唱家的錄音,并通過人工的打分來設定這些聲音音色的優劣,進行一個數值評價。這個數據集包含多個音色樣本,及其對應的評價權值。該數值應當是平衡的,例如,采用0作為音色的中間質量,正數作為優質等級,負數作為反方向質量等級。我們對這個數據集進行預處理最終整理為樣本訓練序列。我們還可以分出一部分作為檢驗序列,其比例關系可以根據具體樣本數量來定。預處理之前我們定義一些重要的參量:
記錄長度:我們通過添加特殊標記,確定規格化的數據長度,長于這個長度的需要截短,短于這個長度的需要補齊。
音色種類的大小:這個參數是為了確定我們音色向量嵌入層的大小,以及最終的總音色向量維度。
算法階數:這個參數是確定我們希望卷積核每次覆蓋幾種音色。卷積核的總數量就是算法階數的倍數。
激活參數:使用該參數來控制神經元的激活程度。我們只在訓練的時候啟動,在測試的時候禁止它。
以上參量確定之后就進行預處理,分以下幾個步驟進行:
(1)從原始數據文件中導入樣本數據,原始數據就是經過截取后的聲音錄音文件;
(2)數據清理,包括雜音的處理等,這需要一些信號處理中的濾波算法;
(3)記錄歸一化,將每組錄音填充到規格化的長度,并完成標記;
(4)構建索引表,將每種不同的發音映射到零到音色長度之間,使得每個句子就變成了一個整數的向量。
預處理為我們準備好了數據。然后進入信號處理過程,這部分內容采用十分專業化的算法。它包含模型構建、核心算法和后處理算法三個部分。
為了更加準確的提取出音色特征,首先需要對運行模型作出構想,我們構建模型的主要目的是為了對不同的音色特征進行分類提取,以此給出音色的評價值,這部分又叫嵌入層操作。每個音色的表示是一個向量,可能是有單一描述或者多維度描述的組合,分別對應單一特征和復合特征。這部分的作用是將音色索引映射為低維度的音色向量表示。它本質是一個我們從數據中學習得到的音色向量表,其表達是嵌入矩陣,這個矩陣是我們從數據訓練過程中得到的。
經過上述的數據準備和分層構想之后,進行第二步,即中間層操作,完成對連續兩個音的發聲效果做總體評價。這部分主要采用基于卷積運算的信號處理算法,我們使用的卷積核具有不同的尺寸。這樣每個卷積核經過卷積操作之后產生的張量是不同維度的,所以我們需要為每一個卷積核創建一層網絡,最后再把這些卷積之后的結果合并成一個大的特征向量。
第三步是后處理操作,主要是對結果進行平滑,以避免過度在乎某一個特點。這一步是目前最常用的來正則化卷積神經網絡的方法。其原則就是按照一定的概率來“禁用”一些神經元的發放。這種方法可以防止神經元共同適應某一種音色特征,而迫使它們單獨學習更多有用的特征。
在整個過程中我們為了控制誤差,可以定義損失函數來進行誤差度量。如果我們把整個迭代過程看作一個優化過程的話,這個函數就是優化的極小化目標函數。本文分類問題的標準損失函數我們采用交叉熵損失函數。詳細技術內容不在這里贅述。
在我們的實驗過程中,基本實現了初步的聲樂演唱中的音色評價,尤其是特征很明顯的泛音振動效果,有和主觀評價較為一致的評價結果。聲音抖動厲害,振幅很大的樣本,普遍評分較低,而聲音位置高、泛音振幅小、聲音穿透力強的樣本,普遍評分較高。樣本中有歌唱家的聲音采樣,也有學生的采樣,他們唱的音為同樣的音高和同樣的語言,客觀評價評分中分數高的聲音不一定是有名氣的歌唱家,有可能就是一名普通聲樂學習者,而有名氣的歌唱家如果采用的樣本是狀態不佳的樣本,或者歌唱家本身演唱水平也比較普通,只是因為其他原因而名氣較大,評分也會很低。這些正是客觀評價的優勢所在,關鍵的問題是軟件評價的結果和聲樂專業主觀評價結果是一致的。
實驗中對演唱者本身嗓音條件的評價不穩定,輸入的標準采用的是和大眾審美相一致的標準,在實驗中,歌唱狀態和聲樂演唱技術會遮蓋一些本來音色的特征,也就是說,后天有針對性的訓練可以有效的彌補天生嗓音條件的不足,如天生嗓音細的聲音,可以通過共鳴腔體的調整以及強大的呼吸支持來增強聲音的穿透力和飽滿度,客觀評價的分數也會很高。客觀評價系統目前是在情感之外評價純粹的聲音特征,還沒有考慮情感、風格等因素的影響,但隨著研究的深入,情感和風格也可以建模,評價系統也將日趨完善。
本文論述了聲樂演唱主觀評價標準以及如何在客觀評價軟件算法中實現。同時本文簡要描述了軟件算法中模擬神經網絡的構建過程。軟件成功完成了聲音樣本的基本音色特征提取。軟件通過樣本訓練和實測,能夠對不同音色的泛音質量、聲音飽和度、亮度、穿透力等主要特征作出分類和定量評價,實際試驗證實其對聲樂演唱的音色可以做出和主觀評價標準較為一致的評價。此軟件有望催生聲樂客觀評價的實用化產品,應用到日常的聲樂教學中,成為聲樂演唱評價體系的重要補充。■
[1] Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification.Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP 2014), 1746-1751.
[2] Kalchbrenner, N., Grefenstette, E., & Blunsom, P. (2014). A Convolutional Neural Network for Modelling Sentences. Acl, 655-665.
[3] Santos, C. N. dos, & Gatti, M. (2014). Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts.In COLING-2014 (pp. 69-78).
[4] Johnson, R., & Zhang, T. (2015). Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding.
[5] Zhang, Y., & Wallace, B. (2015). A Sensitivity Analysis of (and Practitioners’Guide to) Convolutional Neural Networks for Sentence Classi fi cation,
[6] Nguyen, T. H., & Grishman, R. (2015). Relation Extraction: Perspective from Convolutional Neural Networks. Workshop on Vector Modeling for NLP,39-48.
[7] Sun, Y., Lin, L., Tang, D., Yang, N., Ji, Z., & Wang, X. (2015). Modeling Mention , Context and Entity with Neural Networks for Entity Disambiguation,(Ijcai), 1333-1339.
[8] Shen, Y., He, X., Gao, J., Deng, L., & Mesnil, G. (2014). A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval.Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management - CIKM ’14, 101-110.
[9] Santos, C., & Zadrozny, B. (2014). Learning Character-level Representations for Part-of-Speech Tagging. Proceedings of the 31st International Conference on Machine Learning, ICML-14(2011), 1818-1826.
[10] Zhang, X., Zhao, J., & LeCun, Y. (2015). Character-level Convolutional Networks for Text Classi fi cation, 1-9.
四川省哲學社會科學重點研究基地西南音樂研究中心資助項目研究成果(xnyy2015033)
黃阿羅(1980-),女,四川達州人,四川音樂學院聲樂系副教授,碩士生導師,主要研究方向:聲樂演唱;李莽(1989-),男,四川成都人,電子科技大學碩士研究生,主要研究方向:信號與信息處理。