[中圖分類號]G424.74[文獻標識碼]A [文章編號] 1673—1654(2025)04—022—008
歌唱是人類表達情感、傳遞文化信息的重要方式之一,也是音樂藝術的重要組成部分。在音樂教育中,培養學生的歌唱能力是重要的教學目標之一。長久以來,學生歌唱能力的測評主要依賴于專家主觀評價。這種方法雖然能夠綜合考量歌唱者的音準、節奏、音色、完整度、表現力等多個方面,但其主觀性較強,不同評委對于評價標準的理解可能存在差異,導致評價結果的客觀性和一致性受到影響。此外,專家評價通常需要耗費大量的時間和人力,難以進行大規模的測評和精細化的量化分析。針對以上問題,提出基于人工智能的歌唱測評模型。該模型通過提取學生歌唱音頻的聲學特征,并結合機器學習隨機森林算法進行訓練,實現了對學生歌唱能力客觀高效的自動化評估。
一、研究背景
(一)專家主觀評價
2021年研發了利用手機小程序進行歌唱測評的平臺,學生在小程序中進行錄音,教師通過隨機閱卷的方式對每一個學生的音頻從音準、節奏、音色、完整度、表現力等五個維度進行評分。缺點如前文所述十分明顯。圖1顯示了區內某次測評的評分統計,全區70多位教師的閱卷平均分差異較大,且難以進行大規模測評。
(二)KTV唱歌打分技術
KTV打分系統主要依賴于對原唱旋律的精確匹配,對于歌唱者的音色、情感表達等方面考慮較少。此外,這些系統通常需要人工預先標注歌曲的旋律信息,工作量較大。主要依賴3種技術:一是域波形比較。系統會采集歌唱者和原唱的音頻信號,在時域上逐點比較兩個波形的相似度。如果兩個波形在幅度、相位等方面比較接近,則認為歌唱的音準和節奏較好,得分較高。這種方法的缺點是容易受到噪聲和音量變化的影響。二是基于能量比較。分別計算歌唱者音頻信號和伴奏音樂的能量,然后比較兩者能量的差異。如果歌唱者的能量與伴奏音樂的能量匹配度較高,則得分較高。這種方法主要關注音量和節奏的穩定性,但忽略了音高的準確性。三是旋律特征比較。系統會提取原唱歌曲的旋律特征,如音高曲線、節奏信息等,并將其存儲為模板。當用戶歌唱時,系統會實時提取用戶歌唱的旋律特征,并與模板進行比較,計算相似度。相似度越高,得分越高。這種方法能夠較好地評估音準和節奏,是目前主流KTV打分系統的核心技術。
(三)基于人工智能的歌唱測評技術
隨著計算機技術和人工智能的快速發展,基于計算機的音頻分析技術逐漸成熟,為歌唱測評的客觀化和智能化提供了新的可能性。通過提取歌唱音頻的聲學特征,并結合機器學習算法進行建模,可以實現對學生歌唱能力的自動化評估。這種方法不僅能夠提高測評的效率和客觀性,還可以提供更為精細化的量化分析結果,為教師和學生提供更有針對性的反饋。
一些研究利用信號處理技術提取歌唱音頻的音高、音強、音色、節奏等特征,然后根據預設的規則或模型對學生的歌唱進行評價。例如,使用自動音高檢測算法來評估音準,使用動態時間規整(DTW)算法來評估節奏。這些方法能夠實現客觀量化分析,但通常只能針對歌唱的某一個方面進行評估,難以綜合考慮歌唱的各個方面。
另一些研究則利用機器學習算法對提取的音頻特征進行建模,從而實現對歌唱的綜合評估。例如,一些研究使用支持向量機(SVM)、神經網絡等算法對音準、節奏、音色等進行分類或回歸,評估其歌唱水平2。這些方法能夠綜合考慮歌唱的多個方面,并能夠通過訓練數據不斷提高模型的性能。
(四)隨機森林算法
隨機森林算法作為一種優秀的機器學習算法,在歌唱測評中具有獨特的優勢,可以有效地提高評估的準確性和效率。歌唱測評涉及對音高、音強、節奏等連續值的預測,最終是回歸問題。對比線性回歸、支持向量回歸、決策樹回歸等,隨機森林算法在各種分類和回歸問題中表現出色,具備以下幾個特點:一是處理高維數據的能力。歌唱音頻的特征提取過程涉及多種時域、頻域及音色等特征,特征空間的維度較高。隨機森林通過集成多棵決策樹,有效減少了高維數據可能帶來的維度災難,同時避免了特征間冗余信息對模型訓練的負面影響。二是魯棒性與防過擬合能力。與單一決策樹相比,隨機森林通過構建多個決策樹并對其結果進行集成,能夠有效避免單棵樹的過擬合問題,從而提高模型的泛化能力。在本研究中,目標是確保模型能夠在大規模學生歌唱數據集上穩定運行,隨機森林的集成特性恰好滿足了這一需求。三是處理非線性關系能力。
歌唱測評任務涉及音高、節奏、音色等多個方面的復雜特征,這些特征之間可能存在非線性關系(通過相關性分析發現確實如此)。隨機森林能夠有效捕捉這些復雜的非線性關系,而不像線性回歸等方法那樣依賴于特征間的線性假設。四是無需特征選擇的優勢。在傳統的機器學習方法中,特征選擇是一個必要的步驟,尤其在特征較多的情況下。隨機森林算法通過自身的特征重要性評估機制,自動篩選出對預測有貢獻的特征,避免了人工特征選擇的煩瑣過程。五是可處理大樣本訓練數據。基于香洲區的學生歌唱數據集,樣本量龐大(包含34280名學生的音頻數據和76360次評分數據)。隨機森林通過并行訓練多棵決策樹,有效提高了訓練和預測的效率,適合處理此類大規模數據集。
隨機森林方法也存在一些局限性。首先,由于其依賴于構建大量決策樹,計算和內存消耗較高,尤其在數據量大或特征維度高時,訓練和預測過程可能非常耗時。實際訓練中確實如此,因為算力不足,每完成一次訓練需要近兩天,耗費大量時間。其次,盡管隨機森林可以有效減少過擬合,但它對噪聲數據的敏感性仍然存在,特別是當噪聲占比較大時,模型的準確性可能會受到影響。前期通過相關性分析和特征重要性分析對部分特征進行了篩選,同時在目前歌唱歌詞識別率不穩定且不高的情況下,并未直接將歌詞文本相似度作為模型特征納入訓練,而是另外建模處理歌詞文本相似度進行評分優化。
二、研究方法
(一)數據集描述與預處理
數據集來源于香洲區教研部門自主開發的音樂歌唱測評小程序,該程序在過去幾年中收集了34280名學生的歌唱音頻和70多位老師的76360次評分數據。這些數據提供了豐富的資源,可用于訓練和測試音樂歌唱測評模型。
(二)音頻特征提取
音頻特征提取是音樂信息處理中的一個關鍵步驟,它能夠將音頻信號轉換為可以被機器學習算法處理的數值特征。表1顯示了提取的音頻特征。
這些特征的提取依賴于Python中的librosa庫,該庫提供了豐富的音頻處理功能。同時根據音頻信號長度,設置了動態n_fft值,讓特征提取更加準確。同時,使用網格搜索和隨機搜索等參數調優方法,結合交叉驗證來選擇最優的參數組合。
為了有效地捕捉音頻信號中的關鍵信息,提取了一系列音頻特征。最初,考慮了多種時域和頻域特征,包括色度圖(chroma_stft)均方根能量(rmse)頻譜質心(spectral_centroid)頻譜帶寬(spectral_bandwidth)、頻譜滾降點(rolloff)、過零率(zero_crossing_rate)、梅爾頻率倒譜系數(MFCCs)、音頻時長(duration)、音高(pitch)、節拍(tempo)等32種特征。然而,更多的特征可能導致“特征災難”,不僅增加計算復雜度,還可能降低模型性能。為了避免這一問題,并提高訓練效率,進行了音頻特征優化。具體來說,先提取所有音頻的所有能想到的可以提取的特征數據,然后采用以下方法進行分析。
第一,相關性分析。計算各特征之間的相關系數,以識別高度相關的特征。如表2所示,提取某次學生歌唱考試音頻的各項特征及教師評分信息進行相關性分析。雖然隨機森林算法能處理大量特征數據,但是為了降低算力需求,通過相關性數據去除了部分相關性低、未通過顯著性檢驗的特征,同時也減少訓練時的噪聲數據。
從相關性檢測結果可知,特征與得分的相關性較弱,但是通過了顯著性檢驗,結論如下:一是樣本量大(12435個數據點),即使每個特征的相關性較低,也能通過統計檢驗得到顯著性。采用隨機森林算法建模,通過大樣本量,模型能夠捕捉到這些微小的關系。二是這些低相關性可能反映了某些特征與得分之間的非線性關系。傳統的相關性分析無法完全捕捉這些非線性關系,而隨機森林能夠處理這種復雜的非線性關系,因此,即使相關性較低,仍然有可能在模型中找到有用的特征。三是雖然單個特征的相關性較低,但可能在多個特征的綜合作用下,模型能有效預測得分。以上三個相關性的特點恰恰是隨機森林算法在處理歌唱測評時獨特的優勢所在。
第二,特征重要性分析。如圖2所示,在訓練隨機森林模型后,分析每個特征對模型預測的重要性,重要性較低的特征可能會被移除,以簡化模型并提高泛化能力。最終選擇chroma_stft、rmse、spectral_centroid、spectral_bandwidth、rolloff、zero_crossing_rate、mfcc1-mfcc20、pitch、tempo作為音頻提取特征。這些特征涵蓋了音頻信號的時域、頻域、音色、節奏、音高等多個維度,能夠較為全面地描述音頻的特征。
(三)訓練與驗證方法
模型的訓練和驗證采用k折交叉驗證方法,以確保模型的泛化能力。在k折交叉驗證中,數據集被隨機分成k個相等的部分,每次留出一部分作為測試集,其余作為訓練集,循環k次,每次選擇不同的部分作為測試集。這種方法可以充分利用數據,減少過擬合的風險。k折交叉驗證被廣泛認為是一個可靠的模型驗證方法,尤其適用于評估模型在實際應用中的表現。
(四)評價指標
構建預測學生歌唱得分的回歸模型。主要使用均方誤差(MeanSquared Error,MSE)來評估模型的性能。均方誤差MSE是預測值與真實值之差的平方的平均值,衡量了預測值偏離真實值的平均程度,數值越小,表示模型的預測精度越高。
(五)歌詞相似度分析
為進一步提升模型的評估能力,給學生提供更具針對性的反饋,引入歌詞文本相似度對比。通過比對學生歌唱音頻識別出的歌詞與原唱歌詞,可以量化學生歌唱的完整度和準確性。雖然歌唱音頻文字識別領域仍然面臨諸多挑戰,尚無完美的解決方案,但本研究探索并比較了幾種常用的語音識別方法和工具。
1.基于Librosa與預訓練模型的方案。該方案結合了Librosa提取的音頻特征與微調后的預訓練模型(如Wav2Vec2.0或HuBERT)[3]。
2.基于PaddleSpeech的方案。PaddleSpeech提供了針對中文優化的預訓練語音識別模型[4]。
以上兩個方案在語音識別任務中表現出色,但經測試歌詞識別效果一般,可能需要通過現有的歌唱數據進行微調,需要的特征工程和算力工程大,因此未深入嘗試,未來可作為進一步研究的重點。
3.基于Librosa與傳統語音識別引擎的方案。該方案結合了Librosa的音頻處理能力與SpeechRecognition庫封裝的傳統語音識別引擎(如CMUSphinx),方案實現較為簡單,但受限于傳統引擎的性能,在歌唱音頻識別任務中表現不佳5
4.基于Librosa、Spleeter與Whisper的方案。該方案結合了Librosa的音頻加載和預處理功能、Spleeter的人聲提取功能及OpenAI的Whisper語音識別系統。Whisper模型基于海量多語言、多任務的監督數據進行訓練,展現出強大的泛化能力。
經過對比分析(主要是對比不同方案的歌詞文本識別相似率的比率和技術實現難度),最終選擇了基于Librosa、Spleeter和Whisper的方案。原音樂歌唱音頻與歌詞的識別文本相似度平均達到 72.8% ,雖然不高,但卻是一個非常重要的特征,因為其他特征都幾乎無法判斷學生音頻和原唱的一致性,歌詞完整度是目前最有效的特征。具體流程如下:首先,使用Librosa加載音頻文件;然后,使用Spleeter提取人聲部分,并使用Librosa進行降噪和音頻增強等預處理;最后,使用Whisper模型進行歌詞文本提取。通過計算提取出的歌詞文本與原唱歌詞的文本相似度,量化學生歌唱的完整度。
三、實驗結果與數據分析
經過上述方法的實施,利用原音樂歌唱測評小程序積累的大量數據基于隨機森林算法學生歌唱測評模型完成了第一階段訓練。經過評估,模型得到了令人滿意的結果。以下表格展示了模型在測試集上的性能表現。
從表3可以看出,模型在各個評分維度和總分上都取得了較好的預測效果。MSE均在30左右,表明模型的平均預測誤差較小。R方值均在0.77以上,表明模型能夠較好地擬合數據。相關系數均在0.88以上,表明模型預測值與教師評分之間存在較強的線性相關性。項目的部署實施因考慮到算力和結果反饋的時效性,最終使用了總分模型,未進行維度測評打分,總分模型的MSE為38,預測誤差在可接受范圍內。
為了更直觀地展示模型的預測效果,對原有一次大規模歌唱測試的成績進行了模型重新評分,繪制了模型預測值與教師評分的散點圖,見圖3。
散點圖顯示,大部分數據點都集中在對角線附近,表明模型的預測值與教師評分較為一致。
從實驗結果可以看出,本研究提出的基于隨機森林算法的歌唱測評模型能夠有效地預測學生的歌唱水平,其預測精度甚至優于原來的人工測評數據。這主要歸功于以下幾個方面:大規模數據集為模型的訓練提供了充足的數據,提高了模型的泛化能力;提取的音頻特征和歌詞相似度特征涵蓋了歌唱的音高、音強、音色、節奏、完整度等多維度特征,能夠較全面地反映歌唱的特點;采用多目標回歸策略能夠更精細地評估歌唱的各個方面,提高了模型的預測精度;隨機森林算法具有較好的準確性和泛化能力,能夠有效地處理高維數據和非線性關系。
基于機器學習的評分模型則具有以下優勢。第一,無需人工標注:模型通過學習大量的音頻數據和對應的評分,自動提取音頻特征并建立評分模型,無需人工標注旋律信息。第二,考慮更多音頻特征:模型不僅考慮了音高、節奏等旋律特征,還考慮了音色、能量等其他音頻特征,能夠更全面地評估歌唱表現。第三,更好的泛化能力:模型通過學習大量的訓練數據,具有更好的泛化能力,能夠適應不同歌唱者和不同歌曲的評分。此外,該模型展現了人工智能在評估過程中的客觀性、一致性和可解釋性。依據客觀的音頻特征和歌詞相似度進行評價,避免了人為評估的主觀偏差。通過快速處理大量音頻數據,模型顯著提升了評估的效率。對所有音頻應用統一的評估標準,確保了評估結果的一致性。同時隨機森林模型進一步提供了特征重要性的排序,能夠識別出對歌唱能力評估最為關鍵的特征。
本研究也存在一些局限性。第一,數據集的局限性:數據集全部來自某區,可能存在一定的地域性偏差,未來可以考慮收集更大范圍、更多樣化的數據。第二,特征的局限性:提取的特征可能還不夠全面,未來可以探索更多、更有效的特征。第三,歌詞提取準確性不高:歌唱音頻的歌詞識別本身就是一個難題,學生歌唱音頻由于歌唱環境復雜更提高了識別難度,目前正在訓練新的歌詞識別模型,但也增加了工程難度,還需進一步評估效果;雖然基于Librosa、Spleeter和Whisper的方案在當前階段提供了有效的歌詞相似度評估方法,基于深度學習的端到端歌詞識別方案具有更大的潛力,能夠更有效地處理歌唱音頻中固有的復雜性;現初步探索了此類方案的可能性,并計劃利用已有的學生歌唱音頻數據及后續不斷積累的練習音頻數據,構建并訓練端到端歌唱歌詞識別模型。
基于隨機森林算法的學生歌唱測評模型取得了令人滿意的結果,驗證了該方法在歌唱測評中的有效性和優越性,為音樂教育提供了一種客觀、高效的評價工具(可在微信小程序搜索“音樂微測評”進行測試)。
參考文獻:
[1]DingY,Tetsuya M.Audio Feature Extraction forDTW-basedAudio-to-Score Alignment[C]//Proceedings ofthe 1Oth InternationalConference on Computer and Communications Management,2O22:214-220.
[2] Tsai WH,Lee HC.Automatic Evaluation of Karaoke SingingBasedon Pitch,Volume,and RhythmFeatures[J].IEEETransactionsonAudio,Speech,andLanguage Processing,2011,20(4):1233-1243.
[3]BaevskiA,Hsu WN,XuQ,et al.Data2vec:A GeneralFramework for Self-Supervised Learning in Speech,VisionandLanguage [C]// International Conference on Machine Learning.PMLR,2022:1298-1312.
[4] ZhangH,Yuan T,Chen J,etal.Paddlespeech:AnEasy-ToUseAll-In-One Speech Toolkit[J].arXivpreprint arXiv:2205.12007,2022.
[5]Amos D.The Ultimate Guide to Speech Recognition WithPython[J].Real Python,2016:2-23.
[6]RadfordA,KimJW,XuT,etal.RobustSpeechRecognitionviaLarge-Scale Weak Supervision [C] // International Conference onMachineLearning.PMLR,2023:28492-28518.
Research of Singing Evaluation Model Based on the Random Forest Algorithm
Yang Huang Li Yinghui Zhuhai District Teacher Development Center,Zhuhai,Guangdong,519000
Abstract:The assessment of students'singing ability is acrucial aspect of music education,directly impacting teaching quality evaluation and students’vocal skill development.Traditional singing assessment methods,often relying on subjective expert judgment,suffer from inconsistenciesand inefficiencies.Utilizing a self-developed music assessment mini-program over three years,and collcting singing audio data from 34,280 students,accompanied by76,36O evaluationsbyover7O teachers,a student singingabilityevaluationmodel is trained by applying machine learning techniquesand using theRandom Forest algorithm.This model aims to provide objective,efficient,and intelligent singing ability assessment.The model first preprocesses theaudio,then extracts various acoustic features,including pitch,ntensity,timbre,and rhythm,along with featuresrepresenting lyrical accuracy/completeness,constructing a high-dimensional feature vector space.Finaly,the extracted features andteacherscoresareused for training andregressonanalysisviatheRandomForest algorithm toachieve objective student performance evaluation.Experimental results demonstrate the model's high accuracy in singing assessment,offering an effective approach for objective student ability evaluation.
Key words:Singing Assessment,Random Forest,Machine Learning,Artificial Intelligence
(責任編輯:陳暢、李梅)