999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林算法的歌唱測評模型研究

2025-07-30 00:00:00楊煌李映暉
考試研究 2025年4期
關鍵詞:音頻歌唱森林

[中圖分類號]G424.74[文獻標識碼]A [文章編號] 1673—1654(2025)04—022—008

歌唱是人類表達情感、傳遞文化信息的重要方式之一,也是音樂藝術的重要組成部分。在音樂教育中,培養學生的歌唱能力是重要的教學目標之一。長久以來,學生歌唱能力的測評主要依賴于專家主觀評價。這種方法雖然能夠綜合考量歌唱者的音準、節奏、音色、完整度、表現力等多個方面,但其主觀性較強,不同評委對于評價標準的理解可能存在差異,導致評價結果的客觀性和一致性受到影響。此外,專家評價通常需要耗費大量的時間和人力,難以進行大規模的測評和精細化的量化分析。針對以上問題,提出基于人工智能的歌唱測評模型。該模型通過提取學生歌唱音頻的聲學特征,并結合機器學習隨機森林算法進行訓練,實現了對學生歌唱能力客觀高效的自動化評估。

一、研究背景

(一)專家主觀評價

2021年研發了利用手機小程序進行歌唱測評的平臺,學生在小程序中進行錄音,教師通過隨機閱卷的方式對每一個學生的音頻從音準、節奏、音色、完整度、表現力等五個維度進行評分。缺點如前文所述十分明顯。圖1顯示了區內某次測評的評分統計,全區70多位教師的閱卷平均分差異較大,且難以進行大規模測評。

圖1閱卷教師歌唱評分平均分統計圖

(二)KTV唱歌打分技術

KTV打分系統主要依賴于對原唱旋律的精確匹配,對于歌唱者的音色、情感表達等方面考慮較少。此外,這些系統通常需要人工預先標注歌曲的旋律信息,工作量較大。主要依賴3種技術:一是域波形比較。系統會采集歌唱者和原唱的音頻信號,在時域上逐點比較兩個波形的相似度。如果兩個波形在幅度、相位等方面比較接近,則認為歌唱的音準和節奏較好,得分較高。這種方法的缺點是容易受到噪聲和音量變化的影響。二是基于能量比較。分別計算歌唱者音頻信號和伴奏音樂的能量,然后比較兩者能量的差異。如果歌唱者的能量與伴奏音樂的能量匹配度較高,則得分較高。這種方法主要關注音量和節奏的穩定性,但忽略了音高的準確性。三是旋律特征比較。系統會提取原唱歌曲的旋律特征,如音高曲線、節奏信息等,并將其存儲為模板。當用戶歌唱時,系統會實時提取用戶歌唱的旋律特征,并與模板進行比較,計算相似度。相似度越高,得分越高。這種方法能夠較好地評估音準和節奏,是目前主流KTV打分系統的核心技術。

(三)基于人工智能的歌唱測評技術

隨著計算機技術和人工智能的快速發展,基于計算機的音頻分析技術逐漸成熟,為歌唱測評的客觀化和智能化提供了新的可能性。通過提取歌唱音頻的聲學特征,并結合機器學習算法進行建模,可以實現對學生歌唱能力的自動化評估。這種方法不僅能夠提高測評的效率和客觀性,還可以提供更為精細化的量化分析結果,為教師和學生提供更有針對性的反饋。

一些研究利用信號處理技術提取歌唱音頻的音高、音強、音色、節奏等特征,然后根據預設的規則或模型對學生的歌唱進行評價。例如,使用自動音高檢測算法來評估音準,使用動態時間規整(DTW)算法來評估節奏。這些方法能夠實現客觀量化分析,但通常只能針對歌唱的某一個方面進行評估,難以綜合考慮歌唱的各個方面。

另一些研究則利用機器學習算法對提取的音頻特征進行建模,從而實現對歌唱的綜合評估。例如,一些研究使用支持向量機(SVM)、神經網絡等算法對音準、節奏、音色等進行分類或回歸,評估其歌唱水平2。這些方法能夠綜合考慮歌唱的多個方面,并能夠通過訓練數據不斷提高模型的性能。

(四)隨機森林算法

隨機森林算法作為一種優秀的機器學習算法,在歌唱測評中具有獨特的優勢,可以有效地提高評估的準確性和效率。歌唱測評涉及對音高、音強、節奏等連續值的預測,最終是回歸問題。對比線性回歸、支持向量回歸、決策樹回歸等,隨機森林算法在各種分類和回歸問題中表現出色,具備以下幾個特點:一是處理高維數據的能力。歌唱音頻的特征提取過程涉及多種時域、頻域及音色等特征,特征空間的維度較高。隨機森林通過集成多棵決策樹,有效減少了高維數據可能帶來的維度災難,同時避免了特征間冗余信息對模型訓練的負面影響。二是魯棒性與防過擬合能力。與單一決策樹相比,隨機森林通過構建多個決策樹并對其結果進行集成,能夠有效避免單棵樹的過擬合問題,從而提高模型的泛化能力。在本研究中,目標是確保模型能夠在大規模學生歌唱數據集上穩定運行,隨機森林的集成特性恰好滿足了這一需求。三是處理非線性關系能力。

歌唱測評任務涉及音高、節奏、音色等多個方面的復雜特征,這些特征之間可能存在非線性關系(通過相關性分析發現確實如此)。隨機森林能夠有效捕捉這些復雜的非線性關系,而不像線性回歸等方法那樣依賴于特征間的線性假設。四是無需特征選擇的優勢。在傳統的機器學習方法中,特征選擇是一個必要的步驟,尤其在特征較多的情況下。隨機森林算法通過自身的特征重要性評估機制,自動篩選出對預測有貢獻的特征,避免了人工特征選擇的煩瑣過程。五是可處理大樣本訓練數據。基于香洲區的學生歌唱數據集,樣本量龐大(包含34280名學生的音頻數據和76360次評分數據)。隨機森林通過并行訓練多棵決策樹,有效提高了訓練和預測的效率,適合處理此類大規模數據集。

隨機森林方法也存在一些局限性。首先,由于其依賴于構建大量決策樹,計算和內存消耗較高,尤其在數據量大或特征維度高時,訓練和預測過程可能非常耗時。實際訓練中確實如此,因為算力不足,每完成一次訓練需要近兩天,耗費大量時間。其次,盡管隨機森林可以有效減少過擬合,但它對噪聲數據的敏感性仍然存在,特別是當噪聲占比較大時,模型的準確性可能會受到影響。前期通過相關性分析和特征重要性分析對部分特征進行了篩選,同時在目前歌唱歌詞識別率不穩定且不高的情況下,并未直接將歌詞文本相似度作為模型特征納入訓練,而是另外建模處理歌詞文本相似度進行評分優化。

二、研究方法

(一)數據集描述與預處理

數據集來源于香洲區教研部門自主開發的音樂歌唱測評小程序,該程序在過去幾年中收集了34280名學生的歌唱音頻和70多位老師的76360次評分數據。這些數據提供了豐富的資源,可用于訓練和測試音樂歌唱測評模型。

(二)音頻特征提取

音頻特征提取是音樂信息處理中的一個關鍵步驟,它能夠將音頻信號轉換為可以被機器學習算法處理的數值特征。表1顯示了提取的音頻特征。

表1提取的音頻特征數據列表

這些特征的提取依賴于Python中的librosa庫,該庫提供了豐富的音頻處理功能。同時根據音頻信號長度,設置了動態n_fft值,讓特征提取更加準確。同時,使用網格搜索和隨機搜索等參數調優方法,結合交叉驗證來選擇最優的參數組合。

為了有效地捕捉音頻信號中的關鍵信息,提取了一系列音頻特征。最初,考慮了多種時域和頻域特征,包括色度圖(chroma_stft)均方根能量(rmse)頻譜質心(spectral_centroid)頻譜帶寬(spectral_bandwidth)、頻譜滾降點(rolloff)、過零率(zero_crossing_rate)、梅爾頻率倒譜系數(MFCCs)、音頻時長(duration)、音高(pitch)、節拍(tempo)等32種特征。然而,更多的特征可能導致“特征災難”,不僅增加計算復雜度,還可能降低模型性能。為了避免這一問題,并提高訓練效率,進行了音頻特征優化。具體來說,先提取所有音頻的所有能想到的可以提取的特征數據,然后采用以下方法進行分析。

第一,相關性分析。計算各特征之間的相關系數,以識別高度相關的特征。如表2所示,提取某次學生歌唱考試音頻的各項特征及教師評分信息進行相關性分析。雖然隨機森林算法能處理大量特征數據,但是為了降低算力需求,通過相關性數據去除了部分相關性低、未通過顯著性檢驗的特征,同時也減少訓練時的噪聲數據。

表2歌唱音頻得分與音頻特征相關性分析

從相關性檢測結果可知,特征與得分的相關性較弱,但是通過了顯著性檢驗,結論如下:一是樣本量大(12435個數據點),即使每個特征的相關性較低,也能通過統計檢驗得到顯著性。采用隨機森林算法建模,通過大樣本量,模型能夠捕捉到這些微小的關系。二是這些低相關性可能反映了某些特征與得分之間的非線性關系。傳統的相關性分析無法完全捕捉這些非線性關系,而隨機森林能夠處理這種復雜的非線性關系,因此,即使相關性較低,仍然有可能在模型中找到有用的特征。三是雖然單個特征的相關性較低,但可能在多個特征的綜合作用下,模型能有效預測得分。以上三個相關性的特點恰恰是隨機森林算法在處理歌唱測評時獨特的優勢所在。

第二,特征重要性分析。如圖2所示,在訓練隨機森林模型后,分析每個特征對模型預測的重要性,重要性較低的特征可能會被移除,以簡化模型并提高泛化能力。最終選擇chroma_stft、rmse、spectral_centroid、spectral_bandwidth、rolloff、zero_crossing_rate、mfcc1-mfcc20、pitch、tempo作為音頻提取特征。這些特征涵蓋了音頻信號的時域、頻域、音色、節奏、音高等多個維度,能夠較為全面地描述音頻的特征。

圖2音頻測評特征重要性分析

(三)訓練與驗證方法

模型的訓練和驗證采用k折交叉驗證方法,以確保模型的泛化能力。在k折交叉驗證中,數據集被隨機分成k個相等的部分,每次留出一部分作為測試集,其余作為訓練集,循環k次,每次選擇不同的部分作為測試集。這種方法可以充分利用數據,減少過擬合的風險。k折交叉驗證被廣泛認為是一個可靠的模型驗證方法,尤其適用于評估模型在實際應用中的表現。

(四)評價指標

構建預測學生歌唱得分的回歸模型。主要使用均方誤差(MeanSquared Error,MSE)來評估模型的性能。均方誤差MSE是預測值與真實值之差的平方的平均值,衡量了預測值偏離真實值的平均程度,數值越小,表示模型的預測精度越高。

(五)歌詞相似度分析

為進一步提升模型的評估能力,給學生提供更具針對性的反饋,引入歌詞文本相似度對比。通過比對學生歌唱音頻識別出的歌詞與原唱歌詞,可以量化學生歌唱的完整度和準確性。雖然歌唱音頻文字識別領域仍然面臨諸多挑戰,尚無完美的解決方案,但本研究探索并比較了幾種常用的語音識別方法和工具。

1.基于Librosa與預訓練模型的方案。該方案結合了Librosa提取的音頻特征與微調后的預訓練模型(如Wav2Vec2.0或HuBERT)[3]。

2.基于PaddleSpeech的方案。PaddleSpeech提供了針對中文優化的預訓練語音識別模型[4]。

以上兩個方案在語音識別任務中表現出色,但經測試歌詞識別效果一般,可能需要通過現有的歌唱數據進行微調,需要的特征工程和算力工程大,因此未深入嘗試,未來可作為進一步研究的重點。

3.基于Librosa與傳統語音識別引擎的方案。該方案結合了Librosa的音頻處理能力與SpeechRecognition庫封裝的傳統語音識別引擎(如CMUSphinx),方案實現較為簡單,但受限于傳統引擎的性能,在歌唱音頻識別任務中表現不佳5

4.基于Librosa、Spleeter與Whisper的方案。該方案結合了Librosa的音頻加載和預處理功能、Spleeter的人聲提取功能及OpenAI的Whisper語音識別系統。Whisper模型基于海量多語言、多任務的監督數據進行訓練,展現出強大的泛化能力。

經過對比分析(主要是對比不同方案的歌詞文本識別相似率的比率和技術實現難度),最終選擇了基于Librosa、Spleeter和Whisper的方案。原音樂歌唱音頻與歌詞的識別文本相似度平均達到 72.8% ,雖然不高,但卻是一個非常重要的特征,因為其他特征都幾乎無法判斷學生音頻和原唱的一致性,歌詞完整度是目前最有效的特征。具體流程如下:首先,使用Librosa加載音頻文件;然后,使用Spleeter提取人聲部分,并使用Librosa進行降噪和音頻增強等預處理;最后,使用Whisper模型進行歌詞文本提取。通過計算提取出的歌詞文本與原唱歌詞的文本相似度,量化學生歌唱的完整度。

三、實驗結果與數據分析

經過上述方法的實施,利用原音樂歌唱測評小程序積累的大量數據基于隨機森林算法學生歌唱測評模型完成了第一階段訓練。經過評估,模型得到了令人滿意的結果。以下表格展示了模型在測試集上的性能表現。

表3模型評估數據

從表3可以看出,模型在各個評分維度和總分上都取得了較好的預測效果。MSE均在30左右,表明模型的平均預測誤差較小。R方值均在0.77以上,表明模型能夠較好地擬合數據。相關系數均在0.88以上,表明模型預測值與教師評分之間存在較強的線性相關性。項目的部署實施因考慮到算力和結果反饋的時效性,最終使用了總分模型,未進行維度測評打分,總分模型的MSE為38,預測誤差在可接受范圍內。

為了更直觀地展示模型的預測效果,對原有一次大規模歌唱測試的成績進行了模型重新評分,繪制了模型預測值與教師評分的散點圖,見圖3。

圖3模型預測評分與教師平均分散點圖

散點圖顯示,大部分數據點都集中在對角線附近,表明模型的預測值與教師評分較為一致。

從實驗結果可以看出,本研究提出的基于隨機森林算法的歌唱測評模型能夠有效地預測學生的歌唱水平,其預測精度甚至優于原來的人工測評數據。這主要歸功于以下幾個方面:大規模數據集為模型的訓練提供了充足的數據,提高了模型的泛化能力;提取的音頻特征和歌詞相似度特征涵蓋了歌唱的音高、音強、音色、節奏、完整度等多維度特征,能夠較全面地反映歌唱的特點;采用多目標回歸策略能夠更精細地評估歌唱的各個方面,提高了模型的預測精度;隨機森林算法具有較好的準確性和泛化能力,能夠有效地處理高維數據和非線性關系。

基于機器學習的評分模型則具有以下優勢。第一,無需人工標注:模型通過學習大量的音頻數據和對應的評分,自動提取音頻特征并建立評分模型,無需人工標注旋律信息。第二,考慮更多音頻特征:模型不僅考慮了音高、節奏等旋律特征,還考慮了音色、能量等其他音頻特征,能夠更全面地評估歌唱表現。第三,更好的泛化能力:模型通過學習大量的訓練數據,具有更好的泛化能力,能夠適應不同歌唱者和不同歌曲的評分。此外,該模型展現了人工智能在評估過程中的客觀性、一致性和可解釋性。依據客觀的音頻特征和歌詞相似度進行評價,避免了人為評估的主觀偏差。通過快速處理大量音頻數據,模型顯著提升了評估的效率。對所有音頻應用統一的評估標準,確保了評估結果的一致性。同時隨機森林模型進一步提供了特征重要性的排序,能夠識別出對歌唱能力評估最為關鍵的特征。

本研究也存在一些局限性。第一,數據集的局限性:數據集全部來自某區,可能存在一定的地域性偏差,未來可以考慮收集更大范圍、更多樣化的數據。第二,特征的局限性:提取的特征可能還不夠全面,未來可以探索更多、更有效的特征。第三,歌詞提取準確性不高:歌唱音頻的歌詞識別本身就是一個難題,學生歌唱音頻由于歌唱環境復雜更提高了識別難度,目前正在訓練新的歌詞識別模型,但也增加了工程難度,還需進一步評估效果;雖然基于Librosa、Spleeter和Whisper的方案在當前階段提供了有效的歌詞相似度評估方法,基于深度學習的端到端歌詞識別方案具有更大的潛力,能夠更有效地處理歌唱音頻中固有的復雜性;現初步探索了此類方案的可能性,并計劃利用已有的學生歌唱音頻數據及后續不斷積累的練習音頻數據,構建并訓練端到端歌唱歌詞識別模型。

基于隨機森林算法的學生歌唱測評模型取得了令人滿意的結果,驗證了該方法在歌唱測評中的有效性和優越性,為音樂教育提供了一種客觀、高效的評價工具(可在微信小程序搜索“音樂微測評”進行測試)。

參考文獻:

[1]DingY,Tetsuya M.Audio Feature Extraction forDTW-basedAudio-to-Score Alignment[C]//Proceedings ofthe 1Oth InternationalConference on Computer and Communications Management,2O22:214-220.

[2] Tsai WH,Lee HC.Automatic Evaluation of Karaoke SingingBasedon Pitch,Volume,and RhythmFeatures[J].IEEETransactionsonAudio,Speech,andLanguage Processing,2011,20(4):1233-1243.

[3]BaevskiA,Hsu WN,XuQ,et al.Data2vec:A GeneralFramework for Self-Supervised Learning in Speech,VisionandLanguage [C]// International Conference on Machine Learning.PMLR,2022:1298-1312.

[4] ZhangH,Yuan T,Chen J,etal.Paddlespeech:AnEasy-ToUseAll-In-One Speech Toolkit[J].arXivpreprint arXiv:2205.12007,2022.

[5]Amos D.The Ultimate Guide to Speech Recognition WithPython[J].Real Python,2016:2-23.

[6]RadfordA,KimJW,XuT,etal.RobustSpeechRecognitionviaLarge-Scale Weak Supervision [C] // International Conference onMachineLearning.PMLR,2023:28492-28518.

Research of Singing Evaluation Model Based on the Random Forest Algorithm

Yang Huang Li Yinghui Zhuhai District Teacher Development Center,Zhuhai,Guangdong,519000

Abstract:The assessment of students'singing ability is acrucial aspect of music education,directly impacting teaching quality evaluation and students’vocal skill development.Traditional singing assessment methods,often relying on subjective expert judgment,suffer from inconsistenciesand inefficiencies.Utilizing a self-developed music assessment mini-program over three years,and collcting singing audio data from 34,280 students,accompanied by76,36O evaluationsbyover7O teachers,a student singingabilityevaluationmodel is trained by applying machine learning techniquesand using theRandom Forest algorithm.This model aims to provide objective,efficient,and intelligent singing ability assessment.The model first preprocesses theaudio,then extracts various acoustic features,including pitch,ntensity,timbre,and rhythm,along with featuresrepresenting lyrical accuracy/completeness,constructing a high-dimensional feature vector space.Finaly,the extracted features andteacherscoresareused for training andregressonanalysisviatheRandomForest algorithm toachieve objective student performance evaluation.Experimental results demonstrate the model's high accuracy in singing assessment,offering an effective approach for objective student ability evaluation.

Key words:Singing Assessment,Random Forest,Machine Learning,Artificial Intelligence

(責任編輯:陳暢、李梅)

猜你喜歡
音頻歌唱森林
中外森林康養研究及發展概述與我國對策分析
數字信號處理課程中濾波器線性相位特性教學實驗研究
基于STFT算法的聲光自適應映射技術研究
歌唱春天
傣族(傣那)儀式歌唱隱喻系統研究
歌海(2025年2期)2025-08-15 00:00:00
彩虹糖音樂會
麥爺爺的小森林
恐怖森林
最淺又最深的河流
小品文選刊(2025年8期)2025-08-06 00:00:00
基于多模態表征學習的自動音頻字幕方法
主站蜘蛛池模板: 国产一级毛片网站| 亚洲精品视频免费看| 国产精品嫩草影院视频| 成年看免费观看视频拍拍| 国产成人高清精品免费软件| 久久精品欧美一区二区| 99草精品视频| 欧美日韩午夜| 天堂av综合网| 福利在线不卡| 国产极品美女在线观看| 色一情一乱一伦一区二区三区小说| 麻豆AV网站免费进入| 国产真实自在自线免费精品| 国产1区2区在线观看| 99国产精品免费观看视频| 日韩国产精品无码一区二区三区| 欧美一级夜夜爽www| 婷婷五月在线| 亚洲无码视频一区二区三区| 亚洲aaa视频| 国产真实乱子伦视频播放| lhav亚洲精品| 很黄的网站在线观看| 欧美精品一区在线看| 中文字幕欧美日韩高清| 99这里只有精品6| 黄色网在线| 91精品专区国产盗摄| 在线观看无码av五月花| 992tv国产人成在线观看| 在线观看无码av五月花| 日本久久网站| 8090午夜无码专区| 黄色国产在线| 国产乱肥老妇精品视频| 国产无码网站在线观看| 国产国产人成免费视频77777 | 白浆视频在线观看| 亚洲免费毛片| 一区二区三区高清视频国产女人| 国产丝袜丝视频在线观看| 先锋资源久久| 国产成人凹凸视频在线| 国产第一福利影院| 国产日本欧美在线观看| 狠狠色香婷婷久久亚洲精品| 国产69囗曝护士吞精在线视频| 97色伦色在线综合视频| 五月天久久综合| 69视频国产| 欧美日韩专区| 亚洲精品老司机| 国产jizz| 国产内射一区亚洲| 另类重口100页在线播放| 91福利在线看| 久久久久亚洲精品成人网| 黄网站欧美内射| 亚洲精品不卡午夜精品| 中文字幕自拍偷拍| 国产尹人香蕉综合在线电影| 四虎精品黑人视频| 色亚洲激情综合精品无码视频| 国内a级毛片| 亚洲最大综合网| 伊人无码视屏| 国产一区在线视频观看| 欧美色香蕉| 国产国拍精品视频免费看| 亚洲一区免费看| 欧美激情首页| 精品免费在线视频| 中国国产高清免费AV片| 日韩精品毛片| 日韩国产亚洲一区二区在线观看| 国产一线在线| 三上悠亚一区二区| 天天摸天天操免费播放小视频| 亚洲天堂成人| 韩国v欧美v亚洲v日本v| Aⅴ无码专区在线观看|