任瑞
(寶雞職業技術學院,鳳翔師范學院,陜西,寶雞 721000)
樂曲節拍識別是近年來樂音識別領域的研究熱點,它是應用音頻技術,根據旋律可識別樂譜、五線譜以及音頻文件的一種新技術[1-2]。目前,編輯曲譜過程中,音頻文件可轉換成簡譜但無法轉換成鋼琴等民族樂器產生的音頻文件,由于樂曲聲音、曲譜、聲線標準構成了樂曲節拍體系,利用此能夠自動識別完整的音頻,并且自動生成樂譜。在此基礎上結合音頻技術與語音信號的瞬時功能來確定樂曲的端點以及音節分布,在研究樂曲節拍識別技術與其應用時,五線譜當中包含小節線以及終止符號,可滿足略懂簡譜的大量用戶的需求,但在處理樂音方面的數字采樣、數據信號傳輸、音頻處理、編輯等問題時存在一定的局限性[3-4]。
在樂曲演奏中,音符、頻率、節拍、音頻與編碼的相互關系,通常采用MIOV語言以一種模塊化的形式表示,因此本文以音符編碼的標準為基礎,設計基于音頻技術的樂曲節拍識別系統,使樂曲在演奏當中得到優化,尤其是在系統設計中采用輸入樂曲頻譜編碼的方式來記錄樂曲,并通過下載或之前錄制好的樂曲來轉換成相應的譜表,從而支持層次化的設計,以此提升樂曲節拍識別效果。
本文設計的基于音頻技術的樂曲節拍識別系統硬件結構由樂音識別器、節拍控制器和動態顯示器等3部分組成。系統硬件結構如圖1所示。
利用音頻技術進行樂曲節拍識別過程中,根據樂器的演奏自動輸入音頻從而產生相對應的譜表。樂音識別器結構如圖2所示。

圖2 樂音識別器結構
在樂曲演奏過程中,獲取以及處理音頻信息的方法有多種,可以在線進行樂曲錄制,也可以線下錄制。在音樂旋律中找出可以表達特征信號的音頻文件是處理樂曲信息的主要目的。提取音符信息常用的方法有時域法、頻域法或者時域頻域相結合的方法[5]。樂曲旋律加入特殊的數據信息,再將其以特定的嵌入方式輸入到相對應的譜表當中作為旋律的特征序列,并在樂曲的頻譜數據庫與音符數據進行旋律匹配,以此產生對應的五線譜,樂音識別器負責處理演奏樂曲中的音頻信號以此獲得重要信息,并將此重要信息轉換為其中的中間格式,完成對樂曲音符的編碼[6]。
在樂器演奏中,音符持續的時間使樂曲能連續演奏,其中最小節拍為1/5拍,將2拍的時間長度定為2秒,其中一個5 Hz的時鐘頻率可產生1/5拍的時長。演奏樂曲需要控制節拍從而使音符編碼輸出,編碼輸出一次所需的時間是1/5拍,樂曲中的節拍通常大于1/5,如1/3拍、1/2拍等,1/3拍則需要將音符的編碼輸出3次。在設計樂曲節拍識別系統中設置了標準計數器,其計數頻率為5 Hz,音符占據的時間為0.15 s,是音頻停留時間的2倍。節拍控制器示意圖如圖3所示。

圖3 節拍控制器示意圖
通過連續輸出音符的編碼,并隨著計數器上出現的速率進行計數,各個音符的編碼可控制樂曲中節拍的輸出,這時樂曲就會自動識別并且演奏,當計數器上的音符編碼變為1時,樂曲演奏立即停止[7-8]。節拍控制器結構如圖4所示。

圖4 節拍控制器結構
根據圖4可知,在基于音頻技術的識別系統中,各個緩沖識別器存有不同頻率的音符信號,通過對基準頻率分段從而獲得這些音頻信號的具體信息,為了減少工作量,需要在合適的音頻段截取適合的基準頻率,在對頻率進行分頻過程中,數控分頻器輸出演奏樂曲所需的脈沖波,以此減小偶次分量生成音符對應編碼的脈沖輸出,在完成演奏前進行二次分頻,以此控制樂曲節拍[9-10]。
在進行樂曲節拍識別系統硬件設計過程中,動態顯示器設計方法采用的是MDYV語言編程,樂曲演奏模塊當中的分頻模塊將30 MHz的頻譜時鐘結合成5 MHz和5 Hz的時鐘頻譜。
動態顯示器結構拓撲網如圖5所示。

圖5 動態顯示器結構拓撲網
聲音調試程序與簡譜生成程序在設計上較簡單,樂曲的演奏源程序分布較分散,音符頻譜生成模塊對應的編碼將音符頻率由5 MHz時鐘轉換為4 Hz,以此完成音符頻率的正常輸出,在輸出之后利用偶次脈沖進行二次分頻,優化音符驅動器。因此在樂曲音頻輸出編碼過程中需要獲取演奏樂曲所需的樂曲節拍和對應的頻譜編碼,通常一段五線譜中含有140個1/5節拍,用聲線計數器進行循環計數,統計輸出樂曲的節拍編碼,音符脈沖頻率達到6 Hz時能夠使樂曲自動播放演奏,動態輸出的曲譜音符通過動態顯示器循環顯示,根據顯示的動態編碼調節高、中、低音調以及音符[11-12]。采用基于音頻技術的分析、處理、識別技術,將處理的結果轉換成音頻文件,在應用程序上,將錄制好的音頻文件打開,形成一個采樣率高、單聲道正常的波形文件,擴展其原有系統的音頻編輯功能,轉換成相應的樂譜。顯示器的時鐘結構如圖6所示。

圖6 顯示器時鐘結構
音頻是多媒體中的重要媒體,音頻信號的頻率范圍大概在30 Hz~30 kHz,自然界中廣泛分布著音樂和自然響聲,經過模擬設備記錄聲音,結果稱之為模擬音頻。音頻分析的原理涉及數字信號處理的基本理論、音頻分析的基本方法以及音頻參數測量和分析內容,數字信號處理是音頻技術分析的基礎,信號的采樣和變換是進行音頻分析時所采用的一般方式,信號的頻譜按照信號的頻率結構進行頻譜幅值分析,按照頻率的分布規律對相位進行分類,建立幅度譜、相位譜等。在信號變換過程中,對應的離散頻譜并非周期信號,當周期信號接近無窮大時,離散頻譜變換為連續頻譜,模擬信號經過A/D變換器變為離散時間信號,數字采樣經過幅值量化頻譜會發生改變,在采樣過程中會涉及采樣定理、頻率混疊、加窗、截斷和泄漏。對音頻設備進行測量分析時,將脈沖模擬信號輸入黑箱系統,從輸出端對信號進行重疊分析,分析過程中產生激勵信號,隨白噪聲、雙音、多音等進行脈沖信號檢測[13-14]。
展示界面如圖7所示。

圖7 展示界面
樂曲節拍識別方法通常采用音頻信號處理,音頻信號處理的重點以及采用的具體方法不同,通常樂曲節拍識別流程分為以下幾個部分。
初始化處理。初始化處理包括音符處理、頻譜整流、聲線濾波、編碼操作等步驟。通常使用錄音采樣來獲得樂曲節拍音頻數據,樂曲音符基頻范圍依據不同的節拍而不同,確定所需數據的精度以及計算的復雜程度、編碼的采集格式以及信號的分流。
第一步:音符處理
可用自動識別節拍軟件或者專門的音符處理軟件RTEIB對演奏樂曲進行音符處理
第二步:頻譜整流
在樂曲演奏過程中,演奏人員通常利用錄制聲線卡或者線下錄音作為音頻數據源,頻譜在音頻傳輸當中會通過脈沖信號進行整流,避免環境對數據傳輸的干擾,對輸入信號做整流處理,音頻處理軟件對音頻信號能夠有效地進行轉換,且可靠性高,擴展性強。
第三步:聲線濾波
在對簡譜進行二次處理時,軟件會對樂曲中的聲線進行濾波,再對音頻信號進行低通濾,從而得到短時幀頻譜計算結果。
第四步:編碼操作
編碼操作的取值在節拍識別中相當關鍵,取值過大或過小都會出現許多同音,這樣產生的樂曲簡譜就不理想,對應的音符編碼會出現重疊,因此在這一操作中需要取音長的最小值就可以使音符編碼成功[15]。
為了研究本文提出的基于音頻技術的樂曲節拍識別系統的有效性,與傳統的文獻[1]基于音樂特征識別的樂曲節拍識別系統以及文獻[2]基于人工智能識別的樂曲節拍識別系統進行實驗對比。
設定實驗參數如表1所示。

表1 實驗參數
本文所使用的實驗數據均來自于RILM音樂數據庫,隨機選擇10首曲目作為實驗曲目。
利用本文系統對隨機一首曲目進行音符處理、頻譜整流、聲線濾波、編碼操作,具體的系統軟件處理結果如圖8所示。

(a)音符處理
選用本文提出的系統和傳統系統進行對比實驗,先比較了不同系統的樂曲節拍識別間隔時間,該指標是指在以識別開始時間作為初始識別時刻,將沒有樂曲聲音輸入就立即停止識別的時刻作為終止識別時刻,將從初始識別時刻到終止識別時刻所用時間作為識別間隔時間。
不同系統的識別間隔時間如表2所示。

表2 識別間隔時間
由表2可知,本文所示設計系統的識別間隔時間遠遠低于傳統系統的識別間隔時間,原因在于基于音頻技術的樂曲節拍識別系統樂譜中的拍子具體指每一小節的總長度,常見的有2/4、3/4、4/4、6/8拍子。每小節的長度是固定的,例如3/4拍子就是4分音為1分音,3分音為3分音,6分音為6分音。音樂的節奏在作曲時是固定不變的,而且不會改變,所以該系統的識別間隔時間更短。
識別準確率是正確識別出的樂曲節拍數量與樂曲節拍總量之間的比率。不同系統的識別準確率實驗結果如圖9所示。

圖9 識別準確率實驗結果
根據上述實驗結果可知,本文所設計的識別系統的識別準確率更高,具有更好的識別能力,更適合于實際應用。
本文主要設計了一種基于音頻技術的樂曲節拍識別系統。通過對音頻、簡譜、聲線、樂音的處理、分析、識別使錄制的音頻文件更加直觀、簡單、可靠性高。在應用界面上,采樣率單聲道的波形文件會通過本系統得到擴展,單擊程序上的“轉換簡譜”可以轉換成相應的譜表,能夠適合多功能的各種樂器,樂曲節拍識別得更加完善且健全,以此可以進一步提高音樂人創作樂曲的效率,節省創作的成本、時間、精力,在搜索海量樂曲文件過程中使用的識譜功能。在樂曲節拍識別的基礎上,能識別五線譜中存在小節線、終止符號,改善原有的樂曲節拍識別系統,能夠有效、準確地對音頻定位以及對音符分割,使每個獨立音符的起始和結束時間都可由幀來表示,優化原有的樂曲節拍識別系統。