首都醫科大學附屬北京婦產醫院 劉 婷
計算機來模擬人類識別音樂的過程一項較難的工作,而且,隨著因特網的大興其道,數字音樂也大量的產生,隨之而來的是如何儲存并建立合理的音樂檢索方法,傳統的音樂文件檢索都是在知道音樂名稱的基礎上完成的,而如何建立基于內容的檢索成為一個新興的領域,這不但要求檢索過程可以從音樂的任何一段開始,而且還要求對輸入的錯誤有一定的糾錯能力,因為有時使用者的輸入并不一定與某些音樂對象相匹配,這就要求系統能夠找出類似的樣式來,另外,除了有效性,還應該盡可能得節省儲存空間,因此,必須用一種合理的方式表達和儲存原始音樂信號,而和弦作為音樂中的重要載體,包括三個或三個以上同時發聲的音符,能夠表達音樂中的重要信息成分,利用和弦儲存音樂信息可以減少對冗余信息的存儲,從而能夠節約儲存空間,提高儲存效率。
音樂信號識別算法大致可以分成三類:一類是利用時頻分析的方法進行音樂識別,第二類是基于和聲(harmonic)的和弦識別方法,第三類方法則是利用模式識別的方法,下面就通過一些具有代表性的具體方法來展示這些算法的特點。
將時頻分析應用到和弦識別當中是較為傳統的一種方法。Zheng Cao等人利用針對頻率域的手段提出了音符與和弦的識別方法,而在整個過程中應用小波變換的工具。音樂信號是典型的時頻分布形態,并且具有短時穩定的特性,因此我們我們可以通過時頻分析的方法進行音樂信號識別。
Chuan-Wang Chang等人提出了一種基于和聲(harmonic)的單聲道音樂和弦識別方法,該方法可以將單音旋律的音樂識別為相同的和弦效果,也就是用和弦來表示若干音符的效果。隨著網絡和數字音樂的興起,如何高效地存儲音樂資料是個熱門的研究內容,其中,以和弦表示音樂資料可以大量減少存儲空間,并可以提高容錯的效果。
對于專業的音樂人士,能夠通過聽力來進行音樂和弦種類的識別,而在信號分析識別領域,人們希望讓計算機也具備這樣的能力,從音樂和弦信號中提取出新的特征參量,并利用支持向量機進行和弦識別,其中具體的技術包括:
(1)相空間重構。隨著混沌、分形等非線性理論的發展,在信號處理領域,非線性特征參量越來越多的被應用到信號分析、檢測和識別當中,本文利用相空間重構提取音頻信號的非線性特征用來構造分類器,并作為識別實驗中的特征量。
(2)自適應信號分解。相關的研究表明,對音樂和弦信號直接識別并不能得到較好的準確率,因此,需要對音頻信號進行預處理,再提取特征參量,本文將獲取后的和弦音頻利用EMD和NSP的方法分解成包含若干特征信息的子信號,然后對子信號進行相空間重構,從而得到和弦信號的非線性特征參量。
(3)支持向量機。支持向量機(SVM)是數據挖掘中的一種方法,能非常成功地處理回歸問題和模式識別等諸多問題。在音樂和弦識別方法中,利用相空間重構后的非線性特征參量進行SVM分類器的構造,并進行相應的和弦識別實驗。
基于上述技術建立的和弦識別的具體算法,可以較為準確地對不同種類的和弦進行識別。
在音樂識別過程中,音樂信號中包含大量的信息,甚至是噪聲,而其中很多信息是冗余的或者與識別無直接作用的,因此,在分類器構造和識別前要對音樂信號提取特征參量,既要能夠反映出音樂因素的本質特征,同時也要去除對識別無關緊要的多余信息,以及降低噪聲對識別的影響。
傳統的識別方法是基于線性理論的,假設音樂信號隨時間的變化是緩慢的,在這一理論下,大多數的方法是采用時頻分析的手段,將音樂信號的時頻特征作為分類器構造和識別的主要依據。盡管這種方法得到了廣泛的研究和應用,但隨著混沌和分形等理論的不斷發展,語音信號的非線性本質特征逐漸被人們所認識和應用。研究表明,混沌的信號是由確定性系統產生的隨機性的信號,具有時域不規則性和頻域寬頻譜的特征,在區分這兩種信號方面,傳統的時頻方法效果不明顯,而在語音識別過程中,對語音信號和隨機信號,特別是噪聲的區分是至關重要的。
近年來,混沌和分形等理論不斷地發展,語音信號的非線性特征開始應用到信號處理和信號識別當中,其中,相空間重構(Reconstructed Phase Space,RPS)方法是提取語音信號非線性特征的有效手段,利用RPS提取音樂信號的非線性特征后,用于分類器的構造和識別中,可以產生很好的效果。在實際的相空間重構中,有兩個參數是至關重要的,一個是延遲時間τ,還有一個是嵌入維m。在Takens的理論中,對于沒有噪聲影響的無限長時間序列,這兩個參數可以取任意值,但是,在實際的應用中,大多數信號都會被噪聲所干擾,因此,延遲時間τ和嵌入維m不能取任意值,需要通過一定的方法來確定,否則,會對重構后的特征矩陣產生嚴重的影響。
支持向量機的多類分類有四種:一對一分類,一對多分類,有向無環圖分類,基于二叉樹的多類分類。其中主流的多類分類是有向無環圖分類,基于二叉樹的多類分類。
有向無環圖(Dircted Acyclic Graph,簡稱DAG)算法在訓練樣本構造分類器時,和一對一算法相同,但在分類階段將所有k(k-1)/2個兩類分類器組成一種兩向有向無環圖的節點,k個類別是底層的“葉”,如圖1所示。

圖1 有向無環圖分類法
當對未知樣本訓練時,從根結點開始分類,只需k-1步即可完成分類。和一對一分類算法相比,在分類過程中,減少了重復操作,很大程度上提高了分類的速度,這種分類方法的缺點是沒有考慮樣本不平衡數據對分類速度的影響,而且一旦在分類過程中出現分類錯誤就會產生錯誤的傳遞效果。
基于二叉樹的分類方法首先把k類中最相近的k-1類看作是一類,把余下的一類看作另一大類,建立一個兩類的支持向量機分類器,然后再在那k-1類中,取出最相近的(k-1)-1類看作一個大類,把那k-1類中余下的一類看作另外一大類,建立另外一個兩類的分類器,依此類推,直到最后兩類,其結構如圖2所示。

圖2 基于二叉樹的多類分類法
對于k類分類問題,一共需要構造k-1個兩類的分類器,基于二叉樹的算法還可以克服以上幾個算法中無法識別的陰影區域,而且重復訓練的樣本量少,可以提高訓練和分類的速度。
結語:音樂信號是由混沌音組成的,存在著混沌機制,近年來很多研究人員都應用非線性理論處理相應的語音信號,其中相空間重構就是一種非常有效的方式。支持向量機是一種基于統計學習理論的機器學習方法,該方法在模式識別、回歸分析和函數擬合等問題中得到較為廣泛的應用,闡述了各種多類分類方法的優缺點,為識別信號實驗打下了基礎。