(陜西職業技術學院藝術系,710100)
基于哼唱的音樂檢索系統的探究
路 昕
(陜西職業技術學院藝術系,710100)
隨著當前信息網絡技術的不斷快速發展,人們與音樂正面對接的方式早已從最初的磁帶、唱片轉變成了信息網絡,網絡也逐漸變為人們體驗音樂最為重要的接收途徑。 但是,同樣伴隨著娛樂產業的迅猛發展,其純粹的音樂數據也呈現爆炸式發展的趨向,可謂浩如煙海。怎樣實現準確,快速的搜索到自身所需要找尋的音樂,逐漸成為了網絡搜索技術探索的重點課題。
哼唱音樂;音樂檢索;音樂理論
現階段人們所現實應用的音樂搜索辦法是十分有限的,而以信息網絡為主流形式的音樂檢索方式,依然為按照文本注識來完成的,譬如人們使用最廣泛的谷歌mp3檢索皆是依靠人工注識,人們輸至與之對應的搜索關鍵字,檢索系統再通過文本模式對音樂展開檢索。這種以文本模式為基準的檢索方式自開辟以來便沿用至今,目前依然占據主導地位,但這種的檢索模式也存在著諸多制約性。
無論是音樂還是日常的聲音,皆是依靠物體不斷發生振動所形成的,然而,我們所能聽到聲音也只是物體振動的“選擇性”聲音。而振動頻率便是指物體每秒鐘所產生振動的次數,單位為赫茲(HZ)。振動頻率如果愈大,以物理學視角而言,聲音的內涵是伴著時間的持續性改變的波形信息。但是當前計算機只可以解決數字信號,故而必須把聲音信號實行離散處理,形成為數字信號后,才可以完成輸入并且貯存至計算機例。當我們把聲音貯存至計算機中,該應當考衡要考慮幾個方面的參數:第一,信號采樣頻率(sample rate),其中涵括8kHz、16kHz、CD音質;第二,采樣解析度(Bit Resolution),其中涵括8-bit、16-bit。
由于聲音是通過振動形成且通過機械波方式完成推出,故而人們常規意義上探究聲音時,也應當記錄下聲音信號波形,由于時間長短皆不盡相同,導致其表現特征也存有顯著的不同。如圖1所示,聲音維續長時間時,其聲音信號波形不會出現顯著的周期特點;聲音維續時間較短時,其聲音信號波形擁有顯著的周期規律特點。

圖1 聲音在較長與較短狀態下的信號波形對比
2.1去噪處理
音量和過零率 (zero-crossing rate)是人們用來分別正常聲音和噪音最為重要兩個標準。通過這兩個標準的甄別,能夠有許多消除噪音的方式。其中,過零率的重點功能,是用來辨識“氣音”,這也在識別過程中扮演綱領性作用。但對音樂旋律特征識別而言,利用過零率來進行對噪音的清除去意義不大。主要是因為氣音并不存在音高部分,為了降低計算工作加強效率,可以直接通過音量展開邊界觀察與第一階段的去噪處理。利用音量方式去噪最重要的環節,便是明確音閾的大小,而音閾的判定常規中主要有幾種方式:第一,音量極限值10%:這個方法在聲音處于大小不均衡之時容易導致錯誤;第二,音量最小值五倍:該辦法在聲音處于雜音狀態很強時,很容易導致錯誤;第三,第一幀音量值四倍:這個方法假設初期是靜音。倘若初始階段,并非靜音或錄音設備在初始狀況下便出現偏移,很容易導致錯誤。上述三種辦法在明確音閾方面,各有所長,也各有所短。如果適當的揚長避短,則能找出更多確定閾值的方法,例如,得知音量極限最大值得和最小值完成加權平均法,確定音閾值。如圖2所示,經哼唱檢索,第一種方法能夠達到最佳效果。

圖2 音閾值確定方式對比
2.2哼唱旋律提取
和諧泛音中哼唱主旋律提取處理過程主要涵蓋了預處理模塊、基頻提取模塊以及音符分割模塊。預處理模塊涵蓋了精化整流以及低通濾波(Low-pass filter)等三個步驟,經過這三個階段的過濾,最終保證信號的質量與降噪效應。音頻信號通過初始的預處理模塊后就滲透到了中心地位的基頻提取模塊,該模塊涵蓋了泛音特點的判定與引導主基頻判定這方面的的基本功能。音符分割模塊主要通過兩個環節的音符切分,第一環節依靠能量突出指標把音段范圍與無音段范圍進行分開;第二環節再依靠音高的區域改變進行對各音符的切分。
樂器演奏旋律提取法擁有較大的受制約性,關鍵在于其處理對象只可以是單聲部樂曲旋律,但是對于專業性質的資料庫貯存的音樂資料展開演奏旋律提取時,并未展示出十分優質的效果。其因素主要有兩個方面,一方面,是演奏者(演唱者)其表現技藝難免存在一定客觀因素的差異,這也就為演奏旋律的提取工作設置了一定程度的阻礙;另一方面,許多聲部音頻音樂,因為其復雜標準皆是單聲演奏不能夠與之相比擬,故而,對其展開演奏音樂旋律提取工作仍然存在很大難度。
固定伴奏復調哼唱旋律提取相對于樂器演奏旋律提取以及和諧泛音主旋律音樂提取表現的最為優秀,其主要特征是可以在更為繁雜的音軌中攝取到人聲所演唱的旋律。而相對而言,在常規意義下,人聲的演唱部分都屬于樂曲當中的主旋律。在固定伴奏復調哼唱旋律提取算法中,能夠選擇性的根據演唱者聲音展開提取,其常規流程圖如表3.

圖3 固定伴奏復調哼唱旋律提取基本流程圖
該提取系統通過根據聲音在伴奏階段時間不穩定的特征,并基于這個特征,來一一甄別樂器伴奏聲音與演唱者的聲音。最終,明確旋律音高。
MIDI是樂器的數字化接口的縮寫,屬于標準協議,其功能主要用于電子樂器、音樂合成器以及計算機三者間相互對換的一種音樂符號,其并不發射聲音信號,而在聲音通道中上傳、輸送各式的信息,再通過消息接收的設執行動作。常規意義上的音樂通過有十六個能夠使用的音樂通道,而所有的通道皆具備不同種類的音色。通常情況下,打擊樂聲放置于十號音樂通道,其余十五個通道音色,可以直接默認系統原先設置的,也可以由個人完成自定義。絕大部分,音樂制作一方,皆會把主旋律獨立的貯存自獨立專屬的通道中,但具體存放于哪一個通道,需要通過制作者在創作音樂之時,根據自身的實際情況所決定。故而也存在極大的不確定性。
哼唱旋律特征實現提取工作之后,能夠展現為音高向量的方式。如果需要階段性哼唱旋律的雷同性問題,就變化為求n維空間里向量與向量之間的距離關系。常規條件下,向量之間空間距離一旦愈小,那么就能夠肯定其所需要完成匹配的旋律,在雷同度上就愈高。一般條件下,兩個空間向量 x、y ,其間距能夠被判定成兩者之間所涵蓋的直線距離的幾何平均數。這便是歐幾里得距離(Euclidean Distance)。
如圖4所示,經上述研究,哼唱音樂檢索系統功能已能夠得到確定。在實現了對旋律特征提取的同時,基于MIDI旋律架構建造了音樂特征庫,為旋律之間的互相匹配做好了最后的鋪墊工作。
音樂屬于通過藝術雕琢,蘊育著人類所寄托的情感,聽之能夠讓人發生情感共鳴或是陳述出神圣意味的聲音。音樂的本質原則與要素有兩點,即節奏與旋律,主要可以分之為聲樂和器樂兩大種。往往一個音符變幻與重疊,就能夠形成各種不一樣的情感認識,也許是在節奏,也許是在旋律上。而音符的這些變化,也和人們在那時的律動,情感狀態也存在著一定的聯系。音樂理論是讓人們體驗音樂最為關鍵與重要的理論基礎,音樂理論的范圍區域涉及面十分廣泛,涵括了音樂感知與音樂創作各個要素。
[1] 羅如海.用改進人工蜂群算法優化基于內容的哼唱音樂檢索系統[D].哈爾濱工業大學.2010.
[2] 周義洪.面向Web的基于哼唱方式的歌曲檢索方法與系統實現[D].中南大學.2013.
[3] 孫潔.基于哼唱的MIDI音樂檢索系統的研究[D].西安建筑科技大學.2013.
[4] 王海濤,趙艷瓊,韓家鑫等.Building an Information Retrieval System:Global Indexing or Local Indexing[J].Software Engineering and Applications, 2013,Vol.02 (01):6-14.
Study of humming music retrieval system based on
Lu Xin
(Shanxi Vocational &Technical College,710100)
With the rapid development of the information network technology,people and music positive butt way already from the original tape,disc into information network,the network has gradually become an important way of people experience received for music.But,as with the rapid development of the entertainment industry,the trend of its pure music data also show explosive growth,is the multitude.How to realize the accurate,fast search to the need to find music,gradually became the focus of research to explore the network search technology.
humming music retrieval;music theory

圖4 哼唱音樂檢索系統整體結構