孫夢青
樂音(musical tone),發音物體有規律地振動而產生的具有固定音高的音稱樂音。樂音是音樂中所使用的最主要、最基本的材料,音樂中的旋律、和聲等均由樂音構成。從聲學分析角度,樂音有三個要素:音調(音高)、響度(音強)、音色,也可以用基頻、振幅和倍頻來表示。
音量,即聲音強弱,跟發聲體的振幅大小有關。
音色/音品(Tone),由聲音波形的諧波頻率和包絡決定,包括基頻所產生的基音和各次諧波的微小振動產生的泛音。音色通常代表人類對聲音的感覺特性。泛音的不同決定了音色的不同。
音符(Note),是用來記錄不同長短的音的進行符號,它是樂音的最基本表示單位,是音樂的最基本要素。音樂中的一個音符,表示在音樂中某一時刻發出了什么聲音,以及聲音的持續長度。
音符的識別主要包括音高估計和時值估計。
基頻/主頻(Fundamental Frequency),是基音頻率的簡稱,即物理學上的本征頻率,通常是指聲音中使得聲音達到最強的那個最低頻率。基頻決定了聲音的基礎音調。
時值(Note Values),指一個音符持續的時間,本質上是發聲體發生振動的持續時間。
全音符(Whole Note),是一種音符時值基準。確定了一個全音符時間長度,就可以以此為基礎,定義其它音符的時值。
復調(polyphony),指由幾個聲部構成的多聲部音樂,即同一時刻存在多個旋律同時發音,與單聲音樂相對。
基音檢測/提取(pitch exaction),即對基音頻率的估計,采用技術手段得到聲源體振動的基音頻率輪廓圖。
音樂特征識別。從音高、音色等基本特征,節奏、旋律等復雜特征,曲式結構、音樂風格等整體特征三個維度進行信息提取和識別。
音頻信息檢索,是指從音頻資源中找到滿足用戶所需信息的匹配、定位過程。具體實現的途徑包括基于文本標注的檢索和基于內容的檢索等。
自動音樂標注技術,也稱自動音樂記譜或樂譜自動識別,廣義上講,指將音樂演奏的聲學信號所對應的樂譜信息自動翻譯出來,即將音樂數據的表示形式從其他形式轉換成樂譜形式。自動音樂標注技術主要包括音符識別與音高估計、節拍與節奏識別、旋律與和聲提取以及多基頻估計等幾個方面。
樂音識別領域的相關技術蓬勃發展。業內出現了ISMIR(音樂信息檢索國際會議)、ICMC(計算機音樂國際會議)、CSMT(中國聲音與音樂技術會議)、ICASSP(聲學、語言、信號處理國際會議)等國內外高水準學術會議,Computer Music Journal、Journal of New Music Research等期刊持續發表高水準研究成果。技術的進展為樂音識別的廣泛應用提供了技術。
20世紀90年代以來互聯網的高速發展,使得用戶可以接觸到海量的數字音樂資源。傳統的資源分類和管理依靠文字標簽實現分類,不能滿足用戶基于音樂本身信息檢索和運用的旺盛需求。這就為樂音識別的廣泛應用創造了市場條件。
樂音識別技術的應用領域涉及聲學、音頻信號處理、人機交互、軟件工程、作曲編曲及音樂制作等多個學科,體現了多學科門類交叉融合的特點。
樂音識別技術成功的在以下幾個方向實現了工程化應用。
2.1音樂識別系統(Music Recognition System)。倫敦大學推進的OMRAS項目衍生出音樂可視化軟件Sonic Visualiser,可以實現音樂的音高、節奏和音量信息的識別與提取。中國科學院聲學研究所在該領域也推出了高水準的專業平臺產品。當前的音樂識別系統對音樂片段開展識別匹配,計算Chroma、節奏直方圖、節拍、MFCC峰值等音樂特性,而后與音樂數據庫中記錄進行匹配。網易云音樂、ACRCloud等商業機構都實現了基于人聲、音頻的音樂識別功能,在PC端和移動端實現高效識別和與海量音樂聲紋庫的匹配。
2.2音樂信息檢索(Music Information Retrieval)。音樂信息檢索包括音樂流派風格識別、音樂情感識別、作曲家信息識別、音樂結構分析等。本文僅以音樂流派風格識別為例進行介紹。
音樂流派風格的識別起源于20世紀90年代,業內試圖通過音樂專家開展人工篩選,將音樂區分為不同類型,這就是Music Genome Project(音樂染色體工程)。但是面對海量音樂數據,人工分類效果不佳。美國研究人員試圖通過音樂數據的計算均值、方差、自相關系數等參數的提取,結合樂音基本特征來進行篩選。進入21世紀,G.Tzanetakis等人開展了基于樂音結構的提取實驗,對歌曲的一小部分隨機取樣,用于學習歌曲的特定特征,然后使用訓練好的分類器對整個歌曲進行分類和分割,借此區分音樂的流派和風格。Lin等人利用小波和SVM技術改進的樂音分類方法,對音頻數據進行精確分類,將分類誤差從8.1%降低到3.0%左右。2017年,王芳等人針對音樂流派和中國傳統樂器識別分類問題,研究并改進了基于深度置信網絡的音樂流派識別分類算法,對GTZAN庫的十大音樂流派進行識別分類的準確率最高達75.8%,對自建中國傳統樂器音樂庫的六種樂器進行識別分類的準確率最高達99.2%。
2.3計算機音樂生成。計算機音樂生成也稱自動作曲或算法作曲(Algorithmic Composition),最早始于1957年。Mozer于1994年開發了CONCERT系統,運用人工神經網絡來生成音樂。2009年,Nierhaus等人出版專著《Algorithmic composition: paradigms of automated music generation》,介紹算法作曲的數學原理和范例。2015年,Nayebi等人通過實驗比較了基于字符級長短期記憶網絡(LSTM)和遞歸神經網絡在音樂生成中的效果,最終確認了LSTM算法在計算機音樂生成中的優勢。2017年,王程等人實現了基于LSTM網絡的計算機音樂生成方法,并分析了其不同網絡結構在計算機音樂生成的效果,實現端到端訓練。
至此,應用領域已經可以通過給定的要求讓計算機產生相對完整的樂音旋律,并且對已有樂音部分進行內容接續創作。盡管人們對其藝術效果、水平的評價各有差異,但是計算機音樂生成已經具備了初步的生產力和生命力,這一點是毋庸置疑的。
2.4數字音頻的版權保護。
數字時代,音樂產品的市場容量十分巨大。隨之而來的,是盜版下載、未授權播放、扒流(stream-ripping)等行為給音樂生產方帶來的巨大損失。據測算,《Divide》等三張隨意挑選統計的專輯,在2019年7月一個月內被非法下載了超過100萬次,給音樂制作行業和音樂零售商造成1000萬美元的損失。
數字音頻作品的版權保護主要通過魯棒數字音頻水印(Robust Audio Watermarking,RAW)和音頻指紋技術(Audio Fingerprinting)。常見的頻域魯棒數字音頻水印是在人類聽覺最敏感的中低頻段內嵌入水印,在保證人耳無法識別的情況下為機器識別和判斷提供便利;音頻指紋則是首先提取音樂文件時域和頻域的特征信息,通過特定模型獲得指紋,而盜版、翻錄的音頻片段的失真會造成音頻指紋匹配失敗。
樂音識別技術的應用,雖然不能完全杜絕盜版等行為的發生,但是為非法行為的甄別鎖定創造了技術條件。
經過多年發展,樂音識別技術的發展體系浙成,日益完備。單音及其要素的識別提取手段豐富,多音、復調識別運用方面不斷取得突破。
樂音識別技術的應用場景廣泛,其發展和應用出現了“普及化”和“專業化”兩極并舉的趨勢。一方面,隨著硬件性能的提升和算法的不斷成熟完善,樂音識別技術已經開始與移動互聯網絡與終端結合,進入普通用戶的生活,在聽歌識曲、哼唱檢索、翻唱檢索、音樂分類及推薦、卡拉OK應用等場景下發揮了越來越重要的技術支撐作用。另一方面,在音樂工業級的伴奏生成、自動配樂、音樂內容標注、音樂合成及轉換、智能作曲、數字樂器、音樂編輯制作等專業方面,樂音識別也發揮著越來越重要的作用。
在本質上,都是由于樂音識別技術可以極大的減輕人力認知、識別音樂的成本和難度,從而涌現出巨大的研究價值和商業價值。相比之下,圍繞樂音識別技術及其應用的相關問題,國內研究力量起步較晚,研究工作的連續性不足,同時兼具音樂理論基礎和工程技術能力的團隊不多,藝術和科技領域的融合有待進一步加強。中國的移動互聯網產業已經走在世界前列,數字音樂資源幾近極大豐富。如何更好的研究、發展和運用樂音識別技術,仍然是一個非常有價值的問題,值得更多的同志關注。