999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合深度樂譜特征融合的鋼琴指法生成方法

2024-01-15 14:43:46李鏘吳正彪關欣
智能系統學報 2023年6期
關鍵詞:模型

李鏘,吳正彪,關欣

(天津大學 微電子學院, 天津 300072)

鋼琴指法(piano fingering)是影響鋼琴演奏效果的重要因素,也是鋼琴演奏初學者遇到的學習難題。然而,大量的樂譜缺乏指法注釋,給演奏者帶來了巨大困擾。利用計算技術為樂譜自動標注指法,可以拓寬初學者選擇樂譜的范圍,去除演奏的首要障礙,拓展鋼琴演奏人群,保護鋼琴練習的興趣。

自動鋼琴指法作為音樂信息檢索[1]領域的子任務,很早便受到研究者們的關注。較早的自動指法生成方法基于規則,使用主觀定義的指法轉移規則來建立代價函數,以代價函數值最小為目標求解指法路徑。Parncutt 等[2]將長程指法生成任務視為動態規劃問題并建立12 條指法轉移規則,根據規則建立求解動態規劃問題的代價函數。Balliauw 等[3]擴展Parncutt 的研究,將指法生成視為一個組合優化問題,設計可生成指法的變鄰域搜索算法。Al 等[4]定義相鄰音符與和弦音符的水平損失和垂直損失,以此尋找指法的傳輸路徑。這些基于規則的方法易于理解,但模型需要手動設置參數,且人工定義的規則不適用于所有演奏情況。

因為基于規則的方法存在設置模型參數困難、規則完備性欠缺的問題,基于數據驅動的方法成為近年來自動指法生成研究的熱點。基于數據驅動方法將鋼琴指法生成看作自然語言處理領域[5]的序列標注[6-7]問題,使用傳統統計學習模型或者深度學習模型學習音高和指法間的映射關系。

Yonebayashi 等[8]建立一階隱馬爾可夫模型(hidden Markov model,HMM),使用維特比算法搜索可能性最大的輸出指法序列,該方法成功生成單音樂譜的指法。Nakamura 等[9]提出用兩個并行的HMM 模型組合輸出指法的方法,針對樂譜的高聲部與低聲部,分別訓練兩個HMM 模型再合并輸出指法,完成雙手指法的生成。

隨著深度學習技術的發展,有良好時序建模能力的長短時記憶網絡(long short-term memory,LSTM)在各類時序處理任務[10-12]中取得了超越傳統統計學習模型的性能。于潤羽等[13]使用基于LSTM 模型提取文本向量的上下文信息,并結合條件隨機場 (conditional random field, CRF) 進行命名實體識別;王一成等[14]使用BiLSTM(bidirectional LSTM)模型,提取文本序列的高階特征;Siami-Namini 等[15]比較LSTM 和BiLSTM 在預測金融時間序列中的性能;Wang 等[16]設計基于LSTM 的兩個模型處理音頻序列的梅爾倒譜系數,提升語音情感識別的準確性;Liu 等[17]使用BiLSTM 結合注意力機制提取文本序列的局部特征。

因為LSTM 優秀的序列處理性能,使得LSTM模型成為近年來指法生成任務中的主流模型。Nakamura 等[18]研究深度神經網絡在指法生成中的應用,使用前饋網絡和LSTM 生成指法。Ramoneda等[19]設計基于LSTM 和圖神經網絡的兩個自回歸模型進行微調,提升模型生成和弦指法的能力。Guan 等[20]采用基于RNN 和LSTM 的方法,并提出一個定性評價度量來評估所生成的指法的可彈性。

現有工作仍存在一些問題。現有方法使用音高表示音樂序列,不能表示同樣影響指法的速度特征。并且上述研究所用的樂譜數據集規模有限,導致對音樂特征的捕獲能力變弱;最后,在訓練模型時,上述方法選擇對左手指法和右手指法分別訓練的方案,分別訓練的策略讓一個獨立模型可用的訓練數據變得更少,性能也因此降低。

為應對上述挑戰,本文提出融合樂譜綜合特征與上下文信息的指法生成系統。首先,設計一種樂譜綜合特征提取方法,同時提取樂譜的音高信息與速度信息并生成原始樂譜特征向量;其次,針對樂譜特征向量之間的時序性,引入Word2Vec-CBOW 模型,用自監督學習的方法提取原始樂譜特征向量的上下文信息、融合樂譜特征向量;同時,根據左右手鏡像對稱的特性,提出左右手互相轉化的數據增強方法,增加單個模型可用的數據量;最后,結合BiLSTM-CRF 模型,實現鋼琴指法的自動生成。

1 自動指法生成系統

本文算法的結構如圖1 所示。該系統由4 部分組成:樂譜特征提取層、數據增強模塊、Word2Vec-CBOW 特征融合層和BiLSTM-CRF 指法生成層。樂譜特征提取層進行數據預處理,獲取綜合性的樂譜特征向量;數據增強模塊實現序列的轉換,使得模型可以同時訓練左手數據與右手數據;Word2Vec-CBOW 特征融合層利用樂譜上下文信息訓練原始樂譜特征向量,獲得融合特征向量E(t);BiLSTM-CRF 指法生成模塊用于捕獲融合特征向量與輸出指法序列之間的映射關系,并學習輸出序列內部的約束。

圖1 指法生成系統Fig. 1 Fingering generation system

1.1 樂譜特征提取層

在實際彈奏時,速度同樣影響指法[21-22]。基于此,設計可以同時提取音高信息和速度信息的樂譜特征提取方法,如圖2 所示。

圖2 樂譜特征提取層Fig. 2 Musical score feature extration layer

樂譜特征提取層基于音高序列P、音符開始時間ton和結束時間toff,對原始樂譜進行數據預處理。

音高信息反映手指在演奏時的位置。提取音高的獨熱向量p,音高差分編碼d、黑鍵標識符與和弦標識符作為音高相關特征。音高獨熱向量p即為音高MIDI 的獨熱編碼。音高差分編碼[19]d的基本思想是用相鄰的音高作差,以此表示琴鍵的相對距離,其計算方法為

式中:d(t)為當前時間步的音高差分編碼,x代表的是音高MIDI,t為時間步長變量,k表示和弦中包含的音符數,若為單音,k規定為0。

黑鍵標識符或者和弦標識符為布爾值。設置為1 時,說明當前音高對應的琴鍵是黑鍵或者當前音是和弦。當手指按壓于黑鍵或者演奏和弦時,一些特定的指法是不可用的[19]。

另一方面,音樂的速度信息影響彈奏時指法的疲勞感和舒適度[2]。定義音符的稠密度和真實時值作為速度相關特征。稠密度定義為當前音符開始后,1 s 內會響起的音符個數。真實時值的定義為音符結束時間toff和開始時間ton的差值。

在經過圖2 的樂譜特征提取層之后,音符序列將從單個音高量作表述的一元碼元序列,擴展為多維特征向量組成的多元碼元序列,以便后續的Word2Vec-CBOW 訓練。

1.2 數據增強

左手的升調演奏與右手的降調演奏受到的人體工程學約束是相同的[1]。基于這一特點,可將左手的音高差分編碼轉化為右手的音高差分編碼。

考慮左手音高差分編碼是非和弦時,左手的升調演奏與右手的降調演奏的d(t)是相同的,故得到

式中:dR(t)是右手音高差分編碼,dL(t)是左手音高差分編碼。

考慮當前音符是和弦時,根據式(1)和式(2),得到

式中:xL為左手的原始音高數據,k為和弦指法所用的手指數。

結合式(2)與式(3),可以得到基于左右手對稱特性的數據轉換方法:

式中:dR(t)是dL(t)通過式(2)轉化而來的右手音高差分數據,k表示和弦中包含的音符數。

完成式(4)的轉化之后,左手音高差序列dL(t)替換為新的dR(t),其余特征不變。訓練時左手數據與右手數據共享參數,實現左右手聯合訓練。

1.3 Word2Vec-CBOW 特征融合層

Word2Vec-CBOW[23-28]的滑窗全連接層機制,可提取當前時間步的上下文訓練融合特征向量,這一特點適合對多維樂譜特征建模。

Word2Vec-CBOW 模型的結構如圖3 所示。圖中x(t)表示原始特征向量,E(t)為訓練完成的融合特征向量。Word2Vec-CBOW 是自監督模型,使用原始數據訓練融合特征向量而不需要指法標簽。圖3 中的c為窗長參數,代表該模型利用當前時間步t周邊的前c-1和后c-1個原始樂譜特征向量來訓練融合特征向量。

圖3 Word2Vec-CBOW 特征融合層Fig. 3 Word2Vec-CBOW feature fusion layer

圖3 輸入層前將t時刻周邊2(c-1)個原始特征向量向量進行線性變換,以此提取當前時間步的上下文信息,這一過程表示如下:

式中:Yin是輸入層的輸出向量,W1∈Rv×n是輸入層的訓練權重矩陣,v為原始特征向量維度,n為輸入層神經元個數,窗長內的每一個原始樂譜特征向量共享相同的訓練權重矩陣W1。

輸出層使用全連接層增加融合特征向量的擬合能力,其公式為

式中:W2∈Rn×v是輸出層的權重矩陣,σ 是Sigmoid激活函數,E(t)是訓練好的維度為v的融合特征向量。

最后,Word2Vec-CBOW 模型的訓練目標為

式中x(t)是原始特征向量。該訓練目標使融合特征向量不丟失原始的樂譜特征。

訓練時,使用隨機梯度下降法訓練模型,損失函數選擇交叉熵函數,通過反向傳播算法更新權重矩陣W1和W2。

1.4 BiLSTM-CRF 指法生成層

輸入的樂譜序列是一段連續的多維時間序列,需要綜合前后時間的信息對當前樂譜狀態作出判決。并且輸出指法之間存在一定的轉移限制,這就需要算法學習輸出指法之間轉移概率。因此本文使用結合BiLSTM 與CRF 層的指法生成方法。BiLSTM 對輸入的樂譜特征序列進行雙向遞歸處理,可以更好地學習雙向時序關系。CRF模型對BiLSTM 生成的指法序列進行約束學習,得到更加合理的指法結果。

圖4 是BiLSTM-CRF 在時間維度上的示意圖。E(t)的是前述的融合特征向量, At與 A′t為LSTM 的基本單元,其具體結構可參考文獻[26-28]。

圖4 BiLSTM-CRF 指法生成層Fig. 4 BiLSTM-CRF fingering generation layer

BiLSTM-CRF 指法生成層對條件概率P(Y|E)進行建模,其中Y=[y(1)y(2) ···y(t)]T是待預測的指法序列,而E′=[E(1)E(2) ···E(t)]T是Word2-Vec-CBOW 輸出的多維時間序列。訓練時采用極大似然估計原理,使P(Y|E′)最大化。該條件概率可表示為

損失函數使用負對數似然函數,其表達式為

2 實驗與分析

2.1 實驗環境與參數設置

本實驗環境如下:操作系統為Windows 10,內存為64 GB DDR4 3 600 MHz,CPU 為Intel i9-9900X,GPU 為4 x Nvidia RTX2080Ti(11 GB),使用Pytorch 作為深度學習框架。

本文使用七折交叉驗證方法進行實驗。Word2-Vec-CBOW 的窗長設置為2,初始學習率為0.004,使用Adam 優化器調整權重。實驗時Word2Vec-CBOW 和BiLSTM-CRF 分開訓練,Word2Vec-CBOW 的損失函數為交叉熵函數,BiLSTM-CRF的損失函數為負對數似然函數。每次交叉驗證均訓練10 輪(epoch)。模型參數如表1。

表1 模型參數Table 1 Model parameters

2.2 數據集

實驗使用的數據集是Nakamura 等[18]在2019年發布的PIG 數據集和自建數據集。PIG 數據集是一個標注好指法的公開樂譜數據集,包含有150首樂譜,共有309 首指法標簽數據。自建數據集中包括巴赫的28 首樂譜,車爾尼的20 首樂譜和中國音樂學院社會藝術水平考級1~3 級中節選的7 首樂譜,共計55 首樂譜數據。兩數據集共364 首樂譜數據、145 129 個音符數據。

2.3 評價指標

在數據集中有許多首樂曲存在多個指法標簽數據。計算實驗結果和所有真實標簽的匹配率ai,j,取其平均值Mgen作為評價指標,其計算方法為

式中:N是測試集樂曲總數,ai,j表示指法估計結果與第i個樂譜的第j個指法標簽真值序列的匹配率。對于特定的i和j,ai,j的計算方法為

式中:n為該樂曲的序列長度,y是模型生成的指法,是真實指法標簽,XNOR代表同或計算。

對于數據集中多標簽的樂譜數據,使用另一個評價指標,最高匹配率Mhigh,Mhigh的表達式如下:

需要注意的是,鋼琴的正確指法不是唯一的,每一段樂譜對應的指法可能有很多種。使用匹配率指標只能在一定程度上體現模型標注指法與標簽的相似性。

2.4 實驗結果與分析

2.4.1 消融分析

為驗證本文系統中引入的各部分模型的有效性,筆者開展消融實驗。消融實驗的結果如表2所示。

表2 消融實驗結果Table 2 Results of ablation experiment%

實驗B 的模型在僅使用音高輸入的情況下,Mgen下降2.66%,Mhigh下降3.02%,這說明本文設計的樂譜特征提取層在鋼琴指法生成任務中起著重要作用。

實驗C 的模型將左右手彈奏的樂譜序列用兩個模型分別訓練,而非合并在同一個模型中訓練。在左右手音符數據分別訓練的情況下,模型的Mgen下降2.84%,Mhigh下降1.90%,驗證了本文提出的數據增強在指法生成任務中的有效性。

實驗D 的模型直接將特征提取層輸出的原始樂譜特征向量作為源數據。實驗結果表明,在未使用Word2Vec-CBOW 的情況下,模型的Mgen下降3.81%,Mhigh下降3.81%。這意味上下文信息特征向量建模可以提高生成指法的準確性。

2.4.2 與其他算法的對比

為比較本文算法與常見指法生成算法的有效性,筆者將本文算法與前饋網絡[18]、LSTM[18]與BiLSTM[20]做對比,如表3 所示。其中,文獻[18]是首個使用深度學習網絡進行指法生成的研究,而文獻[20]算法對樂譜的黑白鍵信息建模,與本文算法思路較為相似。此外為體現出本文算法的先進性,筆者還選取了綜合性能較好的AR-LSTM(autoregressive-LSTM)[19]與AR-GNN (autoregressive-graph neural network)[19]做比較。

表3 不同算法的結果對比Table 3 Results of different algorithms%

將本文算法與文獻[18]提出的前饋網絡以及LSTM 進行對比,本文算法在兩個指標上均有著很大的優勢。

與文獻[19]提出的AR-LSTM 和AR-GNN 相比,本文算法在Mgen指標上均有優勢,而AR-GNN在Mhigh指標上較高。AR-GNN 是使用一個噪聲較大的超大音樂數據集預訓練后,再在PIG 數據集上微調得來的。其在預訓練階段時使用的數據量上遠大于本文算法所使用的數據量。

與文獻[20]提出的BiLSTM 相比,本文算法在兩個指標上均有優勢。這說明本文提出的深度特征融合方法與數據增強方法,具有較強的樂譜特征提取能力。

此外,為比較不同算法在訓練時所需的計算量,筆者將不同算法的計算復雜度展示于表4。表4 中,n為輸入音符序列的長度,l為神經網絡的層數,d為音符嵌入向量維度,h為LSTM 中隱藏層大小,c為Word2Vec-CBOW 的窗長。

表4 不同算法的計算復雜度Table 4 Computational complexity of different algorithms

如表4,前饋網絡與AR-GNN 的計算復雜度與n成二次關系,而本文算法的計算復雜度與n成線性關系。當輸入音符序列長度較長時,前饋網絡與AR-GNN 的計算成本較本文算法高。而與其他基于LSTM 的算法[18-20]相比,本文算法較LSTM[18]以及Bi-LSTM[20]復雜度高,但在性能上超越了這些算法。而與AR-LSTM[19]相比,本文算法在計算復雜度相近的情況下能獲得更佳的性能。

2.5 實例分析

本節中,筆者給出了本文算法與前饋網絡[18]、BiLSTM[20]在實驗結果上的區別,以突顯本文算法的優勢。

2.5.1 單音樂譜實例

如圖5 所示,單音旋律的輸出指法是單維的,與真值標簽不同的指法已用虛線框標出。圖5中,本文算法生成與真值標簽一樣的指法。而前饋網絡生成與真值標簽不同的3-5-4 指法。雖然生成的3-5-4 指法是可彈奏的,但相比本文算法生成的指法,該指法需要移動手位,而非僅移動手指,這會帶來頓挫感。說明前饋網絡對手指位置信息的捕獲能力不如本文算法。而在BiLSTM 生成的指法中,出現與真值標簽不同的2-1-2 指法。該指法對手指獨立性要求高,若演奏者缺乏練習,會加劇疲憊感。這說明僅使用BiLSTM 無法學習指法之間的約束,導致該模型欠缺對連貫性的考慮。而本文算法引入CRF 層,學習到了指法標簽間的約束。

圖5 單音樂譜指法實例(選自巴赫BWV 827《諧謔曲》)Fig. 5 Example of monophonic fingering (from Bach BWV 827 “Scherzo”)

2.5.2 復音樂譜實例

圖6 給出了在復音旋律上生成指法的樣例。復音旋律的指法是多維的,對演奏者的技巧要求更高。

圖6 復音樂譜指法實例(選自肖邦《英雄》)Fig. 6 Example of polyphonic fingering (from Chopin“Heroes”)

本文算法生成的指法雖與真值標簽略微不同,但是生成的指法是可彈奏的。前饋網絡生成的指法與真值不匹配、不合理之處較多。BiLSTM 生成的指法雖可彈,但在第3、4 個時間步中,使用25-15 指法。該指法與真值標簽24-15 指法相比,對手指獨立性有一定的要求,在速度較快的情況下要求演奏者有較高的演奏水平。相比于BiLSTM,本文算法生成的指法在高速情況下更容易演奏。這說明本文提出的樂譜特征提取方法捕獲了對指法判決有重要影響的速度信息。

3 結束語

本文提出一種基于深度樂譜特征融合的BiLSTM-CRF 指法生成方法。該方法綜合性地提取樂譜的音高信息和速度信息,基于左右手對稱的特點實現數據增強,引入Word2Vec-CBOW 模型融合樂譜特征向量,利用BiLSTM-CRF 模型自動生成指法。通過消融實驗、橫向對比以及實例分析,證明本文提出的算法相較于幾種常用的算法性能更好,并且利用了樂譜的速度信息使得生成的指法更具優勢。本研究目前仍然有可提高的地方:本文算法并不能完美地生成一些特殊的指法,如同音換指、輪指;此外,LSTM 的自回歸特性使得模型會出現誤差傳播的問題。未來的工作將繼續尋找更優的網絡結構、更合理的特征提取方法,以及生成指法速度更快的網絡結構,以期實現對指法生成模型的進一步優化與改進。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品页| 免费国产高清视频| 色天堂无毒不卡| 日韩在线2020专区| 亚洲天堂久久| 日本一区中文字幕最新在线| 亚洲精品国产综合99| 久久久久久尹人网香蕉| 国产亚洲精品91| 超碰精品无码一区二区| 超清无码熟妇人妻AV在线绿巨人| 日韩精品成人网页视频在线| 日韩在线视频网| 国产视频自拍一区| 精品丝袜美腿国产一区| 成人福利在线视频免费观看| 欧美综合中文字幕久久| 嫩草国产在线| 亚洲一级色| 九九九九热精品视频| 国模极品一区二区三区| 国产国产人免费视频成18| 亚洲国产成人自拍| 欧美视频在线播放观看免费福利资源| 日本www在线视频| 免费看a毛片| 日韩黄色大片免费看| 92精品国产自产在线观看| 亚洲AV无码一二区三区在线播放| 欧美国产日韩在线播放| 国产99视频在线| 日韩小视频网站hq| 亚洲成在线观看 | 亚洲天堂啪啪| 无码一区二区三区视频在线播放| 一级毛片视频免费| 在线观看亚洲人成网站| 国产自视频| 国产视频欧美| 国产精品.com| 亚洲最大情网站在线观看| 亚洲精品日产AⅤ| 成人av专区精品无码国产| 国产精品人成在线播放| 成人中文在线| 免费国产无遮挡又黄又爽| 免费观看三级毛片| 高潮毛片免费观看| 亚洲精品大秀视频| 国产精品亚洲五月天高清| 日本久久久久久免费网络| 宅男噜噜噜66国产在线观看| 手机精品福利在线观看| 99热这里只有精品在线播放| 日韩中文字幕亚洲无线码| 精品福利视频导航| 亚洲国产日韩视频观看| 在线日本国产成人免费的| 亚洲国产成人精品无码区性色| 国产97视频在线观看| 亚洲男人天堂久久| 久久免费看片| 欧美日韩一区二区在线播放 | 喷潮白浆直流在线播放| 丁香五月激情图片| 一本大道在线一本久道| 91区国产福利在线观看午夜| 亚洲不卡av中文在线| 亚洲AⅤ综合在线欧美一区 | 亚洲精品色AV无码看| 国产精品伦视频观看免费| 91视频首页| 国产欧美综合在线观看第七页| 亚洲欧美成人综合| AV天堂资源福利在线观看| 一区二区三区在线不卡免费| 免费不卡视频| 国产人碰人摸人爱免费视频| 日韩av资源在线| 四虎永久免费地址| 国产日韩久久久久无码精品| 久久99国产综合精品女同|