基于遞歸神經(jīng)網(wǎng)絡(luò)的自動(dòng)作曲算法

2018-06-01 06:25:25李雄飛馮婷婷張小利

吉林大學(xué)學(xué)報(bào)(工學(xué)版) 2018年3期

李雄飛，馮婷婷，駱實(shí)，張小利

(1.吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130012；2.吉林大學(xué) 軟件學(xué)院,長(zhǎng)春 130012)

0 引言

近年來利用計(jì)算機(jī)技術(shù)分析音樂情感的特性，以及以樂譜為研究對(duì)象的計(jì)算機(jī)作曲已成為計(jì)算機(jī)音樂的一大重要研究方向[1-5]。計(jì)算機(jī)算法是通過某種策略控制生成音符序列，進(jìn)而組成音樂旋律，最終得到完整樂譜，此類方法需要大量音樂知識(shí)規(guī)則。而以音頻為研究對(duì)象進(jìn)行人工智能(Artificial Intelligence，AI)作曲，可使計(jì)算機(jī)自動(dòng)生成音樂片段的排列組合生成新的音樂音頻。基于音頻的AI作曲不依賴大量的音樂知識(shí)規(guī)則，又能傳遞給聽眾直觀感受。因此，該類算法比基于樂譜的傳統(tǒng)作曲方法更具有實(shí)用性。本文以音樂音頻作為研究對(duì)象，基于長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)提出一種新的自動(dòng)合成樂曲算法。

在傳統(tǒng)計(jì)算機(jī)作曲方面，神經(jīng)網(wǎng)絡(luò)曾一度被認(rèn)為不能學(xué)習(xí)到音樂的結(jié)構(gòu)并且不適合用來做音樂作曲等研究，為解決該問題，Eck等[6]用了兩個(gè)長(zhǎng)短期記憶(Long short term memory, LSTM)模型來訓(xùn)練學(xué)習(xí)創(chuàng)作藍(lán)調(diào)音樂，一個(gè)用于學(xué)習(xí)和弦，另一個(gè)用于學(xué)習(xí)旋律，和弦網(wǎng)絡(luò)的輸出連接到旋律網(wǎng)絡(luò)作為旋律網(wǎng)絡(luò)的輸入。最終實(shí)驗(yàn)結(jié)果表明，系統(tǒng)能夠?qū)W習(xí)標(biāo)準(zhǔn)的12小節(jié)藍(lán)調(diào)和弦小節(jié)并且生成遵循和弦規(guī)律的音樂。此后，F(xiàn)ranklin[7]也使用LSTM網(wǎng)絡(luò)來學(xué)習(xí)和訓(xùn)練爵士音樂。他們開發(fā)了一種在主歌和副歌三等分的音調(diào)表示方法。在此基礎(chǔ)之上，Liu等[8]又使用了遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)來學(xué)習(xí)了古典音樂，采用由Allan&Williams收集的巴赫的midi片段數(shù)據(jù)集，他們首先驗(yàn)證了神經(jīng)網(wǎng)絡(luò)在重組音樂的能力，將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)重組的音樂片段與原始的巴赫音樂片段進(jìn)行比對(duì)，此后進(jìn)一步對(duì)使用神經(jīng)網(wǎng)絡(luò)利用音樂碎片進(jìn)行譜曲，在驗(yàn)證方面，采用多分類的測(cè)試指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行測(cè)試，最終測(cè)試結(jié)果表明，與人類感官有著比較大的差距。

在傳統(tǒng)研究中，梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient，MFCC)在音樂信號(hào)上能夠高效地識(shí)別音調(diào)和頻率，一直被用作分析音樂音頻，Dhanalakshmi等[9]采用MFCC和線性預(yù)測(cè)編碼(Linear predictive coding，LPC)分別作為音頻分類的特征向量，使用支持向量機(jī)通過訓(xùn)練將音頻進(jìn)行場(chǎng)景分類，結(jié)果證明MFCC作為特征向量時(shí)分類精度更高。Mathieu等[10]在GNU (General public licence)通用公共許可協(xié)議下開發(fā)了一個(gè)音頻特征提取的系統(tǒng)YAAFE用于快速提取音頻特征。而AI作曲又是以樂譜為載體進(jìn)行研究，實(shí)質(zhì)的研究為文本挖掘類研究，而本文首次提出以音頻本身作為研究對(duì)象，從MFCC入手，將音頻信號(hào)處理與AI作曲融合，提出了基于LSTM-RNN的音樂音頻自動(dòng)合成算法，驗(yàn)證了AI作曲以音頻為載體的可能性，使得成果更直觀地展現(xiàn)于聽眾。

1 與音樂生成模型相關(guān)的形式化

描述

單一的音符是沒有意義的。從樂理上講，一個(gè)曲子可劃分為若干個(gè)小節(jié)，每個(gè)小節(jié)由一系列音符組成，因此，一個(gè)音樂小節(jié)是表達(dá)含義的最基本單位，將這些小節(jié)有機(jī)地組織起來才能體現(xiàn)出音樂情感和含義價(jià)值。著名的例子是莫扎特的圓舞曲《音樂骰子游戲》,他創(chuàng)作了176個(gè)音樂小節(jié),然后將小節(jié)編號(hào)排列為兩個(gè)特別的矩陣圖,用擲骰子的方式來決定演奏的次序,每次擲骰子都是這些音樂片段的重組。本文將這樣的可重復(fù)組合排序的一個(gè)或多個(gè)小節(jié)稱為音樂模式，將大量音樂曲目分解為音樂模式，構(gòu)成音樂模式庫。這樣，基于AI的音樂創(chuàng)作就可分為兩個(gè)步驟：①在大量樂曲上訓(xùn)練音樂模型；②利用音樂模型從音樂模式數(shù)據(jù)庫中抽取音樂模式組成樂曲。

定義1 單位音樂與音樂向量

定義2 前序信息

對(duì)于一段樂曲中任意一個(gè)單位音頻mi，與其有時(shí)間順序的前n(n

可以把合成算法看成是已知前i-1個(gè)單位音樂推測(cè)第i個(gè)單位音樂的問題，其中n

定義3 AI生成音樂

針對(duì)目標(biāo)函數(shù)F，選擇一個(gè)m1后，就音樂序列M=(m1,m2,,…,mn)而言，對(duì)任意0

2 音頻預(yù)測(cè)和音樂合成

2.1 訓(xùn)練數(shù)據(jù)集組織

選擇一批音頻樂曲用于構(gòu)建訓(xùn)練集。將每個(gè)樂曲分割為單位音樂序列，具體步驟如下。

2.1.1 分割單位音樂

在獲取單位音樂時(shí)，旨在保留音樂節(jié)拍的強(qiáng)弱性以及較短的旋律性，因此，若單位時(shí)長(zhǎng)t的取值太小，會(huì)破壞小節(jié)的完整性，則喪失了音樂的強(qiáng)弱節(jié)拍感，若單位時(shí)長(zhǎng)t取值太大，容易保留過多的旋律信息，經(jīng)過試驗(yàn)，本文取單位時(shí)長(zhǎng)t=3 s，當(dāng)音樂速度為90～180 節(jié)拍/min時(shí)，單位音樂m包含的小節(jié)數(shù)約為2～3小節(jié)。音頻編碼中，編碼流dm與時(shí)長(zhǎng)有著依賴關(guān)系，依據(jù)音樂時(shí)長(zhǎng)，將音頻流切割成等單位時(shí)長(zhǎng)的音頻片段序列，式(1)用于切割流數(shù)據(jù)d(t)：

d(t)=dm[0:fmrt*t]

(1)

式中：t為單位時(shí)長(zhǎng)；fmrt為該音頻文件的采樣頻率；dm[0:fmrt*t]表示對(duì)數(shù)據(jù)流dm的從下標(biāo)0到下標(biāo)fmrt*t的數(shù)據(jù)切片。

2.1.2 特征處理

音樂通過影響人的聽覺感受以傳遞情感信息，實(shí)驗(yàn)表明，人的聽覺感受對(duì)音調(diào)的變化是呈線性變化的。MFCC通過對(duì)頻率和音調(diào)的對(duì)數(shù)關(guān)系轉(zhuǎn)化反映了人耳的音高聽覺特性。在以音頻為載體的音樂情感和場(chǎng)景分類問題的研究結(jié)果表明，MFCC在音樂信號(hào)上能高效地識(shí)別音調(diào)和頻率，可作為音頻分類的特征[9]。因此，本文取MFCC作為單位音樂的特征。

常見的MFCC為39維，由13維靜態(tài)系數(shù)、13維一階差分系數(shù)以及13維二階查分系數(shù)組成，其中差分系數(shù)表示音樂的動(dòng)態(tài)特征，而13維靜態(tài)系數(shù)又是由1維能量特征和12維系數(shù)構(gòu)成。

MFCC的計(jì)算過程為：

(1)對(duì)每一幀信號(hào)做快速傅里葉變換(Fast fourier transform, FFT)計(jì)算幅度頻譜。

(2)將幅度頻譜利用梅爾尺度變換到梅爾域，經(jīng)過等帶寬的梅爾濾波器組濾波之后，將濾波器組的輸出能量進(jìn)行疊加：

(2)

k=1,2,…,K

式中：Sk為第k個(gè)濾波器的對(duì)數(shù)能量輸出；Hk(j)為第k個(gè)三角濾波器的第j個(gè)點(diǎn)對(duì)應(yīng)的權(quán)值；|X(j)|為變換到梅爾尺度上的FFT頻譜幅值；K為濾波器的個(gè)數(shù)，一般為24個(gè)。

(3)將濾波器的對(duì)數(shù)能量進(jìn)行離散余弦變化，可以得到MFCC系數(shù)：

n=1,2,…,L

(3)

式中：L為MFCC靜態(tài)系數(shù)的維數(shù)，一般L≤P，本文取L為13維。

至此，令V(mi)表示第i個(gè)單位音頻mi的音樂向量，則V(mi)=(c1i,c2i,…,cni)稱為單位音樂向量，其中V(mi)∈R，n為單位音樂向量的維數(shù)。

將提取完MFCC的單位音樂向量V進(jìn)行Softmax歸一化，對(duì)于V(mi)中的第k個(gè)元素ck，Softmax歸一化的值為：

(4)

則歸一化后的單位音樂向量表示為V(mi)=(v1i,v2i,…,vni)。

2.2 模型訓(xùn)練與預(yù)測(cè)

訓(xùn)練樣本表示為(V(pre(mi)),V(mi)),令包含了n首音樂M的數(shù)據(jù)集S={M1,M2,…,Mn}，i為單位音頻mi在數(shù)據(jù)集S中的索引。則，對(duì)于該模型來說，輸入是單位音頻mi的前序音樂序列pre(mi)，形如[V(m1),V(m2),…,V(mi-1)]，輸出是單位音頻mi的相似特征向量h，通過計(jì)算h與數(shù)據(jù)集S中單位音頻的距離確定mi。

該模型目標(biāo)函數(shù)設(shè)為tanh函數(shù)，LSTM-RNN模型音樂預(yù)測(cè)問題F(pre(mi);θ)問題可表示為參數(shù)集θ=(W,U)的函數(shù)構(gòu)造問題：

F(pre(mi);W,U)=hi

(5)

hi=oitanh(ci)

(6)

式中：oi表示LSTM模型中的輸出門,令Vi表示第i時(shí)刻的前序信息pre(mi)的音樂向量V(pre(mi))，φ表示sigmoid函數(shù)或tanh函數(shù)，則有：

oi=φ(WoVi+Uohi-1)

(7)

(8)

(9)

輸入門Ii和遺忘門fi分別控制新內(nèi)容的輸入和舊內(nèi)容的遺忘：

Ii=φ(WIVi+UIhi-1)

(10)

fi=φ(WfVi+Ufhi-1)

(11)

當(dāng)記憶單元進(jìn)行更新后，隱藏層會(huì)根據(jù)當(dāng)前輸入門得到的計(jì)算結(jié)果計(jì)算當(dāng)前隱藏層hi，如式(6)所示。

至此,當(dāng)W和U確定后，構(gòu)造函數(shù)F也就唯一確定了。在LSTM中通常確定W和U的過程需引入優(yōu)化函數(shù)RMSProp，令θ=(W,U)，RMSProp的迭代過程如下：

從訓(xùn)練集中隨機(jī)抽取一批容量為N的樣本{V1,V2,…,VN},以及其相關(guān)的輸出F(Vi;θ)及對(duì)應(yīng)單位音樂mi。計(jì)算梯度θ和誤差并更新r：

(12)

(13)

再根據(jù)r和梯度θ計(jì)算參數(shù)更新量并更新θ：

(14)

θ=θ+Δθ

(15)

式中：ε為學(xué)習(xí)率；δ為數(shù)值穩(wěn)定量；ρ為衰減速率。

由于音樂曲目通常在首尾兩處單位音樂的MFCC與中間主體部分距離相差懸殊，圖1展示了15首音樂的單位音樂特征的相鄰兩向量的距離，因此，分別將首尾部分的2個(gè)單位音頻取出放入集合Sh和St，而其余部分作為樂曲主體放入集合Sb，即，對(duì)于一首時(shí)長(zhǎng)為T的音樂M=(m1,m2,…,mk)，k=T/t+1有m1,m2∈Sh；m3,…,mn-2∈Sb；mn-1,mn∈St，則數(shù)據(jù)集S=Sh∪Sb∪St，S共有N=k1+k2+…+kn個(gè)單位音樂。在音樂合成中，首先從集合Sh中隨機(jī)挑選出一條單位音頻m1作為輸入，h作為輸出，然后不斷將算法合成的輸出h與S中的單位音樂向量進(jìn)行相似度匹配，本文中采用的相似度匹配策略是進(jìn)行歐氏距離計(jì)算，距離最近的但為音樂向量即為模型預(yù)測(cè)的下一條單位音樂mi+1,如式(16)和式(17)所示。

mi+1=S[x]

(16)

x=index(min{d(h,m1),d(h,m2),…,d(h,mN)})

(17)

式中：x為單位音樂在數(shù)據(jù)集S中的索引；index為索引函數(shù)，取h與S中所有單位音頻m的最短距離所對(duì)應(yīng)的單位音頻索引；N為數(shù)據(jù)集S中的單位音樂總數(shù)。

圖1 相鄰單位音樂向量間距離圖Fig.1 Distance between adjacent units vector

兩個(gè)單位音頻ma、mb之間的歐式距離dab計(jì)算過程如下：

(18)

式中：j表示單位音樂m的n維向量V的第j維向量值。

循環(huán)上述過程直到模型找到一首音樂m∈St，則生成終止，音樂序列生成完畢。

上述算法過程描述如圖2所示。

圖2 算法描述Fig.2 Algorithm description

2.3 平滑拼接

利用訓(xùn)練得到的LSTM模型可生成一個(gè)全新的音樂序列(m1,m2,…,mn)。接下來是音頻處理工作，在對(duì)音樂進(jìn)行拼接時(shí)，相鄰的單位音樂需要對(duì)音頻進(jìn)行平滑處理使完成后的新曲目顯得自然而不突兀，所以平滑處理的結(jié)果直接影響到生成模型最終得到的音樂質(zhì)量。

在音樂兩兩連接時(shí)選取首尾相接處相同長(zhǎng)度，即相同時(shí)間長(zhǎng)度的數(shù)據(jù)流部分，對(duì)數(shù)據(jù)進(jìn)行削弱處理，為保持?jǐn)?shù)據(jù)變化的流暢性，采取對(duì)數(shù)據(jù)進(jìn)行線性削弱處理，其中線性比例系數(shù)的計(jì)算根據(jù)式(19)得到。

(19)

式中：dm為單位音樂m的流數(shù)據(jù)；x為當(dāng)前數(shù)據(jù)值在數(shù)據(jù)流dm中的索引；函數(shù)l為dm數(shù)據(jù)流的格式化數(shù)組長(zhǎng)度；y為線性削弱方式，y∈{fadeout，fadein}，當(dāng)y=fadeout時(shí)，做比例系數(shù)從1至0的線性削弱計(jì)算，相反，當(dāng)y=fadein時(shí)，做比例系數(shù)從0至1的線性增強(qiáng)計(jì)算。

根據(jù)式(20)對(duì)數(shù)據(jù)進(jìn)行線性衰減計(jì)算。

(20)

式中：x為當(dāng)前數(shù)據(jù)索引值；s為采樣位數(shù)。

時(shí)間參數(shù)t成為了至關(guān)重要的參數(shù)，其決定了播放時(shí)所能聽到的時(shí)間長(zhǎng)度，即平滑處理的數(shù)據(jù)塊的大小。

圖3和圖4分別展示了當(dāng)時(shí)間值為1 s和2 s時(shí)經(jīng)過放大后的響度值，矩形框內(nèi)為銜接點(diǎn)。從圖4看出，當(dāng)時(shí)間值為2 s時(shí)，變化范圍略長(zhǎng)，依然能明顯感覺到淡入淡出的處理感，使兩首曲子連接松散不夠緊密，從而從聽覺上能很明確地分辨并不是一首音樂，而做音軌響度分析時(shí)，從處理后得到的數(shù)據(jù)部分的音軌響度圖可以看到音頻銜接處有明顯的長(zhǎng)段削弱部分，與原始音樂頻率有很大差異。

而圖3所展示的時(shí)間t=1 s時(shí)音樂銜接部分的突兀感減弱而線性變化感也不明顯，在平滑部分得到了比較好的結(jié)果，從聽覺上辨別已經(jīng)不明顯，在平滑部分得到了比較好的處理結(jié)果。

圖3 當(dāng)t=1時(shí)的音軌響度圖Fig.3 Loudness of tracks when t=1

圖4 當(dāng)t=2時(shí)的音軌響度圖Fig.4 Loudness of tracks when t=2

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)一

3.1.1 測(cè)試數(shù)據(jù)與參數(shù)設(shè)置

根據(jù)音樂相關(guān)理論，古典音樂的情感通常不是固定的，總是激昂與平緩交替出現(xiàn)，這種現(xiàn)象在頻譜上表現(xiàn)為能量的突變，本次實(shí)驗(yàn)根據(jù)這些突變將音樂預(yù)先且分為不同情感段，再根據(jù)不同的情感段產(chǎn)生的單位音樂集生成不同情感的音樂。

實(shí)驗(yàn)數(shù)據(jù)通過采集215首3/4拍，演奏速度為每分鐘60～180節(jié)拍的古典音樂的樂譜，通過專業(yè)的軟件將其輸出為音頻文件，然后將這些音頻文件分割成以3 s為單位時(shí)長(zhǎng)的單位音頻共計(jì)15 158條。根據(jù)本文第1節(jié)的描述，每個(gè)分離后的單位音頻由1～3個(gè)小節(jié)組成，這樣的單位音頻則包含了可被重復(fù)組合的音樂模式。在LSTM-RNN模型中，經(jīng)過多次實(shí)驗(yàn)，訓(xùn)練過程中參數(shù)初始化設(shè)置如下：

(1)設(shè)置優(yōu)化函數(shù)RMSProp的全局學(xué)習(xí)率ε=0.001，初始參數(shù)值θ=0.9，數(shù)值穩(wěn)定量δ=108，衰減速率ρ=0.0。

(2)設(shè)置神經(jīng)元連接的斷開率為0.3。

(3)設(shè)置迭代次數(shù)為20次。

3.1.2 測(cè)試實(shí)驗(yàn)

在對(duì)計(jì)算機(jī)作曲領(lǐng)域，很難通過客觀評(píng)價(jià)指標(biāo)去評(píng)價(jià)效果，所以，一般采用主觀法進(jìn)行測(cè)試。例如，Salas等[11]進(jìn)行了基于語言規(guī)則的作曲實(shí)驗(yàn)并在最終測(cè)試時(shí)采用類圖靈測(cè)試，即用戶調(diào)查的方式，他們從實(shí)驗(yàn)結(jié)果中選擇了5首音樂與作曲家創(chuàng)作的5首音樂一同構(gòu)成了測(cè)試問卷，并請(qǐng)26位測(cè)試者參與實(shí)驗(yàn)測(cè)試，請(qǐng)實(shí)驗(yàn)者對(duì)他們播放的音樂進(jìn)行排序。本文將沿用Salas等[11]的測(cè)試方法，將實(shí)驗(yàn)得出的樂曲與人為創(chuàng)作的樂曲交替順序給測(cè)試者播放，并且請(qǐng)測(cè)試者打分，以及評(píng)判喜好，再統(tǒng)計(jì)得出測(cè)試結(jié)果。

本次測(cè)試共有10首測(cè)試音頻，其中5首來自訓(xùn)練曲庫，5首來自模型生成。共24人參與了本次測(cè)試的主觀評(píng)價(jià)，其中11位學(xué)過樂器，10位表示喜歡古典音樂。在測(cè)試中，他們只能看到音樂曲目的序號(hào)，其他信息不予顯示，測(cè)試者試聽音樂后，根據(jù)主觀判斷進(jìn)行打分(0～5分)，0分則表示不好聽，5分則表示非常好聽。測(cè)試網(wǎng)站為http://47.94.96.142:8000/index/。測(cè)試音頻順序列表如表1所示。各首曲子的主觀評(píng)價(jià)直接得分如表2所示。

表1 實(shí)驗(yàn)一測(cè)試音樂順序列表Table 1 Test music list I

表2 實(shí)驗(yàn)一測(cè)試得分及排名結(jié)果Table 2 Rank of test scores(Test I)

考慮到樂理知識(shí)以及主觀喜好的傾向性，將測(cè)試人員的打分進(jìn)行了加權(quán)統(tǒng)計(jì)，音樂評(píng)分通過式(21)進(jìn)行計(jì)算。

(21)

式中：αk為基礎(chǔ)權(quán)重；βki為加分權(quán)重；sk為測(cè)試人員對(duì)該曲目的評(píng)分；k∈[1，n]表示測(cè)試人員，i∈[1，m]表示m個(gè)加分權(quán)重項(xiàng)。權(quán)重αk和βki的取值如表3所示。

表3 權(quán)重分值表Table 3 Weight score table

經(jīng)計(jì)算，各首曲子的主觀評(píng)價(jià)得分如表4所示。

通過表2與表4的統(tǒng)計(jì)結(jié)果表明，對(duì)于原始得分較高、排名靠前的曲目，通常是被大眾所喜愛的，所以加權(quán)后對(duì)其沒有造成影響，而群眾認(rèn)知度不高的曲目，在具有樂理基礎(chǔ)以及喜好古典音樂的聽眾與普通測(cè)試者中的得分差異性較大，造成加權(quán)后的得分排名與原始得分排名有了一些差異。

表4 實(shí)驗(yàn)一測(cè)試加權(quán)得分及排名結(jié)果Table 4 Weighted rank and scores(Test I)

結(jié)果顯示，本算法生成的音樂與人工作曲音樂的排名分布相對(duì)均勻，測(cè)試人員不能明確區(qū)分人工音樂和算法音樂，且在測(cè)試人員的打分排名中，模型生成的音樂有一首進(jìn)入了排名的前三，而排在第一和第二的均是大家非常熟悉的音樂，但是得分末位也是來自本算法，證明算法生成的音樂質(zhì)量有差異；另外，該實(shí)驗(yàn)結(jié)果也說明了在音頻處理方面，本實(shí)驗(yàn)所采取的拼接算法并不容易讓人們發(fā)現(xiàn)音樂的拼接點(diǎn)，即在音樂拼接平滑處理方面效果較好。

3.2 實(shí)驗(yàn)二

3.2.1 測(cè)試實(shí)驗(yàn)

音樂是極富個(gè)人色彩的作品，為了讓本算法更具有靈活性，本文在3.1節(jié)實(shí)驗(yàn)一的基礎(chǔ)上增加了交互式計(jì)算的部分，在開始生成音樂時(shí)，可由使用者指定一個(gè)音樂片段作為開頭，在音樂聲稱中間曲目時(shí)可由使用者決定是否介入人工選擇，如果介入，系統(tǒng)將會(huì)在生成mi時(shí)，根據(jù)LSTM的輸出h與數(shù)據(jù)集S中的單位音樂進(jìn)行匹配，將提供與h距離最短的3首單位音樂給使用者進(jìn)行選擇；如果不人工介入，算法默認(rèn)自動(dòng)匹配距離最短的單位音樂。加入人機(jī)交互部分后的算法流程如圖5。

圖5 人機(jī)交互式算法描述Fig.5 Algorithm description

本次實(shí)驗(yàn)選取了2首加入交互式計(jì)算產(chǎn)生的音樂與加入3.1.2節(jié)中的城市音樂列表進(jìn)行對(duì)比測(cè)試，測(cè)試音樂順序列表如表5所示，得分結(jié)果如表6所示。

表5 實(shí)驗(yàn)二測(cè)試音樂順序列表Table 5 Test music list II

表6 實(shí)驗(yàn)二交互式測(cè)試加權(quán)得分及排名結(jié)果Table 6 Weighted rank and scores(Test II)

測(cè)試結(jié)果顯示，加入交互式計(jì)算的效果整體比不加入交互式計(jì)算得到的音樂要好，證明加入交互式計(jì)算可使算法合成音樂的質(zhì)量更趨于穩(wěn)定。

4 結(jié)束語

本文以音樂音頻為操作對(duì)象在AI作曲以音頻為載體的方面進(jìn)行了嘗試，借鑒語音信號(hào)處理手段，以MFCC作為特征向量，將音樂曲目看成具有時(shí)間序列特性的音樂片段序列，并以LSTM-RNN作為訓(xùn)練模型進(jìn)行生成訓(xùn)練，該模型不僅能生成新的音樂序列，而且能平滑地將音樂片段拼接為一條完整的音頻，在以音頻為載體而進(jìn)行AI作曲方面做了很好的嘗試，但是模型作曲有長(zhǎng)有短，結(jié)果也參差不齊，作曲質(zhì)量依賴于音頻素材的數(shù)量和質(zhì)量，在加入交互式計(jì)算后得到一些生成質(zhì)量上的提升，但是在如何得到普遍更高質(zhì)量的音樂和算法的適應(yīng)性方面還有待改進(jìn)。

參考文獻(xiàn)：

[1] 劉澗泉. 第三種作曲方式——論計(jì)算機(jī)音樂創(chuàng)作的新思維[J]. 中國(guó)音樂,2006(3):51-54.

Liu Jian-quan. The third way of composing music on the new thinking of computer music creation[J]. Chinese Music,2006(3):51-54.

[2] Turkalo D M. All music guide to electronica (book review)[J]. Library Journal, 2001，126(13)：90.

[3] Hiller L A, Isaacson L M. Experimental music/composition with an electronic computer[M]. New York: McGraw,1959.

[4] Loubet E. The beginnings of electronic music in Japan, with a focus on the NHK studio: the 1970s[J]. Computer Music Journal,1998,22(1):49-55.

[5] Sigtia S, Benetos E, Boulanger-Lewandowski N, et al. A hybrid recurrent neural network for music transcription[C]∥2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),Brisbane,QLD, Australia,2015:2061-2065.

[6] Eck D, Schmidhuber J. A first look at music composition using LSTM recurrent neural networks[M]. Lugano:IDSIA USI-SUPSI Instituto Dalle Molle, 2002.

[7] Franklin J A. Recurrent neural networks for music computation[J]. Informs Journal on Computing,2006,18(3):321-338.

[8] Liu I, Ramakrishnan B. Bach in 2014: music composition with recurrent neural network[J]. Eprint Arxiv, 2014.https//arxiv.org/pdf/1412.3191.pdf.

[9] Dhanalakshmi P, Palanivel S, Ramalingam V. Classification of audio signals using SVM and RBFNN[J]. Expert Systems with Applications,2009,36(3):6069-6075.

[10] Mathieu B, Essid S, Fillon T, et al. YAAFE, an easy to use and efficient audio feature extraction software[C]∥International Society for Music Information Retrieval Conference, Ismir 2010, Utrecht, Netherlands,2010:441-446.

[11] Salas H A G, Gelbukh A, Calvo H. Music composition based on linguistic approach[C]∥Advances in Artificial Intelligence,Mexican International Conference on Artificial Intelligence, Pachuca,Mexico, 2010:117-128.