從1956年達(dá)特茅斯會(huì)議正式提出人工智能概念開(kāi)始,在算法與軟硬件架構(gòu)的不斷迭代中,在各種技術(shù)思潮的不斷交鋒中,人工智能技術(shù)幾經(jīng)浪潮和低谷,終于迎來(lái)了屬于它的黃金時(shí)代。2023年,以大模型為主導(dǎo)的生成式人工智能概念興起,一場(chǎng)人工智能浪潮開(kāi)始向全世界席卷,并以前所未有的速度、廣度和深度向各類行業(yè)蔓延。AIGC(Artificial Intelligence Generated Content,即人","Introduction":"","Columns":"音樂(lè)視野","Volume":"","Content":"
從1956年達(dá)特茅斯會(huì)議正式提出人工智能概念開(kāi)始,在算法與軟硬件架構(gòu)的不斷迭代中,在各種技術(shù)思潮的不斷交鋒中,人工智能技術(shù)幾經(jīng)浪潮和低谷,終于迎來(lái)了屬于它的黃金時(shí)代。2023年,以大模型為主導(dǎo)的生成式人工智能概念興起,一場(chǎng)人工智能浪潮開(kāi)始向全世界席卷,并以前所未有的速度、廣度和深度向各類行業(yè)蔓延。
AIGC(Artificial Intelligence Generated Content,即人工智能生成內(nèi)容)領(lǐng)域的相關(guān)技術(shù)開(kāi)始了井噴式的發(fā)展,很大程度上改變了內(nèi)容創(chuàng)作者們的工作方式。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)最新發(fā)布的《生成式人工智能應(yīng)用發(fā)展報(bào)告(2024)》,生成式人工智能產(chǎn)品的用戶規(guī)模已到達(dá)2.3億人,普及率已達(dá)16.4%,其中在20—29歲網(wǎng)民群體中的使用率已經(jīng)達(dá)到了40.5%。
將人工智能技術(shù)用于藝術(shù)作品創(chuàng)作也成為了一個(gè)備受關(guān)注的熱點(diǎn)話題。本文將基于人工智能的相關(guān)技術(shù)原理,就音樂(lè)人工智能的主要技術(shù)趨向、應(yīng)用前景和技術(shù)發(fā)展所帶來(lái)的相關(guān)爭(zhēng)議等問(wèn)題展開(kāi)探討。
一、音樂(lè)人工智能的主要技術(shù)路徑和模型架構(gòu)
所謂音樂(lè)人工智能,在現(xiàn)階段仍是一個(gè)相對(duì)模糊的概念,并沒(méi)有系統(tǒng)的學(xué)術(shù)定義,目前我們可以從廣泛意義上理解為人工智能技術(shù)在音樂(lè)領(lǐng)域的垂直應(yīng)用。在現(xiàn)階段,人工智能技術(shù)對(duì)音樂(lè)數(shù)據(jù)的理解主要基于兩種數(shù)據(jù)形態(tài):第一種是音樂(lè)符號(hào)數(shù)據(jù),即樂(lè)譜、MIDI信息等;第二種則是音頻數(shù)據(jù)。根據(jù)這兩種數(shù)據(jù)形態(tài),誕生出了兩種主流的技術(shù)路線,這兩種技術(shù)路徑各有優(yōu)勢(shì)和劣勢(shì)。
音樂(lè)符號(hào)數(shù)據(jù)主要包括MIDI、文本、樂(lè)譜、數(shù)據(jù)集等,其優(yōu)勢(shì)主要體現(xiàn)在數(shù)據(jù)的獲得和處理更加簡(jiǎn)便,數(shù)據(jù)體積更小,數(shù)據(jù)中的信息更加清晰,有效信息更為密集,且生成的內(nèi)容可編輯,具有較高的靈活度。但其劣勢(shì)也更加明顯,即符號(hào)所生成的內(nèi)容不夠直觀,從符號(hào)到音頻的轉(zhuǎn)述過(guò)程需要另外的處理,對(duì)用戶的專業(yè)度要求較高。
音頻數(shù)據(jù)生成模型是目前的主流技術(shù)路徑,這種技術(shù)路徑的優(yōu)勢(shì)明顯,從學(xué)習(xí)音頻到生成音頻,可以獲得更加全面的信息,無(wú)需完成符號(hào)到音頻的轉(zhuǎn)述過(guò)程,使得生成內(nèi)容的質(zhì)量更高,泛化能力也更強(qiáng)。但相應(yīng)的劣勢(shì)也很突出,一方面是生成內(nèi)容的可編輯性較差,另一方面則是這種訓(xùn)練方式需要的算力和數(shù)據(jù)樣本體積十分龐大。
在這兩種數(shù)據(jù)形態(tài)的基礎(chǔ)上,目前主流人工智能音樂(lè)生成模型的技術(shù)基礎(chǔ)主要有以下幾種:
神經(jīng)網(wǎng)絡(luò)(NN,Neural Network)是一種深度學(xué)習(xí)領(lǐng)域的核心算法,它通過(guò)大量的神經(jīng)元節(jié)點(diǎn)相互連接構(gòu)成,神經(jīng)元用來(lái)接收輸入信號(hào),并對(duì)輸入值進(jìn)行加權(quán)求和,然后通過(guò)一個(gè)非線性的激活函數(shù)(Activation Function)處理,從而產(chǎn)生輸出信號(hào)。在神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元節(jié)點(diǎn)是多層分布的,由輸入層接收信號(hào)傳遞到隱藏層(可以有多層),最后再由輸出層進(jìn)行數(shù)據(jù)輸出,構(gòu)成了神經(jīng)網(wǎng)絡(luò)的基本架構(gòu)。在訓(xùn)練過(guò)程中,首先輸入數(shù)據(jù),經(jīng)過(guò)前向傳播得到輸出參數(shù),通過(guò)損失函數(shù)(Loss Function)評(píng)估神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值與真實(shí)值之間的差異,后再經(jīng)過(guò)反向傳播計(jì)算每個(gè)參數(shù)的梯度,再利用優(yōu)化器來(lái)更新每個(gè)神經(jīng)元的參數(shù),就完成了一次神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程。神經(jīng)網(wǎng)絡(luò)的工作邏輯類似于人類的大腦,具有非線性、自適應(yīng)的特點(diǎn),目前已經(jīng)在模式識(shí)別、信息處理、自動(dòng)控制等多個(gè)領(lǐng)域內(nèi)得到了應(yīng)用,展現(xiàn)出了較好的智能特性。由神經(jīng)網(wǎng)絡(luò)衍生出的一系列模型比如更擅長(zhǎng)處理圖片信息的卷積神經(jīng)網(wǎng)絡(luò)(CNN),更擅長(zhǎng)處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),都是人工智能領(lǐng)域較為典型的深度學(xué)習(xí)模型。
音頻等序列數(shù)據(jù)的處理主要依賴RNN模型,但RNN在處理長(zhǎng)序列時(shí),由于反向傳播算法需要梯度下降,而RNN又存在循環(huán)結(jié)構(gòu),使得其激活函數(shù)的梯度會(huì)乘上多次,導(dǎo)致其極容易遇到梯度消失和梯度爆炸(Gradient Vanishing/Exploding)問(wèn)題。為了緩解這一問(wèn)題,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)被提出。LSTM神經(jīng)元中有三個(gè)門,分別為遺忘門、輸入門和輸出門,這三個(gè)門中尤其是遺忘門的存在使得LSTM 在訓(xùn)練時(shí)能夠控制梯度的收斂性,同時(shí)也能夠保持模型的長(zhǎng)期記憶特性。

變換器(Transformer)是一種基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,屬于自回歸模型(AR,Autoregressive Model),這也是近年來(lái)備受關(guān)注的GPT(Generative Pre-trained Transformer)模型所使用的核心架構(gòu)。雖然同屬于自回歸模型,但與RNN和LSTM的順序處理方式不同,Transformer架構(gòu)通過(guò)引入注意力(Attention)機(jī)制【尤其是多頭自注意力(Multi-Head Self-Attention)】,使其能夠根據(jù)輸入序列不同內(nèi)容的位置關(guān)系,對(duì)輸入序列中不同的位置賦予不同的權(quán)重,從而很好地捕捉全局上下文信息的長(zhǎng)距離依賴關(guān)系,很大程度上增強(qiáng)了模型對(duì)輸入序列的理解力,使模型對(duì)更重要的信息能給予更多關(guān)注,這種并行化的數(shù)據(jù)處理方式,令其在處理大規(guī)模數(shù)據(jù)集和長(zhǎng)序列任務(wù)中表現(xiàn)出色,成為了自然語(yǔ)言處理(NLP)領(lǐng)域的代表性架構(gòu)。

變分自編碼器(VAE,Variational Auto-Encoder)是一種結(jié)合了貝葉斯網(wǎng)絡(luò)的深度學(xué)習(xí)模型,同時(shí)它也是一種自監(jiān)督的神經(jīng)網(wǎng)絡(luò),它由編碼器和解碼器兩個(gè)主要部分構(gòu)成,能夠?qū)⑤斎氲臄?shù)據(jù)映射到一個(gè)概率分布上,再通過(guò)引入潛在變量來(lái)對(duì)數(shù)據(jù)的概率分布進(jìn)行建模,以實(shí)現(xiàn)數(shù)據(jù)的非線性降維與特征提取。與常規(guī)的自編碼器不同,VAE不僅可以實(shí)現(xiàn)數(shù)據(jù)的重構(gòu),還能通過(guò)概率分布模型來(lái)生成與輸入數(shù)據(jù)相似的多樣化樣本,因而在文本生成、圖片生成、特征提取、數(shù)據(jù)降噪等方面有著很好的表現(xiàn),也是人工智能音樂(lè)生成領(lǐng)域的一個(gè)關(guān)鍵技術(shù)。

生成對(duì)抗網(wǎng)絡(luò)(GAN,Generative Adversarial Networks)也是當(dāng)下很熱門的一種無(wú)監(jiān)督算法模型,它由生成器(Generator)和判別器(Discriminator)兩個(gè)主要部分構(gòu)成。生成器的目標(biāo)是生成盡可能接近于真實(shí)數(shù)據(jù)的假數(shù)據(jù)以騙過(guò)識(shí)別器,而識(shí)別器的目標(biāo)則是辨別出數(shù)據(jù)是真實(shí)的還是生成器生成的假數(shù)據(jù),這兩個(gè)部分就像是矛與盾的關(guān)系一樣,在訓(xùn)練的過(guò)程中,生成器與判別器此靜彼動(dòng)交替迭代,最終訓(xùn)練出的模型就同時(shí)擁有了最強(qiáng)之矛和最強(qiáng)之盾。GAN擁有著良好的泛用性,并能夠生成高質(zhì)量、多樣化的樣本,尤其在風(fēng)格遷移方面表現(xiàn)出色,但其在訓(xùn)練過(guò)程中,生成器和判別器需要交替訓(xùn)練,實(shí)際操作上難度較大,容易出現(xiàn)模式崩潰和梯度消失等問(wèn)題。
流模型(Flow-based Model)是一種深度生成模型,它可以通過(guò)一系列的可逆、可微分的變換將簡(jiǎn)單概率分布映射到復(fù)雜的數(shù)據(jù)分布,從而實(shí)現(xiàn)數(shù)據(jù)的生成。重點(diǎn)是,這一過(guò)程是可逆的,也就是說(shuō),流模型可以從生成的數(shù)據(jù)中逆向還原出原始的概率分布,這使得其在數(shù)據(jù)樣本的概率密度估計(jì)上具有很大優(yōu)勢(shì)。流模型的工作原理是先定義一個(gè)簡(jiǎn)單的概率分布(比如高斯分布)作為輸入,這一簡(jiǎn)單分布的主要參數(shù)(如方差等)通常是已知的,再設(shè)計(jì)一系列可逆的變換函數(shù)(如Affine Coupling Layers、Invertible 1x1 Convolutions等),這些變換被稱為“流”,每個(gè)變換函數(shù)都可以表示為一個(gè)神經(jīng)網(wǎng)絡(luò),通過(guò)訓(xùn)練來(lái)學(xué)習(xí)這些變換的參數(shù),將簡(jiǎn)單的數(shù)據(jù)分布映射到復(fù)雜的數(shù)據(jù)分布。流模型具有高效的采樣能力和對(duì)數(shù)概率密度的計(jì)算能力,在音頻生成、圖片生成方面有著很好的表現(xiàn)。

二、音樂(lè)人工智能的應(yīng)用及前景
音樂(lè)創(chuàng)作是一個(gè)鏈條式的流程,由多個(gè)環(huán)節(jié)相互串聯(lián)組成,從音樂(lè)意圖到音樂(lè)元素的組合,再到制作、混音、母帶,各環(huán)節(jié)都有著專業(yè)性的要求,因而在作曲家之外,也誕生出了諸如音樂(lè)制作人、編曲師、混音師等不同的技術(shù)工種。人工智能技術(shù)也自然而然地在不同的音樂(lè)環(huán)節(jié)中深入滲透。
當(dāng)下最為熱門的AI音樂(lè)應(yīng)用路線,是基于音頻數(shù)據(jù)的以文字生成音樂(lè)為主要功能的應(yīng)用,也就是為大眾所熟知的Suno、Udio,以及Google MusicLM、MusicGen、天工AI、Mubert等AI音樂(lè)平臺(tái)所專注的方向。這類應(yīng)用的功能通常包括基于風(fēng)格、速度等提示詞生成純音樂(lè),或基于歌詞生成包含人聲的完整歌曲。這一類“一鍵生成”的AI音樂(lè)應(yīng)用目標(biāo)受眾較廣泛,使用起來(lái)簡(jiǎn)單、快捷,并且?guī)缀鯚o(wú)需音樂(lè)基礎(chǔ)就能“創(chuàng)作”出一首時(shí)長(zhǎng)可自定義的無(wú)版權(quán)音樂(lè),市場(chǎng)潛力巨大。但就像我們之前提到過(guò)的,基于音頻到音頻的AI音樂(lè)生成技術(shù)雖然可以生成出質(zhì)量較高的內(nèi)容,但其可編輯性很差,因而在使用中往往需要多次嘗試并調(diào)整提示詞,目前諸如Udio等平臺(tái)已允許用戶通過(guò)高級(jí)模式調(diào)整歌詞結(jié)構(gòu)、風(fēng)格負(fù)面提示(Style Reduction)、清晰度等參數(shù),但該問(wèn)題仍是該類應(yīng)用的主要短板所在。
第二類諸如AIVA、網(wǎng)易天音等AI作曲應(yīng)用,其主要面向的用戶群體為具有一定音樂(lè)基礎(chǔ)的音樂(lè)創(chuàng)作者或制作人,為之提供較為簡(jiǎn)潔、靈活的AI音樂(lè)創(chuàng)作功能。為了實(shí)現(xiàn)音樂(lè)內(nèi)容的可編輯,需要結(jié)合音樂(lè)的符號(hào)信息和音頻信息,用兩類數(shù)據(jù)共同來(lái)進(jìn)行模型訓(xùn)練。這類基于作曲和音樂(lè)制作功能的AI音樂(lè)應(yīng)用平臺(tái),借助AI技術(shù)打通了音樂(lè)創(chuàng)作環(huán)節(jié)之間的壁壘,使音樂(lè)創(chuàng)作者很大程度上擺脫了傳統(tǒng)音樂(lè)制作流程的桎梏,提升了創(chuàng)作效率。比如,網(wǎng)易天音的定位更加傾向于歌曲創(chuàng)作,其將AI作詞、AI歌手、音樂(lè)制作輔助等工作流程進(jìn)行了整合,創(chuàng)作者可以在該平臺(tái)上直接創(chuàng)作和修改歌詞、旋律、音樂(lè)風(fēng)格、結(jié)構(gòu)、調(diào)式調(diào)性、和聲進(jìn)行、速度、節(jié)拍等較為具體的音樂(lè)信息??梢钥闯?,網(wǎng)易天音打造的是一個(gè)一站式的詞曲創(chuàng)作平臺(tái),其希望解決的主要問(wèn)題是在以往的音樂(lè)創(chuàng)作工作流中作詞、作曲與編曲所使用的平臺(tái)不一致、Demo制作成本高的問(wèn)題。



而AIVA平臺(tái)的定位更傾向于AI作曲和AI音樂(lè)制作,它不僅允許用戶以文字生成音樂(lè)的方式創(chuàng)作音軌,還提供了分軌的編輯功能,創(chuàng)作者可以在平臺(tái)上以類似操作DAW的方式對(duì)音樂(lè)的分軌信息以精確到音符的方式進(jìn)行編輯,還可以對(duì)諸如混響、延遲、高低切等各類基礎(chǔ)的效果器處理參數(shù)進(jìn)行細(xì)致的手動(dòng)調(diào)整。

在直接生成音樂(lè)或歌曲的應(yīng)用方向之外,針對(duì)音樂(lè)創(chuàng)作流程中的某一具體環(huán)節(jié)的專業(yè)化AI工具也備受青睞。如專注于演唱功能的AI歌聲工作站ACE Stuido,以AI技術(shù)驅(qū)動(dòng)的音樂(lè)樣本檢索工具Jamahook、Waves COSMOS Sample Finder,專注于AI多軌混音的Sonible旗下的Smart系列、Pure系列效果器,專注于AI混音與母帶處理的iZotope旗下系列工具,在線人工智能母帶處理引擎LANDR、AI Mastering、Bandlab Mastering等。這些AI工具為音樂(lè)制作人們簡(jiǎn)化工作內(nèi)容、優(yōu)化工作流程提供了極大的便利。
除了直接或間接參與音樂(lè)創(chuàng)作流程,AI技術(shù)也在音樂(lè)與各行業(yè)的交叉領(lǐng)域得到了發(fā)揮。
上海音樂(lè)學(xué)院團(tuán)隊(duì)參與研發(fā),針對(duì)中國(guó)音樂(lè)制作人及音樂(lè)教育市場(chǎng)推出的數(shù)字音頻工作站(DAW)音蟲(chóng)(Sound Bug)通過(guò)AI技術(shù)的整合,目前已能夠?qū)崿F(xiàn)多軌道的AI一鍵編曲,該工作站簡(jiǎn)化了傳統(tǒng)DAW軟件中繁復(fù)的信號(hào)路由系統(tǒng),并支持包括中國(guó)民族樂(lè)器在內(nèi)的超600種虛擬樂(lè)器以及VST、VST3格式插件擴(kuò)展,很大程度上降低了音樂(lè)制作的學(xué)習(xí)門檻。
SHCM-AIME團(tuán)隊(duì)是一支由上海音樂(lè)學(xué)院師生組成的致力于人工智能聲音療愈研究的科研團(tuán)隊(duì),筆者作為該團(tuán)隊(duì)成員參與了一系列項(xiàng)目研究工作。SHCM-AIME團(tuán)隊(duì)與包括龍華醫(yī)院、華山醫(yī)院、岳陽(yáng)醫(yī)院、上海市肺科醫(yī)院、上海市兒童醫(yī)院等醫(yī)療團(tuán)隊(duì)合作,致力于使用人工智能技術(shù)在音頻與腦電波協(xié)同、白噪音與神經(jīng)調(diào)節(jié)、現(xiàn)代冥想輔助療愈等方向上開(kāi)展研究,目前已取得了諸多成果。包括與龍華醫(yī)院合作的《現(xiàn)代冥想輔助醫(yī)療人員抗疫專輯》、天貓“聲睡計(jì)劃”等項(xiàng)目。團(tuán)隊(duì)還在上海政法大學(xué)試點(diǎn)了聲音療愈視聽(tīng)室,致力于為師生提供AI音頻系統(tǒng)為主導(dǎo)的定制化音樂(lè)康療服務(wù)。團(tuán)隊(duì)還將AI技術(shù)與增強(qiáng)現(xiàn)實(shí)(AR,Augmented Reality)技術(shù)、3D空間音頻技術(shù)相結(jié)合,開(kāi)發(fā)了上海音樂(lè)學(xué)院非遺傳承中心虛擬博物館,用前沿技術(shù)建立起了非遺樂(lè)器虛擬音色庫(kù),并使用AI技術(shù)對(duì)樂(lè)器采樣音頻庫(kù)進(jìn)行深度學(xué)習(xí),助力非遺器樂(lè)的現(xiàn)代化傳承。
2024年11月,上海音樂(lè)學(xué)院人工智能音樂(lè)療愈重點(diǎn)實(shí)驗(yàn)室正式掛牌成立,該實(shí)驗(yàn)室致力于將AI技術(shù)與音樂(lè)療愈相結(jié)合,打通藝術(shù)、醫(yī)學(xué)、科技的主要交匯關(guān)節(jié),向音樂(lè)療愈、聲音腦科學(xué)、嗓音藝術(shù)學(xué)、嗓音健康學(xué)科等前沿領(lǐng)域拓展科研縱深,將AI音樂(lè)的主要技術(shù)路線進(jìn)行了立體化的延伸。
三、問(wèn)題與爭(zhēng)議
1.原創(chuàng)性問(wèn)題
今年6月,美國(guó)唱片業(yè)協(xié)會(huì)代表包括索尼音樂(lè)娛樂(lè)(Sony Music Entertainment)、華納唱片公司(Warner Records Inc.)、環(huán)球音樂(lè)集團(tuán)(UMG)等多家頭部唱片公司,對(duì)Suno與Udio兩家人工智能音樂(lè)生成領(lǐng)域的代表性企業(yè)提起了訴訟。認(rèn)為其在構(gòu)建音樂(lè)生成模型的過(guò)程中,在未經(jīng)許可的條件下使用了大量受版權(quán)保護(hù)的錄音資料用于模型的訓(xùn)練,以難以想象的規(guī)模對(duì)音樂(lè)版權(quán)進(jìn)行了侵犯。
值得我們注意的是,在這場(chǎng)訴訟案中,作為原告的唱片公司認(rèn)為AI模型在生成音樂(lè)的過(guò)程中,并非只是簡(jiǎn)單地分析了這些版權(quán)音樂(lè)的作品風(fēng)格,而是對(duì)作品中包括旋律、和聲、節(jié)奏在內(nèi)的具有“獨(dú)特標(biāo)識(shí)和創(chuàng)意表達(dá)”的關(guān)鍵元素進(jìn)行了復(fù)制,這種復(fù)制旨在“替代原告創(chuàng)作的真實(shí)錄音”,并通過(guò)這種服務(wù)向用戶收取費(fèi)用,使得用戶不再需要購(gòu)買正版作品,這種侵權(quán)行為對(duì)原告所屬行業(yè)市場(chǎng)的正常運(yùn)作構(gòu)成了威脅,不論是從經(jīng)濟(jì)利益上還是藝術(shù)權(quán)利上都對(duì)原告構(gòu)成了侵犯。原告還列舉多個(gè)例子,在較為精確的提示詞引導(dǎo)下,兩家公司的音樂(lè)生成模型都生成了與原有的特定作品極為相似的作品。
這樁訴訟案對(duì)于人工智能音樂(lè)生成領(lǐng)域甚至是整個(gè)AIGC領(lǐng)域來(lái)說(shuō)都具有非常重要的意義。它提醒了我們兩個(gè)關(guān)鍵的問(wèn)題:第一,將所謂“受版權(quán)保護(hù)”的數(shù)據(jù)集用于模型訓(xùn)練是否構(gòu)成了版權(quán)的侵犯?第二,生成內(nèi)容與原數(shù)據(jù)在某些音樂(lè)要素上“查重率過(guò)高”是否構(gòu)成抄襲?
基于這兩個(gè)問(wèn)題,我想可以做這樣的思考:不論是人工智能模型的訓(xùn)練,還是人類學(xué)習(xí)作曲,在學(xué)習(xí)過(guò)程中,必然會(huì)涉及到大量的已有作品的分析和研究。對(duì)于人類作曲家來(lái)說(shuō),模仿創(chuàng)作幾乎是一個(gè)必備的過(guò)程,即便是成熟的作曲家,也會(huì)在創(chuàng)作過(guò)程中不經(jīng)意間地趨向于某個(gè)已有作品的元素,二者的主要區(qū)別是,人類作曲家在創(chuàng)作中大部分情況下是依賴于“緘默知識(shí)(Tacit Knowledge)”,基于一種“無(wú)意識(shí)”的借鑒,且會(huì)對(duì)較為明顯的模仿行為進(jìn)行自我規(guī)避,而人工智能在非常精確的提示詞引導(dǎo)下,會(huì)“有意識(shí)”地找出最符合這些精確條件的作品作為構(gòu)成作品的主要元素。關(guān)于人工智能生成作品的“原創(chuàng)性”的討論似乎是無(wú)意義的,因?yàn)楝F(xiàn)階段人工智能只有基于已有元素的學(xué)習(xí)、重組和模仿式的風(fēng)格遷移的能力,并不具備“無(wú)中生有”的創(chuàng)造力。
人工智能音樂(lè)生成模型的訓(xùn)練依賴大量的優(yōu)質(zhì)數(shù)據(jù),而已有的版權(quán)音樂(lè)庫(kù)完美地契合了這一需求,只是在使用流程上需要進(jìn)一步地規(guī)范,而人工智能的巨大商業(yè)潛力和不可預(yù)知的發(fā)展?jié)摿Γ沟眠@種規(guī)范的建立成為了一個(gè)巨大的難題。對(duì)知識(shí)產(chǎn)權(quán)的保護(hù)造就了唱片業(yè)的繁榮,也造就了音樂(lè)市場(chǎng)的上一個(gè)黃金時(shí)代,在音樂(lè)人工智能的時(shí)代即將到來(lái)時(shí),知識(shí)產(chǎn)權(quán)是否會(huì)成為制約其發(fā)展的桎梏?
2.音樂(lè)人工智能技術(shù)的趨向與邊界
將人工智能用于藝術(shù)創(chuàng)作之所以會(huì)受到爭(zhēng)議,其主要原因有二,第一是藝術(shù)創(chuàng)作的主體受到了挑戰(zhàn),第二則是藝術(shù)創(chuàng)作的所謂“藝術(shù)性”變得難以界定。我們之前提到過(guò),在現(xiàn)在的技術(shù)條件下,人工智能生成音樂(lè)或其他藝術(shù)作品的本質(zhì),是在輸入的原始數(shù)據(jù)和生成的新數(shù)據(jù)之間建立一種映射關(guān)系,這種映射關(guān)系的建立是基于數(shù)理邏輯指導(dǎo)下的參數(shù)學(xué)習(xí),而人們很難接受藝術(shù)創(chuàng)作這種與人類情感產(chǎn)生緊密互動(dòng)的“高級(jí)精神活動(dòng)”可以被參數(shù)化或量化。事實(shí)上,人工智能是否能被視作一種新的音樂(lè)創(chuàng)作主體這一問(wèn)題已經(jīng)被回答,但筆者認(rèn)為,人工智能的音樂(lè)生產(chǎn)與我們所理解的人類的藝術(shù)性音樂(lè)創(chuàng)作存在天然的“不可通約性”。這種“不可通約”存在于三個(gè)方面:第一,從價(jià)值評(píng)判上來(lái)說(shuō),真正意義上能夠推動(dòng)音樂(lè)藝術(shù)發(fā)展的“創(chuàng)作”需要具有很強(qiáng)的前瞻性,它不能完全建立在已有的音樂(lè)樣式之上,需要很大程度上打破原有的音樂(lè)內(nèi)容秩序并且建立新的秩序;第二,從藝術(shù)性上來(lái)說(shuō),作為藝術(shù)作品的音樂(lè),同時(shí)需要一種文化載體,其通常都被賦予了來(lái)自文化背景、歷史背景、作者個(gè)人經(jīng)歷等人文性質(zhì)的內(nèi)涵意義;第三,從審美體驗(yàn)上來(lái)說(shuō),人類從音樂(lè)中所獲得的深度情感體驗(yàn),很大一部分來(lái)自于與音樂(lè)創(chuàng)作者或他人產(chǎn)生的情感共鳴。這三方面的“不可通約”是建立在傳統(tǒng)意義上具有藝術(shù)性質(zhì)的音樂(lè)的評(píng)判標(biāo)準(zhǔn)之上的,這也為我們描述出了人工智能在音樂(lè)領(lǐng)域的邊界。
因而,與其討論人工智能的音樂(lè)生產(chǎn)是否具有藝術(shù)價(jià)值的問(wèn)題,不如為AI音樂(lè)建立一種新的、獨(dú)立的評(píng)判標(biāo)準(zhǔn)。我們需要明確的一點(diǎn)是,AI的存在并不是為了創(chuàng)作,而是為了解決各式各樣的問(wèn)題,從這個(gè)角度上來(lái)說(shuō),是否能夠幫助需要音樂(lè)的人們解決相應(yīng)的問(wèn)題,就是AI音樂(lè)的評(píng)判標(biāo)準(zhǔn)。
從目前的AI音樂(lè)市場(chǎng)來(lái)看,其主要的技術(shù)趨向有兩個(gè)主要方向,一個(gè)是作為音樂(lè)的生產(chǎn)者,試圖為音樂(lè)使用者們解決內(nèi)容上的需求,這個(gè)方向上的AI音樂(lè)應(yīng)用追求的是泛用性,即通過(guò)功能的提升,盡可能地覆蓋更多的用戶群體;第二個(gè)方向則是作為音樂(lè)的生產(chǎn)或傳播工具,試圖為音樂(lè)創(chuàng)作者、音樂(lè)市場(chǎng)各環(huán)節(jié)的參與者們解決問(wèn)題,在這個(gè)方向上追求的則是專業(yè)性,即為特定的受眾群體不斷提升服務(wù)質(zhì)量。
可以肯定的是,人工智能技術(shù)的出現(xiàn),對(duì)于音樂(lè)行業(yè)來(lái)說(shuō)是一種利好,它從各個(gè)層面上打破了原有的定式和格局,推動(dòng)了音樂(lè)產(chǎn)業(yè)的煥新式迭代。
結(jié)語(yǔ)
本文主要介紹了音樂(lè)人工智能的主要技術(shù)路徑和模型架構(gòu),并對(duì)音樂(lè)市場(chǎng)上較為具有代表性的幾類AI音樂(lè)模型進(jìn)行了分析和研究,進(jìn)而對(duì)AI音樂(lè)的部分爭(zhēng)議及相關(guān)問(wèn)題進(jìn)行了討論,希望能夠幫助人們更好地認(rèn)識(shí)、理解和使用人工智能及其相關(guān)技術(shù)。
第一次工業(yè)革命讓人類進(jìn)入了蒸汽時(shí)代,讓地球上各個(gè)地區(qū)之間的溝通成為可能;第二次工業(yè)革命讓人類進(jìn)入了電氣時(shí)代,科學(xué)成為了生產(chǎn)力發(fā)展的一個(gè)重要環(huán)節(jié);第三次工業(yè)革命讓人類進(jìn)入信息時(shí)代,讓地球的兩端實(shí)現(xiàn)了面對(duì)面的實(shí)時(shí)溝通。歷史證明,每一次工業(yè)革命必將產(chǎn)生生產(chǎn)方式的變化,推動(dòng)著產(chǎn)業(yè)格局的深刻變革。
在AI時(shí)代正在來(lái)臨之際,AI 工程師通過(guò)大量的數(shù)據(jù)處理與模型優(yōu)化,致力于構(gòu)建 AI 與人類之間有效的交互機(jī)制,希望幫助AI更好地理解人類。作為生產(chǎn)環(huán)節(jié)的參與者的我們,不僅要關(guān)注這一科技變革,更應(yīng)該學(xué)會(huì)如何理解AI的技術(shù)原理,從而更好、更理性地運(yùn)用AI技術(shù)來(lái)服務(wù)生產(chǎn),把握時(shí)代機(jī)遇,準(zhǔn)備登上這趟正風(fēng)馳電掣的科技高速列車。
蔡岳均 上海音樂(lè)學(xué)院2023級(jí)研究生畢業(yè)
上?;磩∷囆g(shù)傳習(xí)所(上?;磩F(tuán))音樂(lè)工程師
(責(zé)任編輯 李欣陽(yáng))