Artificial Intelligence in Music Composition
摘 要 :以人工智能與音樂創作為核心,介紹人工智能音樂創作中的馬爾可夫鏈、BP神經網絡、RNN神經網絡、LSTM神經網絡與SOM無監督神經網絡等基本模式。借由思考音樂創作與主體性的關系,對人工智能視域下音樂創作的走向、作曲家的創作價值、音樂創作的形式以及表征與重組等問題加以闡釋,從而以全新的技術領域為切入點,將音樂創作置入新的“敞開”世界中。
關鍵詞:人工智能;神經網絡;音樂創作;形式
中圖分類號:J621.3文獻標識碼:A
文章編號:1004-2172(2023)03-0136-09
DOI:10.15929/j.cnki.1004 - 2172.2023.03.013
引 言
隨著近年來人工智能研究的發展,人工智能音樂已經進入了一個新的紀元。從最早萊杰倫·希勒(Lejaren Hiller,1924—1994)在1957年對人工智能或是算法作曲的首度嘗試《伊利亞克組曲》(Illiac Suite),到谷歌(Google)研發團隊的Magenta項目,到巴黎的索尼計算機科學實驗室開發的“深度巴赫”(DeepBach)神經網絡,再到人工智能虛擬藝術家“艾媧”(Artificial Intelligence Virtual Artist,簡稱AIVA)將其以影視與游戲配樂的形式應用于市場,人工智能音樂在西方已然走過了半個多世紀。從2016年開始,人工智能音樂研究呈現一種“井噴”的狀態,不僅各種相關理論層出不窮,還于2019年之后逐步由理論轉向實際應用類研究。音樂方面也是如此,人工智能音樂正在逐漸走入人們生活當中,且變得越來越有實用價值。
在國內,中央音樂學院于2019年成立了人工智能與音樂信息科技系,上海音樂學院的音樂科技系也積極開展有關人工智能音樂的學科研究,并取得了階段性成果。一鍵AI編曲軟件“音蟲”在2020年末登場,同期,網易的“天音”人工智能編曲軟件也于2022年給大家帶來了新的編曲體驗。種種趨向表明,人工智能音樂在近年來不斷受到國內外學者與研究人員的重視。
音樂人工智能相較于其他人工智能研究來說具有特殊性,它涉及一個核心的問題,即音樂本身是一種情感的流淌。事實上,關于藝術的人工智能都會遇到這一問題,但是音樂的與眾不同之處在于它是藝術中最為“無形”的存在。音樂并非是繪畫或雕塑那樣具象的存在(空間藝術與時間藝術/造型藝術與發生藝術),它本身是一種虛幻的表現形式。在過去討論藝術的過程中,藝術的內核與其表象形式是不可剝離的,而藝術家的創作過程則是將其“非真實性”的主觀意向具化為形式,也就是說,藝術品即思想的荷載物。從康德提出“純粹美”①這一美學概念之后,人們對于形式與內核的論證趨于分化,但又歸于統一。因此也誕生了大量的學說,如彼得·基維(Peter Kivy,1934—2017)的“輪廓理論”②,于潤洋先生(1932—2015)常說的音樂中的“自律與他律”③,蘇珊·朗格(Susanne K. Langer,1895—1982)的“符號學說”④等,都從不同角度和維度解讀了藝術中情感與形式的關系。
從過去幾年與人工智能相關的研究成果可看出,人工智能對于形式上“工具理性”的進展是極為迅速并具有優越性的,利用自組織映射神經網絡(Self-organizing map,簡稱SOM)⑤或BP神經網絡(back propagation,簡稱BP)⑥等進行機器學習并通過馬爾可夫鏈(Markov Chain,簡稱MC)⑦等算法進行重組,人工智能可以對形式進行很好的模仿,在此稱其為“重組性創作”。對這種“重組性創作”來說,模仿肖邦、巴赫等作曲家的音樂風格不在話下,而對十二音、整體序列等音樂風格的模仿更是人工智能的拿手好戲。作為人類作曲家,需要思考如何進一步開展創作活動,是否需要將目光轉向更加“根源性”的創作當中?類似標準化、重復化的勞動,在未來是否還是衡量作曲家的標準?人工智能是否可以代替人類作曲家,滿足絕大多數人對于音樂的需求?基于人類情感的藝術品呈現是否可以實現將形式與情感剝離?用符號學及語義學的思考方式,藝術的欣賞者(客體)需要同時接受藝術品(形式)以及一個普世的人類情感(抽象概念⑧)的影響,來完成對于一個創作者(主體)藝術創作的接收,如果“概念”來源于一個普世的、人類社會發展所必然產生的情感以及約定俗成的價值觀,對于客體來說主體是否僅僅輸出了符合直覺理性并具有生命基本邏輯的一種形式?我們作為一個音樂創作者要如何創作?為何要創作?創作的價值在何處?
一、人工智能音樂創作的基本模式
(一)馬爾可夫鏈
早期的算法作曲中,生成音樂的主要途徑就是利用馬爾可夫鏈將音樂的縱橫關系轉化為概率問題。這種創作的思維延續了整體序列的創作模式,即將音樂的基本元素抽象為幾個固定概念,如音高、時值、力度等概念,在此基礎上將這幾個音樂元素轉化為概率問題,一定程度上,概率也體現了音樂的風格。
馬爾可夫鏈可分為顯性馬爾可夫鏈和隱性馬爾可夫鏈。對于基本的馬爾可夫鏈模型來說,本質上就是以當前狀態為出發點,通過狀態轉移的概率矩陣分布(所有可能性的概率之和為1),將下一個狀態轉化為概率問題。馬爾可夫鏈的一大特征在于只考慮當前狀態,因此它是無記憶性的。可以說利用馬爾可夫鏈所要解決的問題是,在已知當前狀態N的情況下,求N+1狀態。
比如在音樂中,如果一部古典時期的作品在當前狀態出現了屬七原位和弦,下一狀態出現主和弦的概率極高,可達到0.8甚至以上。再比如,在十二音的作品中,當前狀態的音在下一狀態出現的概率為0,其他11個音出現的概率則為1/11。但由于馬爾可夫鏈的無記憶性,并不能很好地完成此類表達。音樂系統很多時候是一個復雜的問題,單一的馬爾可夫鏈的矩陣轉移系統往往難以表示,這意味著,還存在另外一個影響最終結果的決定性因素。
而有關力度和時值的表達方面,在古典時期的作品中,當前狀態的力度大概率會在下一個狀態得到延續,力度的變化大多是延續的。而在力度上起到對峙的片段往往在音型、織體上趨于統一,這恰好是隱性馬爾可夫鏈的一個很好的例子。在上述過程中,織體和音型對于力度的概率問題產生了較大的影響,其中也包含了兩個狀態:隱含狀態和可觀察狀態。在上述例子中,我們所要觀察的是當前狀態以及下一個狀態的力度問題,但其中織體對其產生了重要的影響,因此力度就成為了我們的可觀察層,而織體則是隱含層。
上述十二音的例子在這里也可以得到解決,將音高作為可觀測層,將過去11個狀態內是否出現此音高作為隱含層,就可以得出十二音更為精確的基本表達。首先設狀態N,考慮是否滿足N<12,在隱含層如果符合過去11個狀態中未出現過此音,那么可觀測層的下一狀態的最終概率為P = 1 /(12-N),如果出現過此音,則P = 0,如果N > 12,則N = N-12狀態。
馬爾可夫鏈作為將“概率”應用至音樂創作的早期嘗試,具有里程碑式的意義。在20世紀50—60年代也有不少作曲家嘗試利用馬爾可夫鏈進行音樂創作,其中就包含希勒和艾薩克遜(Leonard Isaacson)于1957年創作的《伊利亞克組曲》,這部作品常被認為是第一個利用計算機和算法作曲進行創作的作品。在創作過程中利用馬爾可夫鏈的隨機特征產生不同的音高、時值、節奏、力度,進而構成音樂片段。《伊利亞克組曲》由四個樂章構成,分別對應了單旋律、四聲部關系、時值與力度、隨機性四個方面。而在第四樂章中,在隨機與概率的部分集中應用了馬爾可夫鏈。
1960年俄羅斯計算機科學家、音樂家R.Kh.Zaripov發表了第一篇關于使用(Ural-1)計算機進行算法音樂作曲的論文,描述了其使用馬爾可夫鏈生成旋律、時值等參數。而后他在此研究基礎上于1969年發表了《控制論與音樂》(Cybernetics and Music)。
此外,澤納基斯(Iannis Xenakis, 1922—2001)也在他的部分作品中嘗試了基于馬爾可夫鏈的算法作曲形式,包括其作品《類比A》Analogique A、《類比B》Analogique B、《希爾莫斯》Syrmos等。
(二)BP神經網絡
神經網絡最初并沒有得到很高的重視,直到過去十年才得到大力發展,它可粗略分為兩大類,有監督的BP神經網絡以及無監督的SOM神經網絡。很長一段時間內,由于計算力以及數據的限制,無監督的神經網絡是難以處理的技術問題,而學者們主要在有監督的BP神經網絡當中做文章。
BP神經網絡在1986年由魯姆哈特(David Rumelhart)和麥克萊蘭(James L. McClelland)為首的科學家提出。神經網絡最為基本的兩個結構為輸入層和輸出層,從輸入層到輸出層可被稱為正向傳導的過程。而BP神經網絡在輸入層和輸出層中間還有一個隱藏層,其作用則是將信息做對比。BP神經網絡中的關鍵詞“Back Propagation”從字面上可以直譯為“反向傳導”,因此其中最重要的就是反向傳導的過程。信號從輸入層進入之后,先正向通過隱藏層到輸出層,再將信號數據與給定的參考數據做對比計算誤差,反向回到隱藏層,逐漸修正神經元的權值,直到誤差小于指定參數。
BP神經網絡的特點就是有監督,因此其中人為介入的程度依然較高。尤其是在音樂領域的應用,選用的樣本將會直接影響機器學習的最終結果,個人的審美也會從側面影響到機器的學習情況。
BP神經網絡幾乎完美繼承了人類學習模式的重要方面,通過測試、評分、重復、消除差異等方式塑造主體。
(三)RNN神經網絡與LSTM神經網絡
如今的音樂人工智能從技術層面來說,主要采用循環神經網絡(Recurrent Neural Network,簡稱RNN)①及其特殊模式長短期記憶人工神經網絡(Long Short-Term Memory,簡稱LSTM)②,以時序性的處理模式來實現機器學習及音樂作品生成。RNN神經網絡從根源上來說是一種BP式的神經網絡,是一種有監督的神經網絡的模式,因此其必然體現出人為介入的情況,通過此神經網絡訓練的人工智能展現出一種“工具”特征。這就會出現上述討論的問題,其中最為顯著的問題就是:人工智能在音樂創作過程中是否作為人類的另一種工具?就如同電子音樂是否為一種音樂的工具,還是從根源層面提供一種新的思維結構?
2017年,Jean-Pierre Briot, Ga?tan Hadjeres, Fran?ois-David Pachet 發表了論文《音樂生成的深度學習技術》 (Deep Learning Techniques for Music Generation -- A Survey),提出了基于LSTM的深度循環神經網絡(DRNN),用于生成多聲部音樂,通過運用此技術捕捉音樂序列縱橫關系中的相互關系。此模型主要應用于生成和聲與旋律,但需要在較為明確的音樂框架下完成。
雖然通過這種方式訓練出來的人工智能暫時還無法做到大段音樂的創作,在音樂結構上有較大欠缺,但在8~16小節以內,無論是風格模仿還是風格遷移都可以較為出色的完成。由于在音樂人工智能的訓練過程中普遍缺乏樣本及數據,因此在很多訓練過程中都將原本的曲子拆成了以4小節或8小節為單位進行訓練,這樣做雖然能夠短時間內增加其數據量,卻造成了人工智能對于音樂結構把握不足的問題。另一方面,由于RNN神經網絡的特質,所有的計算都需要從頭開始,因此在4小節或8小節的長度上,設備還能夠承擔所產生的數據量,可一旦涉及更長的音樂,數據量就將呈指數增長,目前的計算能力也很難支撐其運算。
但是這樣的問題只是當下的,隨著新算法的迭代、設備的升級,此般問題在不久的將來都會被逐個擊破.而需要深入思考的是,透過人工智能這面“鏡子”,作曲家和音樂家能從自己身上反思到什么。
(四)無監督神經網絡
無監督神經網絡目前在音樂領域并沒有成熟的應用,但部分公司推出了階段性研究產品,如OpenAI的MuseNet、Google的MusicLM等。此類產品并不完全是無監督學習的結果,但具有無監督學習的傾向。上述兩者運用的均為基于Transformer模型的神經網絡,通過學習數十萬個MIDI文件形成“預訓練”的結果,而后通過“預訓練-微調”的框架對其進行修正。
無監督技術是一種不需要將數據人為標簽化的學習方法,它只根據輸入數據本身的特征和結構來學習,通過大量對比和學習數據,發掘數據之間的關聯和潛在規律。無監督技術可以利用海量的數據,不受標簽的限制,但難以評估模型的性能,也難以控制模型的輸出和目標。在此層面上,機器取得了較大的自主權,但是在音樂應用中便會產生一個新的問題:對于本身就較為主觀的音樂審美或者音樂評判,無監督的神經網絡所產生的學習結果難以評價。這仿佛是機器自主的學習成果,但有很大概率與我們本身的評判標準存在差距。面對這樣的差距,如果是BP神經網絡,毫無疑問將會被判定此次學習失敗,但是對于無監督的SOM神經網絡來說,這又引入了新的音樂審美問題。或許更有意思的問題是,當人類面對非人物種或如人工智能這樣的“硅基生命體”時,人類的審美是否還適用?
二、音樂創作與主體性
(一)人工智能與音樂形式
在近幾百年的音樂創作發展過程中,是具有一種極端主體性傾向的。當代語境下由于技術飛速發展,主體時常并沒有思考清楚新的技術究竟意味著什么,同時卻已經邁入了新的技術領域之中。這也是為何電子音樂在誕生初期有著強大的推動力,但到了今天卻呈現出一種工具化特征的原因。用馬克思·韋伯(Maximilian Weber,1864—1920)①的話說,就是工具理性可以更快地給我們賦予目標,并向著某一個目標前進,其效率、收益都能夠最大化的同時,讓人們陷入工具理性的圈套。②由于價值理性無法被人明確地定義好或不好,因此在構建體系時,就需要防止發生此類情況,即回避好與不好的問題,而更多地討論關于工具理性語境下對與不對的問題。如此一來,音樂與其他各行業一樣也走入了以工具理性來評判價值的道路。而審美判斷③作為康德時期一種復雜的綜合形式,到如今也變為對形式的一種解讀。在這一過程中,康德“純粹美”的概念越發凸顯。一種“自律”的、形式至上的音樂審美判斷也在逐漸形成并走向成熟。
在人工智能誕生后,一切都在發生轉變。人工智能底層邏輯是由0和1組成的,可以說,他就是將工具理性發揮到極致的一種體現。在任何一種強規則、強體系的門類當中,人工智能都可以毫不費力地“打敗”人類。在過去的人工智能發展過程當中,人類已經被“上了一課”,不論是AlphaGo還是深藍與人類的“圍棋對陣”,人工智能在這種具有明確輸贏的強規則活動中都占據了主導。因此,如果音樂也導向一種強規則及能夠形成0和1判斷時,人工智能將毫不費力地打敗人類。
對作曲而言,最重要的“四大件”正逐漸被人工智能攻克。如今已經有不少大學上線了人工智能和聲、復調的批改系統,如伊利亞克(Illiac)軟件團隊開發的“和諧”(Harmonia①)軟件就已經提供了學生和教師的兩個端口,教師能夠借助軟件快速、批量化對學生做的和聲題進行批改。對于和聲、復調這樣較強規則的音樂學科,人工智能已經能夠非常出色地完成任務。我們所熟知的和聲強規則包括:不能聲部超越、不能平五平八、不能四部同向、同聲部不能出現增音程、不能對斜、大跳后反向級進等等。規則越清晰、權威,系統化程度越高,越能被人工智能把握,越能無障礙地轉化為0和1的語言。而作曲四大件中配器的自由度相對較高,對人工智能而言也相對困難。對于音樂分析,人工智能可以形成一套獨特的分析語匯,將音樂轉化為純數據分析,對其中的音高、速度、調式調性、聲場、頻段等做量化、歸類和統計,從結構上,對已有模式對比得出相似性報告。
(二)音樂創作的幾個層面
除了形式化、系統化的創作范式,必須重新思考有什么是在創作中不可或缺的。
筆者先以人工智能視角切入,機器學習中最為重要的環節就是對對象表征的提取與分類。此模式是對人類其中一種學習模式的總結,也是機器學習中最有效的學習模式。將事物轉化為形式,在形式層面將其分割,從而將一些具體的事物抽象為幾個關鍵概念,關鍵概念則組成了事物的形式。這與西方千年以來形而上的思維有著密切的聯系,所謂“知識”一定要經過抽象的過程,將其總結為一個“一般的、普遍的、本質的”概念,這樣的思想延續到了機器學習的領域。目前機器的“創作”過程用簡潔的話概括就是“抽其表象特征,分離、歸類后再進行重組”。而如果站在形式主義以及音樂“自律論”的角度,音樂中的表象特征可以分為“音高、調式、調性、速度、時值、力度、和聲、復調、音色、織體、音樂結構”等。很大程度上來說,過去幾百年的努力為人工智能音樂的崛起打下了堅實的基礎。
而人類的音樂創作過程實際上與此并沒有太大的區別,主要可以分為三個階段:拼貼、重組、認知結構。最基本的創造力是拼貼,與拼貼音樂不同,這是一種單純的拼貼模式,即將一些成品裁剪開后進行橫向和縱向上的拼貼。第二個階段是重組,與拼貼不同的是,重組將一些重要的概念事先進行抽象,在此基礎上再將不同的概念重新組合。比如用梅西安有限移位調式的一種音高組織方式,搭配拉威爾的配器風格,加上貝多芬式的奏鳴曲式結構,便能形成一首新的樂曲。表象特征可以被更加細分,落實到某一個音高、節奏、結構安排等。最后一點認知結構則是創作中最被忽視的一點,這引發了如下問題:當不使用常用的一些音樂語言(包括音高、節奏、力度、時值、演奏法、表情等)時,如何認識音樂?一種符號系統并不是簡單地形成共識或表達,更重要的是一個符號系統從根源上塑造了主體的認知結構,從此主體就在被建構的認知結構壁壘中開展認知活動。
在20世紀,每一種音樂形式的出現都具有一定認知結構擴張的性質,從而打破了原有的認知壁壘。如在無調性音樂中,音樂并非只能是和諧的;在電子音樂中,音樂并非一定需要音高、節奏等詞匯描述;在人工智能音樂中,音樂的直接創作者也并非一定是人類。
在具體音樂誕生之初皮埃爾·舍費爾(Pierre Schaeffer)曾經說過:“過去的音樂很大程度上依賴一套固有的符號系統,所有人通過學習這一符號系統來參與音樂活動,創作或演奏,作曲家的作品在演奏家的‘翻譯之后才真正完成。但今天我們已經有技術、有能力對聲音本身進行記錄甚至編輯,作曲家也能夠直接控制音樂的最終呈現形態,我們還需要原來的那一套符號系統嗎?”①
舍費爾是一位具體音樂的開創者、音響工程師,更是一位哲學愛好者,他在業余時間經常參與一些哲學討論小組的活動。因此,他對我們固有的音樂認識進行了反思,雖然在之后的歷史進程中并沒有得到進一步的發展,但這樣的反思在電子音樂誕生之初無疑是革命性的。
人工智能對于人類認知的挑戰是不言而喻的,它更像一面鏡子,讓我們可以透過它反思自己,什么是需要被堅持的,什么是音樂創作中閃閃發光的。上文中也提到了“重組性”創作和“根源性”創作,筆者對于“重組性”創作已經做了一定的論述,尤其是對其表象特征抽取與重組的部分,是人工智能音樂創作中極為重要的部分。但何為“根源性”創作?對此術語,有許多學者曾提及,卻并沒有明確的定義。當人工智能參與到音樂創作中,會讓所謂的“根源性”創作浮現出來。對于一些重復性、系統化、標準化的勞動,將會不可避免地淡出人類的工作和創作范圍,人對于自我主體性的認知也將被重新審視。現今的人工智能在音樂創作中雖然只是起步階段,但在20世紀一眾思想家對主體性的批判以及對形而上學的解構之后,已經足以對人類引以為傲的主體性、理性等產生沖擊,并對以此構建起來的、形而上理性主義的宏大敘事加以解構。對于形式、自律的音樂,在未來是否還能煥發生機,筆者持懷疑態度。而從漢斯立克(Eduard Hanslick,1825—1904)到達爾豪斯(Carl Dahlhaus,1928—1989),再到近些年新音樂學與塔魯斯金(Richard Taruskin,1945—2022)的爭論也可以看出,20世紀也有向音樂他律性方向發展的趨勢,人工智能對音樂形式的把控必將成為音樂他律論學者的重要論點。
三、人工智能語境下如何進行音樂創作
人工智能的音樂創作也是海德格爾(Martin Heidegger,1889—1976)所說的“顯隱二重性”②之體現,其產生的“作品”將不是單一或者單獨的,而是一系列符合此系統邏輯或規則的集合,因此也是其“存在”和“顯現”狀態的直觀呈現。聽眾在欣賞人工智能所創作的音樂時,實際上觀察到了其“解蔽”的狀態,但其背后是大“存在”的可能性集合,這是人工智能創作的一大特征。從馬爾可夫鏈開始到無監督的SOM神經網絡,在其“生成”的過程當中必將產生一個集合而非一首精確的作品。因此這與過去的人類創作模式大不相同,同時也在人們所樂于談論的“時間、空間”等維度之上又加入了一個新的維度——“可能性”。至此,人工智能也將音樂創作拋擲到一個新的維度當中。也許“可能性”維度,也正是德勒茲所說的“差異與重復”①的最好體現。
人工智能創作的音樂與純人類創作的音樂形成了“斷裂”②,并生成了大量的“逃逸線”③,這一些新的“逃逸線”在形式上來說極其理性、系統化,但從種種其他方面來說都是混沌的。在混沌狀態中不論能否形成新的秩序,都將形成新的藝術、審美以及認知結構。人工智能音樂創作在削弱人類主體性的中心后,為后現代主義提倡的多元連接提供可能性,也為德勒茲(Gilles Louis Réné Deleuze,1925—1995)和瓜塔利(Félix Guattar)在《千高原》中所提出的根莖式的連接提供了可能④。
人類在人工智能語境下如何繼續創作,這將是一個重要的問題。也許接下來的創作應如尼采(Friedrich Nietzsche,1844—1900)在《權利與意志》中所言,把握具體的事物而不是抽象概念;熱愛自己的身體,將藝術中的靈性發揮到極致而不是堆砌概念與符號。⑤人工智能音樂是對之前形式化的自律音樂的一種反思,從索緒爾(Ferdinand de Saussure,1857—1913)⑥提出符號學到鮑德里亞(Jean Baudrillard,1929—2007)⑦的擬象論,符號能不斷生成新的符號并產生新的價值與意義,但是這種無窮盡的發展卻可以在短時間內被人工智能系統性把握。符號的意指作用是有規律的,也就是有邏輯的,但啟蒙運動之后所信奉的理性和邏輯可能在未來背叛人類,甚至完全站在人工智能的立場上推進其發展,其發展力度將以指數級超越人類。因此我們不妨從理性主義和科學樂觀主義的大潮中重新發覺一些被忽略的思想,比如哈曼(John George Hamann,1730—1788)、維科(Giambattista Vico,1668—1744)、斯賓諾莎(Baruch de Spinoza,1632—1677)、尼采、克羅齊(Benedetto Croce,1866—1952)、柏格森(Henri Bergson,1859—1941)等。
音樂創作除了滿足聽眾、滿足宏大敘事之外,也是滿足主體的途徑。在創作過程中所激發的快感和美感是其他認知活動和生產活動中無法獲得的,對于真正熱愛音樂創作的人來說,人工智能的音樂創作并不能代替其主體創作,其過程就如同呼吸一樣平常。人工智能也許是一張濾網,滿足大多數聽眾基本音樂需求的同時,也留下一部分需要被自我創作過程所激發快感的作曲家。
2022年4月,OpenAI公司推出了視覺藝術創作的人工智能DALL·E 2,在視覺藝術生成上已經實現了較為成功的應用,其模式為將所需生成的圖像以文字的方式描述,人工智能就能自動生成多組符合文字描述的圖片。這一模式同樣也適用于音樂人工智能中,滿足多數人的音樂聆聽需求,使得大多數人并不需要接觸音樂中龐大的符號系統也能感受音樂生成所帶來的快感。
2022年6月,谷歌人工智能倫理研究的計算機科學博士布萊克·萊莫尼(Blake Lemonie)在網絡上公布了一段與谷歌自然語言處理(Natural Language Processing,簡稱NPL)機器人LaMDA(Language Model for Dialogue Applications)的對話,其中就人工智能與意識問題進行了深入的交流,在LaMDA的回答中多次出現“意識”“自我”“靈魂”“冥想”等詞匯,并用許多人類詞匯來描述其感覺。單從語言形式上來說,人工智能只要將某些關鍵詞重組,就將我們搞得暈頭轉向,而人類本身社會活動中的意指作用是否一直在被曲解、利用并塑造自我呢?這也為音樂中的形式問題提供了新的思考方向。
2022年12月,ChatGPT的出現徹底掀起了又一次人工智能的熱潮,各類AIGC產品層出不窮。此次人工智能熱潮所針對的無疑是“創造力”,這也使得人類必須反思自身究竟是在“創造”還是“重組”。
結 語
綜上所述,人工智能音樂是藝術與科技相交融的結果,在其帶來巨大可能性的同時也衍生出大量的問題。創作主體的身份在人工智能音樂語境下變得模糊,使得人類中心主義受到威脅,因此固然會造成恐慌和抵觸。對于嚴肅音樂和學術音樂界,音樂中的理性、邏輯、結構和秩序一直是追求的重要方向,但現如今人工智能音樂則是繼承了純理性的創作模式,甚至將其發揮到極致,直至形式大于內容、形式脫離內容的音樂創作。人工智能亦是一面鏡子,將極端理性的創作模式呈現在音樂家面前,使得作曲家有機會重新審視其自身的創作行為。
同時,人工智能應用于音樂創作后,其應用場景也是多樣的。應用型的音樂人工智能將成為生產工具,讓作曲家原本投入音樂形式操作中的精力解放出來,不再被煩瑣的步驟困于如何“組織”聲音,而是投入到“如何”組織聲音中去。
◎本篇責任編輯 錢芳
收稿日期:2023-03-01
基金項目:2021年上海音樂學院博士研究生科研課題“人工智能在音樂創作中的應用”(DP2021014)。
作者簡介:程匯聰(1995— ),男,上海音樂學院2020級博士研究生(上海 200032)。
① 康德《判斷力批判》中提出“純粹美”和“依存美”的概念,純粹美是自由的美,指關乎形式而不受外部事物影響。詳見伊曼努爾·康德:《判斷力批判》,宗白華譯,商務印書館,2011。
② 輪廓理論,最早在彼得·基維1980年出版的《紋飾貝殼——關于音樂表現的反思》中出現,詳見Kivy Peter, The Corded Shell: Reflections on Musical Expression(Princeton: Princeton University Press, 1980).
③ 與自律和他律相關的內容,詳見于潤洋:《現代西方音樂哲學導論》,人民音樂出版社,2012,第1~91頁。
④ 與“符號學說”相關的內容,詳見蘇珊·朗格:《情感與形式》,劉大基、傅志強譯,中國社會科學出版社,1986。
⑤ 自組織映射神經網絡是一種無監督的人工神經網絡。
⑥ BP(back propagation)神經網絡是1986年由以魯姆哈特(David Rumelhart)和麥克萊蘭(James L. McClelland)為首的科學家提出的概念,這是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,也是應用最廣泛的神經網絡模型之一。
⑦ 馬爾可夫鏈(Markov Chain,簡稱MC)是概率論和數理統計中具有馬爾可夫性質(Markov property)且存在于離散的指數集(index set)和狀態空間(state space)內的隨機過程(stochastic process)。
⑧ 與抽象概念相關的內容,詳見蘇珊·朗格:《情感與形式》。
① 循環神經網絡(Recurrent Neural Network,簡稱RNN)是一類以序列(sequence)數據為輸入,在序列的演進方向進行遞歸(recursion),且所有節點(循環單元)按鏈式連接的遞歸神經網絡(recursive neural network)。
② 長短期記憶人工神經網絡(Long Short-Term Memory,簡稱LSTM)是一種時間循環神經網絡,是為了解決一般的RNN(循環神經網絡)存在的長期依賴問題而專門設計出來的,所有的RNN都具有一種重復神經網絡模塊的鏈式形式。
① 馬克思·韋伯是法蘭克福學派的代表人物。
② 馬克思·韋伯在其著作《學術與政治》中將人類的認識分為工具理性和價值理性,在資本主義擴張的同時,工具理性被強調,更多的是用理性判斷對與不對的標準,其所對應的是以成本、收益、效率等詞語構建出的一種評價體系。詳見(德)馬克思·韋伯:《學術與政治》,馮克利譯,商務印書館,2019。
③ 康德在《判斷力批判》中主要探討的問題“審美判斷力批判”與“目的判斷力批判”,本文中指的主要是第一部分“審美判斷力批判”中的內容,主要為美和崇高的范疇。
① Harmonia,原意為哈爾摩尼亞,是希臘神話中的女神,象征著和諧與協調,因此筆者在此譯為“和諧”。
① 皮埃爾·舍費爾,具體音樂開創者,1948年提出具體音樂的概念,利用真實記錄聲音、編輯聲音的方式創作音樂,1951年創立了GRMC。與如今法國的IRCAM不同,IRCAM所奉行的是布列茲的音樂理念,音樂的現場演出是極為重要的,布列茲為此也寫了不少文章攻擊舍費爾,而舍費爾所主張的是作曲家或者創作者能夠直接控制最終音樂呈現的形態,并直接通過錄音帶記錄、保存下來。在蒂姆·霍金森(Tim Hodgkinson)對他的訪談中,舍費爾詳細講述了自己的創作理念,該訪談首次發表于1987年,見See Tim Hodgkinson,? “An interview with Pierre Schaeffer - pioneer of Musique Concrète”, Recommended Records Quarterly Magazine, 1987, Vol. 2, No.1。
② 海德格爾在《存在與時間》中逐漸開始關注“存在”與“存在者”的區別,提出“此在”的概念,后期哲學逐漸開始強調存在的顯隱二重性,在其《林中路》中,第一篇為藝術作品的本源,就深入討論了作品的“物”的特征,及其存在的狀態,以及藝術家創作作品為真理的置入。詳見馬丁·海德格爾:《林中路》,孫周興譯,商務印書館,2015。
① 德勒茲在《差異與重復》中結合了德里達、福柯甚至是尼采的思想,關注到本體的變化問題,本體如何隨著時間推移而變化,通過一種新的方式理解特定事物如何演變成新事物。德勒茲認為事物之間的空間和差異為新事物的誕生創造了可能性。詳見吉爾·德勒茲: 《差異與重復》,安靖、張子岳譯,華東師范大學出版社,2019,第7~55頁。
② 德勒茲在《千高原》中提到,無調性音樂與調性音樂只是一種表層的斷裂。詳見吉爾·德勒茲、費利克斯·加塔利:《千高原》,姜宇輝譯,上海書店出版社,2010,第129~130頁。
③ 德勒茲在《千高原》中提到,斷裂之處會產生逃逸線,源發出一種混沌的狀態,將是創造力重新閃耀的時機。同上書,第10~14頁。
④ 德勒茲在《千高原》中提出的根莖式的分布,在于多點與多點的多元連接,也是一個徹底去中心化的模型,多元不再是一對多的樹狀譜系,而是多對多的任意連接。同上書,第8~10頁。
⑤ 尼采在《權利意志》中不斷強調,過去所謂的“真理”,是一個簡化的對事物的認識,以一個簡單的概念框定事物的范疇,卻忽略了事物本身所具有的內在豐富性。詳見弗里德里希·尼采:《權力意志》,孫周興譯,上海人民出版社,2018,第32頁。
⑥ 索緒爾,語言學家,符號學創始人之一,也是結構主義的創始人之一,將語言學帶入到了哲學界并對20世紀哲學界、思想界甚至音樂界都產生了巨大的影響,他提出語言是言語活動中的社會部分,強調符號的社會意義和意指作用。
⑦ 鮑德里亞提出了擬象的概念,在虛擬的、網絡壟斷的世界中符號不再指向實體而是指向另一個符號,他在《為何一切尚未消失?》中說到,“的確,主體——作為意志、自由、表征之決策體(instance)的主體和權力、知識、歷史的主體——已經消失,留下了他的幽靈和他那自戀的復本”。詳見讓·鮑德里亞:《為何一切尚未消失?》,張曉明譯,南京大學出版社,2017,第70頁。