陳益敏 張焜 劉聆風
【摘要】二十一世紀,人工智能在音樂領域潛力無窮,但其仍存在局限性,如何提升人工智能音樂情感性成為焦點。音樂創作的本質就是音樂情感地表達,量化的研究有助于實現音樂的動態性,在語言計算模型中對音樂情感單獨標注有助于彌補人工智能在海量數據學習中所丟失的動態性。
【關鍵詞】深度學習;人工神經網絡;量化研究;動態性;情感標注
【中圖分類號】J60 【文獻標識碼】A 【文章編號】1007-4198(2021)03-130-03
【本文著錄格式】陳益敏,張焜,劉聆風.人工智能音樂的“音樂人格”——賦予音樂創作的動態性以增進音樂的情感性[J].中國民族博覽,2021,02(03):130-132.
引言
二十一世紀,人工智能技術在音樂領域應用并快速發展,其在音樂創作、音樂教育和音樂保護領域都有交叉融合的趨勢?;赝斯ぶ悄芤魳钒l展史,AI最早應用于作曲領域,其起源于算法作曲,并走向以馬爾科夫鏈、神經網絡、遺傳算法等多種人工智能算法為基礎的AI作曲[1],到如今深度學習作曲成為主流。
語音合成、音視頻與圖像識別、交互技術等一系列AI技術,推動了音樂創作模式、流媒體個性化定制以及音響設備制作等方面的革新。[2]但這一應用領域仍有深度發展潛力。現有AI創作的音樂雖然技術成熟,卻缺乏一定的情感傳達能力。因此對于如何提升人工智能音樂情感性這一議題,本文提出了一種理論闡釋和解決方法,并提供了它可能的技術實現方案。
一、人工智能音樂的技術指南
人工智能音樂形成和發展的基礎,是人工智能技術的發展。
人工智能的基礎是深度學習,即一種連接型表征學習方法,其中的模型由一連串模塊組構成,每個模塊可看作神經元組成的不同拓撲結構,訓練后的拓撲結構分別拿出來都可以作為獨立的特征提取器。
深度學習的結構是構造感知機模型,意在模仿神經元工作的工作原理。人腦結構的運轉有大量神經元的協作,AI的模仿亦是如此。按照不同的拓撲結構,人工神經網絡通過設計不同網絡結構,來解決不同問題。其中最基礎的網絡結構就是全連接網絡,在此基礎上發展出卷積網絡和LSTM記憶網絡。卷積網絡模擬視神經系統,LSTM記憶網絡對某一時刻t的網絡信息進行處理,遺忘,接受更新,決策鋪入,通過精心設計的稱作“門”的結構來去除或增加信息到細胞狀態的能力。[3]人工智能根據用戶需求,將圖像或語音信號由輸入層輸入,進行傳遞計算,最后由輸出層得到相應的結果,這一過程也被稱為前向傳播。神經網絡的訓練目標是達到模型輸出等于理想輸出,通過誤差函數,尋找參數使函數差值最小。但有時最終的理想輸出亦不明確,因此要引入生成式對抗網絡,其框架內分為兩個模塊:訓練判別網絡和訓練生成模型。通過兩個模塊相互博弈學習產生優質的輸出。強化學習作為機器學習的范式和方法論之一,則使模型參數愈加適應環境。[4]
二、人工智能音樂進步的音樂基礎
人工智能音樂雖前景可觀,但我們仍要關注其局限性:人工智能音樂情感性的缺乏。從音樂學的角度,筆者認為,音樂創作本身是音樂情感表達的技術基礎。提升人工智能音樂情感性,需要從音樂創作角度提供人工智能音樂的進步空間。
(一)音樂的情感的發生
情感隸屬認知科學范疇,當它附著在音樂這一藝術領域時,則必須有行為主體(人)在此起到交互作用。音樂的情感性主要涉及兩個行為主體,一類是表現音樂的人(如作曲家),另一類是聆聽、鑒賞音樂的人,即通俗意義上的聽眾。其中交互的鏈條是從作曲家出發,經由音樂這一客體傳達到聽眾身上。那么音樂中的情感的傳導機制究竟如何呢?
1.“作曲家-音樂”中的情感傳導
作曲家、音樂批評家科恩曾提出,音樂是一種言說,依靠著完整的音樂人格發聲,而這個“人格”正是作曲家意志的投射。[5]音樂表現的是由作曲家的部分意志演化而來的音樂人格,在人文化的語境中,它必然是作曲家情感的寓藏。[5]因此在音樂交互鏈上,音樂人格來自作曲家的人格,而音樂中的情感首先是來自作曲家的情感。
2.“音樂—聽眾”中的情感傳導
情感被作曲家以豐富的創作與音樂所粘合后需傳遞給聽眾。音樂交互鏈的第二個進程,便是聽眾的音樂感知活動和情感共鳴活動。
廣泛的音樂情緒研究認為音樂能夠引發聽眾的情緒活動。[9]音樂情感反應的神經機制的研究顯示,音樂會促使腦釋放神經遞質(包括血清素、多巴胺等),并可激發負責情緒、獎賞與動機的腦區。[8]可見,“音樂—聽眾”中的情感傳導通路是成立的。
對于音樂情緒主體,性別、年齡、有否音樂訓練等影響聆聽音樂時的相關腦區激活程度。[8] Juslin在2010年提出的音樂線索一致性中分析,其程度會受到音樂線索、呈現效果、聽眾特點和背景因素地影響,[10]但對于其中的詳盡機制沒有完整的理論體系。較為著名的Juslin和V?stfj?ll的六個心理機制理論和 Kone?ni的中介說[9],亦缺乏實證研究。但已見得,這種共鳴離不開主客體因素的共同影響。
(二)音樂思維
音樂創作的腦功能機制是音樂思維的生理基礎。[6-7]《音樂教育神經科學》一書指出,“音樂創作需要整合聽覺動作/聲音與運動行為并匹配動作與聲音的初級皮層以外的腦區(額下回、前運動區與頂上回),這一腦區所屬的神經網絡尤其在音樂作曲和音樂技能學習過程中發揮重要作用?!盵7]可見,音樂訓練中特定行為運動(如彈鋼琴的手指運動)和有意義的聲音辨別的獨立訓練和有機結合形成了音樂家與非音樂家之間的腦差異,亦是音樂創作、音樂思維的基礎。[7]
同時,音樂思維的個人訓練離不開結構思維的培養,依靠整體分析去把握要素分析。音色思維、和聲思維與復調思維,是對于音樂創作要素地把握。感性基礎和知性認識、建立在邏輯思維基礎上把握意象特征的自主行為,亦是音樂思維形成的重要要素。掌握每個要素的認識后,亦需融入到對結構地把握中去。[6]
(三)音樂創作與音樂情感[6]
認識音樂思維后,音樂創作具體的行為模式和其中的情感傳導機制則不難了解。
音樂創作,即在把握聽知覺訓練和藝術知覺訓練后,形成的非自覺意識和自覺意識的統一,音樂技能與音樂教養的統一,在以音樂要素(和聲、音色、織體等)思維為基礎的音樂結構思維下進行音樂元素建構的行為。此音樂構建過程中往往同時形成情感模型的構建。其建立一方面來自邏輯(自覺),通過對已知的包含特定情感特征的和弦、音色、調性等的確立和規劃,來達成結構性的、自主性的情感確立,這種情感的創造力在一定程度上是建立在相應的音樂創作經驗、寫作知識和生活意象結構之上的,但又具有原理上的確定性。另一方面則來自非自覺,其也是建立在一定的音樂基礎之上,但更多的是不需要建構情況下的音樂元素與生活意象的自然組合,具有流動性,表現時間進程,有時還因“動作思維”而激發。
(四)音樂動態性與音樂情感
最后,我們提出本文最重要的概念:音樂動態性。經過音樂創作與音樂情感的關系探討后,我們提出了音樂創作中情感傳導的建構(非自覺)-流動(自覺)平衡理論。而音樂動態性則是在理論中的平衡區域。
將音樂賦予動態性,通俗來說就是在進行音樂情感內涵賦予時,除了建立基本的情感模型外,在時間進程中給與音樂元素充分的流動性,使音樂元素在“前理解”的基礎上自然進入模型。這樣創造出來的音樂既具有情感的整體性,又充滿個性化的靈動感。
由前述可以推出,創造音樂動態性的關鍵點有三:其一是音樂情感模型,即結構思維的構建;二是豐富的前理解,即樂感、非自覺意識地形成;其三,便是時間進程地把握,構建動態序列的分布。抓住這三個要素,則音樂動態性基本形成,音樂的情感性也就此完善。
三、以人工智能實現音樂創作的動態性[11-16]
分別了解人工智能和音樂情感基礎后,現在我們可以把人工智能音樂的情感性提升落實到創造人工智能動態性上來,而關鍵便是抓住以上三點。
音樂創作的動態性的根基在于結構思維的構建,在于音樂情感的模型化。
對此,人工智能音樂利用音樂規律給人工智能制定算法規則,通過吸納海量從曲式、調式、意境等不同方面的音樂建立數據庫,進行深度學習,在分析、概括其原曲的規則、結構等各項要素,解讀出原曲的情感表達后,重新根據指令操作生成音樂。
而樂感、非自覺意識地形成則是人工智能音樂形成動態性、邁入情感化的門檻。
首先,樂感地形成需要良好的情感空間的構造。人工智能音樂創作的傳統訓練方式具有數據依賴性,并沒有將音樂情感單獨標注,而是與曲式、調式、意境等音樂元素在通過信號流傳輸后,被共同提取為特征流進入特征空間進行學習。音樂情感被削弱,從而減少了音樂動態性的創造。
在音樂心理學中,心理模糊性是人腦反映客觀差異的中介過渡性以及所致的不確定性的量化,是理解人與音樂交互過程中產生音樂情感的心理過程的重要因素。由于音樂情感在大眾的理解中具有的相通性,個人主觀因素的存在不會影響音樂情感量化后在音樂創作中的再輸出。 通過模糊隸屬函數形成基于語義相似關系的語言計算模型,借助語言值產生對音樂情感的良好表達。通過前期基于語義相似關系的語言計算模型對音樂情感的單獨標注,音樂動態性地表達將得到豐富。
其次,人工智能音樂前理解地形成,則需要借助音樂主旋律的識別記憶,以進行情感分類判別。人工智能在學習訓練時,定位主旋律軌道并提取相應樂段是判斷其風格并歸類的重要因素,結合音程特征的統計與分析,制定主音軌自動判別算法。該算法的本質是分類函數的應用,在這里我們以BP算法,即前向反饋神經網絡模型為核心,根據實際的訓練樣本與檢驗樣本數量稍稍加以改動,以此得到高擬合度的分類判別。
最后,時間進程地把握、構建動態序列的分布則是音樂動態性的核心。對已經攫取的主旋律音軌,確定其中的主題旋律,是給人工智能通過數據庫訓練再創作的關鍵,主題旋律往往具有的高重復性特征,能夠讓計算機通過字符串連接的操作手段提取主題旋律,但通過矩陣的方式檢測分割片段的運算會占據計算機大量內存,降低了人工智能自我處理的時間效率。因此我們在字符串連接方式上做出優化,分割片段不再以音符為最小單位,而是以小節為最小單位,小節相較音符,在旋律上表達更為宏觀,每一小節不僅蘊含了音符的時間信息,也包含了不能從單音符分析提取出的節拍信息,增強了音樂的流動性。
總結來說,音樂特征檢索與識別的多重算法結合音樂情感量化研究中構建的模型,形成了以音樂作品輸入信號流為分割,情感標注和特征提取并行分類處理的模型運行過程,面向音樂創作的動態性,情感流和特征流的信號被分別進入情感空間和特征空間,最終進入模型的樣本空間進行深度學習。作為廣泛應用于機器翻譯、對話生成和編解碼領域的結構,LSTM長短期記憶神經網絡對人類邏輯思維的表征有著明顯的優勢,人工智能音樂的學習包含了大量經量化后的主觀因素,以LSTM作為訓練模型將有助于音樂動態性的生成訓練,之后通過機器學習將離散序列平滑完整的拼接,最終形成滿足動態特征的音樂序列,實現人工智能音樂創作的動態性。
四、結論
音樂融匯藝術與科學,因此技術支撐其在數字化時代更好地探索和發展。動態性是音樂的脈搏、情感性是音樂的本質,二者描摹著人工智能音樂人格的外在色彩。算法是人工智能的血脈、模型是人工智能的骨架,二者探索著人工智能音樂人格的內在特征。本文分別從音樂基礎和人工智能技術對人工智能音樂發展展開論述,并結合二者,試驗性地提出了實現音樂創作動態性在人工智能模型與算法上的需求與演化。目前的時代仍是弱人工智能時代,相信未來,當AI走向強水平,人工智能音樂情感局限將得以瓦解。
參考文獻:
[1]周莉,鄧陽.人工智能作曲發展的現狀和趨勢探究[J].藝術探索,2018,32(5):107-111.
[2]王鉉,雷沁穎.人工智能對中國音樂產業鏈的滲透與革新[J].現代傳播,2019(12):131-134.
[3] 吳兵兵.基于詞向量和LSTM的漢語零指代消解研究[D].哈爾濱:哈爾濱工業大學,2016.
[4] 趙德宇.關于深度強化學習的應用研究[J].中國新通信,2019(15):227-228.
[5][美]愛德華·T·科恩,何弦,譯,楊燕迪,校.作曲家的人格聲音[M].上海:華東師范大學出版社,2011.
[6]林華.音樂家是如何“思維”的[M].上海:上海音樂出版社,2018.
[7]浦江.全認知情感理論——一種新的心智計算模型[J].計算機科學,2014,41(7):15-24.
[8][美]弗朗西絲·H·勞舍爾,[德]維爾弗里德·格魯恩,南云等譯.音樂教育神經科學[M].上海:上海教育出版社,2020.
[9]陳凱珊,蘭文杰.音樂情緒內涵及音樂與情緒的關系探析[J].肇慶學院學報,2013(1):55-59.
[10]羅琳.音樂情緒識別誘發的因素[J].赤子,2017(27):213-214.
[11]李洪偉.音樂情感的腦電信號分析技術及神經機制研究[D].哈爾濱:哈爾濱工業大學,2018.
[12]崔佳.試論“人工智能技術”(ai)在賦格創作中的應用[J].齊魯藝苑,2019(1):25-29.
[13]劉濤.音樂情感認知模型與交互技術研究[D].杭州:浙江大學,2006.
[14]邵桂蘭,王建高.論音樂創作動機的復雜性及其多維結構[J].交響(西安音樂學院學報),2001,20(1):37-39.
[15]陳世哲.淺談人工智能技術在音樂創作中的應用[J].音樂探索,2020(1):125-132.
[16]朱晨陽.動態色彩與音樂情感表達的互動關系[J].音樂傳播,2016(4):106-108.
作者簡介:陳益敏(2000-),女,漢族,浙江省杭州人,本科,溫州大學商學院,研究方向為金融工程;張焜(2000-),男,漢族,山西省太原人,本科,諾丁漢大學馬來西亞分校,研究方向為計算機科學與人工智能;劉聆風(2001-),女,漢族,安徽合肥人,本科,佐治亞理工學院,研究方向為數學。