陳奇佳 徐陽
中國人民大學文學院
“我想全球市場也許只需要5臺計算機。”——國際商用機器公司董事長托馬斯·沃森,1943年。
“未來的計算機也許不會超過1噸半。”——《通用機械學》雜志,1949年。
“對任何人來說,640K的內存都應該夠用了。”——比爾·蓋茨,1981年。
不妨往后退一步,擱置AI寫作的藝術性、文學性、詩性,也暫且擱置AI寫作的潛能等話題,回到問題的起始之點,叩問今天的AI何種層面、何種形式的活動能夠與人類所謂的藝術活動相接近、相配稱?其實也就是這樣一個問題:當前的AI活動是否已經可以將某些人類公認的藝術形式轉化為一種確定的算法?具體到寫作領域,我們顯然就有必要脫離一般文學研究的領域,撇開文學與其他藝術形式的共性與差異性討論等傳統模式,僅從文學表達的基本物質基礎也就是文字表意的可算化這一前提出發,討論當前AI文字寫作算法的邏輯構造樣態及其實踐成效,分析其邏輯樣態的必然結果,以此與人類文字寫作的結果比照;并根據當代AI最新、最強大的深度學習模式,追問這種比照學習的發展潛力亦即其達成或超越人類同類型文字寫作的可能性。
就AI當前的寫作學習來說,其參考人類文字寫作模式的邏輯構造,大抵可分作兩種基本的類型,即抒情寫作與敘事寫作。抒情寫作的基本學習對象是抒情詩,微軟小冰的現代詩創作能力是通過對1920年后519位現代詩人的上千首詩學習上萬次后而達成的;而敘事寫作的基本學習對象是故事與小說,2015年阿里巴巴推出了聲稱擁有龐大的故事資料庫的智能創作系統“阿里編編”,對外宣稱平均創作一集電視劇劇本只要10分鐘,而創作一個完整的電影劇本也只需30分鐘。2021年,阿里巴巴作為第二大股東的科技公司“海馬輕帆”又進一步推出“小說轉劇本”智能寫作功能。AI的抒情寫作和敘事寫作涉及兩種迥然不同的算法構造邏輯,本文主要討論AI在敘事寫作上,按照人類的寫作方式,需要建構什么樣的底層的邏輯形態及其實踐的可能性。
從根本上講,人類的思維模式與計算機的處理模式所能直接相比較的地方是算法,這是我們討論一切問題的前提。
早在20世紀中葉,“計算機之父”約翰 · 馮 · 諾依曼(John von Neumann,1903—1957)曾創造性地從數學的角度對計算機的數學運算和人腦思維的過程進行過比較研究,這一創舉不僅為計算機的創新、人工智能的發展指明了方向,也為今天AI藝術與人類藝術提供了可比較的理論基礎。這便是馮 · 諾依曼死后所出版的《計算機與人腦》(,1958)一書的基本思想。
基于此,本文就人類自身出發,將人類的藝術形式解析為一種算法。不過,當以算法為基礎比較AI創作與人類創作時,我們所必須面對的問題便是算法無法將諸如情感、信仰、宗教等雖對藝術創作至關重要但卻不可演算之物統籌在內。事實上,像情感、信仰、宗教等要素對人文藝術的發展功不可沒,在中西文明的演進過程中扮演了至關重要的角色。但我們從現實層面讓AI如科幻小說中的人物那樣擁有情感、保有信仰既無可能更無必要。換言之,在真正對AI作品和人類作品予以比較之時,一是我們僅能討論二者在客觀上可被比較和可被計算的環節,也就是以人類身體為經驗的建構藝術作品時所涉及的環節;二是在對比過程中我們的基本設想是將人類藝術創作算法化,而非漫無標準地設想AI依據何種高級程序能夠達到人類創作的標準等。在這兩大前提下,相較具體AI程序的運作而言,我們的討論將不可避免地顯得粗泛和宏觀,但這確是目前研究首先需要澄清的問題。
在對比AI創作和人類創作的過程中,我們所采取的基本思路是將藝術創作所需要的基本要素算法化,以形成AI創作所需的邏輯參數,評估AI對這些邏輯參數進行習得和轉化的現實可能性,從而回應AI寫作的潛能等話題。這里的邏輯參數是指將藝術創作所涉及的人類所有思維內容還原為明確的生理表征行為,描述為可被描述和必須被描述的要素,因為它們與人類身體經驗直接相關,因此又可被稱為具身習得的邏輯參數。這種具身習得的邏輯參數從人類自身經驗出發,將與藝術創作相關的環節分解為最小的單元模塊。最小單元模塊是指在現有人類藝術經驗層面,以現象學還原的方式考察各種與藝術活動相關的基礎范疇,所設定的可算的基礎藝術模塊。在集合論的意義上,它們又是可算化藝術活動的最大單位。這些模塊本身是可微的,但從與人類藝術經驗的對應關系來說,它們其實是一種最大的集合,即只有在這些集合條件下,人類那些被具身化的邏輯參數才處于彼此平行、可有交集但互不包容的狀態。當然,還有必要指出的是,我們在此討論藝術活動的具身化,絕不意味著所有藝術活動的形式范疇都是一致或近似的,不同藝術形式所對應的邏輯范疇自然有所側重,同一藝術形式之中也有非常復雜的邏輯范疇變異情況。
根據人類藝術的實踐經驗,我們可以將相關可算的具身化邏輯參數分成三種基本類型。
第一類可稱為單純描述性的邏輯參數。這類參數一般涉及人類天賦的理性認知能力,為全人類所共有,有希望以某種剛性的算法求得普通解(當然,這是極端樂觀主義的猜想,這類所謂天賦能力完全有可能涉及神秘層次,最終并不能被徹底認識,這就無所謂“普通解”了)。語言問題就是其一。這里所說的語言只涉及音義傳播與理解問題(書面文字之間有更復雜的運作機制,不能歸入基礎算法的層面)。從人類理解的層面來說,單純語音的交流是完全可能的;單純依靠語音而完成不同方言和語言體系的交流也是可能的,這足以證明人類擁有某種相同的關于語言習得和運用的類的能力,也就是說,我們獲得關于語言的通解是可能的(盡管自喬姆斯基之后語言理論在這方面進展有限)。再比如在圖形層面,人類也可能期望通過一種窮盡描述的方法獲得準確的具身化邏輯參數。人類的圖形認知,大致應當分為幾何式、符號式和具象感知等不同類型。根據康德、胡塞爾、榮格、皮爾斯、德里達等人的討論,也根據目前科學的發展(如費爾馬大定理的證明等),在邏輯上AI有希望通過深度學習模式在這些方面獲得結構性的突破進展。此外,如果以人的身體為基準作測量,進行命名和限定,那么,運動辨認、空間、時間,包括顏色、聲音、觸覺等感官認知的內容,也有可能通過剛性的力迫運算,實現其中包含內容的算法化。
第二類則是轉化性的邏輯參數。這一類邏輯參數所涉及的現象,大多與個體精神體驗相關,具有很大的個體差異性;并且它們牽涉部分大多缺乏客觀世界相對應的客體事實,因此AI似乎不可能對其做直接的窮盡描述。但盡管如此,這些藝術現象仍然能夠借助某些具身化手段,通過相關生理表征行為的抽樣、建模、統計、概率計算等手段予以轉化性的過渡描述。這類邏輯參數,多與人類情感相關。各種欲望因素如性欲等,毫無爭議與藝術創作具有極為緊密的關聯。AI本身沒有欲望可言(可算化也許是其唯一欲望),它如果要深度習得人類的藝術創作能力,邏輯上說它應當有能力辨認藝術實踐中那些與欲望相關的現象并把它們轉化為可算的邏輯單元。但欲望在創作中介入的深度因人而異,比如在《金瓶梅》《索多瑪的120天》等書中,很多意象都與性欲相關,但在某些佛教作品中,性欲的因素差可歸結到無。如何從具身習得的角度出發描述此種現象,從目前來看,人們尚只能借助血壓、唾液、腎上腺素等的分泌、眼球轉動等生理指標的測量、計算、模型化等予以轉化性說明。這種轉化有多少有效性,目前來看自然是很值得質疑的。但從長遠來看,如果樣本量足夠,且當前的AI學習模式有長足進步,AI此種轉化性邏輯參數測定、可算化仍有一定的理論實現可能。人類的激情和沖動,如憤怒、悲憫、仇恨、嫉妒、愛好(癖好、習性)、報復(復仇)欲等,以及參與到藝術創作的各種感覺因素(包括嗅覺、味覺等),都屬于這個層次的問題。前面我們談到了此類參數轉化生成的可能性,但實踐中可能問題重重。如果將各類激情和沖動都轉化為生物指標,這類轉化需要的人類學證據將是不可思議的龐大。如果還考慮到這些激情和沖動同時還能夠構成多少種復雜藝術現象,這些現象且自有其歷史演化過程,那么這種轉化性可算表達幾乎是不可能的。更何況過度依賴心電圖、血壓、分泌物等來作為藝術具身化的主要參考指標,看起來也過于線性與簡單化了。
第三類為綜合的邏輯參數。人類藝術活動的基本經驗,除了來自那些類屬性和個體情感(這些都與身體經驗感知直接相關),還有部分與外在存在事實緊密相關。它們屬于被建構的實體性精神事件:能夠被身體所感知、明證,但一般來說只存在于某一特定的群體中——且在這群體中存在著極大的差異空間,有時涉及重要的時間變量。比如說對特定國家之愛,對現代人來說,它肯定是一個能夠被理解的客體性事實,但此種愛意,大多數情況下只存在于該國家的公民群體中,并且群體中個體差別極大,既有勇于為國家之愛奉獻生命者,也有背叛國家者。考察這類經驗的可算化問題,除了適當引入前述描述性或轉化性研究的部分要素,還必須分析其中所包含的各種綜合性內容,如歷史、地域、文化傳承、共同體性質(政治、意識形態)、群體間關系、技術條件等。文化傳承包含文字、倫理、信仰、趣味等,其中的信仰等內容也必然是從世俗化一面來作思考的,是去神秘化的、可算的。這些綜合生成的東西,其根源盡管不是發自直接的身體經驗,但對藝術創作往往具有強大的支配力,因此也可以將它們視同身體本能,必須歸納、總結某些特殊的邏輯參數形態,比如關于文字的感覺、意識模式。再以技術背景為例,在透視法沒有被發明之前,它不可能被自覺地應用到繪畫領域;在運動攝像技術沒有興起時,便無所謂蒙太奇手法等問題。而在今天,透視、蒙太奇已成為現代人觀察世界、想象世界的精神本能,從這個角度說,現代視覺經驗包括精神測量世界的基本姿態,就是包含著對現代視覺機器(技術)的理解(想象)的。因此在藝術活動中,它們就顯然需要被處理成為一個獨立的可算的集合(模塊)。這是第三類邏輯參數需要被單獨分立的理由。
截至目前,在AI藝術研發史上,繪畫是嘗試最多且成果最豐富的項目。無論是輔助繪畫、模仿繪畫,還是AI獨立創作技術,都在不斷推陳出新,進行著一場場技術革命,其中不少作品已明顯能夠通過圖靈測試。在此,我們以圖像為例結合上述分析從理論上還原AI創作的基本邏輯。第一步,分解各種圖像素材。無論進行何種圖像創作,分解圖像素材都是基礎步驟。在這一過程中,可能涉及的基本分解邏輯是:(1)分解人、動物、植物與圖形相關的基本構造單元(如將臉部肌肉按解剖學意義分解);(2)按某些功能、組合命名某些表情傳意的最小單元(如笑、哭、恐懼等);(3)按照某些基本物理事態(如光影對比、輪廓變形等)分解最小的功能單位,如石頭、皮膚、水、草木等不同的反射率、色彩變化等;(4)分解圖形靜止態與運動態最核心的姿態差異(如電影《長城》的穿幫鏡頭其原因就在于完全沒有考慮風與毛發飄動的關系)。第二步,按一定的邏輯組合、命名這些素材,以期形成更具表現能力的圖像模塊。第三步,在更大的尺度上定義某些人類活動的精神運動態勢,在此尺度上定義、分解某些人類工作的學習樣本,從而使AI學習并模仿生成。
以上是關于一般藝術創作所涉及的內在算法邏輯架構的基本思考,并以圖像生成為例嘗試分析了AI的藝術創作過程。然而,除卻以上的歸納是否還有其他要素類型?如何研究這些要素在不同的藝術形式和藝術類型之間的具體邏輯關系?上述籠統的要素分析其內涵如何更明確地界定?……相當多的問題都超出了現有科學與人文認識的水平,在此只能略過不談。
前文討論了藝術活動可能涉及的一般經驗領域如何實現可算的邏輯架構問題,但現實中藝術活動還有很多具體形式架構規定性。簡單來說,根據人類的藝術經驗,上述要素還有某些結構性的(也許是固化的)穩定的形式樣態。這些形式樣態也需要做出可算化的邏輯描寫,這可能是當前AI寫作想要取得明顯突破之處的關鍵。
總體來說,目前AI寫作(也包括其他藝術領域)的實踐分為抒情與敘事兩種基本形式類型,這也吻合人類藝術文體實踐的基本經驗。我們在此主要探討文字敘事可算化的前提。
文字敘事寫作的可算化又可分為兩大板塊。
第一板塊是文字組合的規律性問題。文字組合的可算化,所需要考慮的邏輯參數至少包含如下七個層面的內容。第一,文字符號的組合規律。涉及文字敘事的演算問題首先要考慮的是文字演算過程中會涉及的符號組合規律,主要是語法問題。相對而言,第一項是最易掌握也最具規律性的,也是目前AI本身取得突破最大的層面。第二,字的層面。這一項主要涉及音、義、字之間可能的不同組合方式。像方塊文字、象形文字、表音文字等之間的組合均不一樣,不過對于計算機程序本身而言,實現這一層面的突破從理論上講并不困難,只要學習積累到一定層次,便可以較好地呈現出不同類型文字間的組合方式。第三,詞的層面。根據一般的詞性分類,在演算過程中必須考慮到名詞、代詞、動詞、介詞、形容詞及其他如擬聲詞、數量詞等不同的詞性。一句話形成的關鍵在于詞和詞的搭配使用,從演算角度來講,詞的組合也是構成一個句子表意的關鍵所在。這其中又涉及兩個難點。其一是詞與詞的組合,從現象上看描述的理論難度不大,但十分煩瑣(比如如何限定一個詞在什么樣的情況下可以與另一個詞搭配,且能夠準確傳達敘事構造所欲傳達的涵義)。其二的問題由第一點引發。從人類心智的角度看,習得詞的組合能力一定不是描述性的而是生成性的。原則上人類掌握不多的生成規律就能識別一切詞義組合的可能性。從這個角度說AI也應當具備生成性的詞義組合能力。這完全依賴于人類對各種類詞性的本質功能界定和準確描述。但從目前語言學界的研究看,在這方面取得大的突破可能還有很長的路要走。比如說,如何令AI習得識別專有名詞及其向普通名詞轉化的能力,就可能是一件非常困難的事情。在所有的語法理論中,專有名詞均是一個自明的語言現象,但各家定義有所不同(有趣的是,人類心智在很早的階段就已具備這一能力)。第四,文字與聲音層面。眾所周知,所有的文字符號均來自聲音,以至于我們在閱讀文字時會不由自主地想象它的聲音。不過文字符號的組合又有擺脫聲音的過程。文字與聲音的關系需要更為充足的、特別是結構主義語言學背景來予以支撐,但二者關系如何轉化為文字敘事算法可以習得的邏輯框架仍是未知的問題。第五,文字的歷史演變。在設計文字演算過程時,必須要考慮文字的歷史演變因素。像漢語便有古今異義詞的區分,一些詞語意義發展至今其內涵也會有一定的發展變化。人類在創作過程中會有意無意間加入某個或某些詞的古意以形成一種特殊的敘事效果,但這些詞語如何進行算法,這對AI來講目前還是一大難題。第六,外來詞、生造詞(如許多網絡語言)的運用。人類對于外來詞的識別和轉化都不成問題,許多日常詞匯如沙發、咖啡等都屬于外來詞的范疇。但在面對一些較為生僻的外來詞時,對計算機而言,要進行合理的算法邏輯描述也具有一定的難度。第七,文字信號與因果律構建。詞與詞之間、句與句之間邏輯上的因果構造,某一些信號的聯系必然會導引出某一種預定的結果。但這種描述若轉化成相應的算法則十分困難,因為人類在使用文字來進行敘述時,通過文字的組合形成的與事件相關的演算信號,包含了許多因果律上的直觀見解,其中的典型代表便是敘事中的省略問題。對文學敘事而言,省略是最重要的因果律的構建方式之一。而具體的省略如何進行,何種因果條件可以不提及省略的前提,何種情況又可以不談及省略的過程,何種又不用論及結果,這些都是考驗人類敘事能力最直觀的部分。但這種能力對于算法的描述而言相當困難。不過,就文字信號和因果律這一層面而言,不排除在計算機層面可以被繞過的可能性(即通過算法與學習窮盡各種省略的必要條件)。關于這方面的具體討論則需要更為專業的思考。
第二板塊,即繞過文字組合規律的細節,根據風格論與敘事類型學的理論,在較大尺度上給出文字組合的基本模型。希望在足夠的樣本學習基礎上,通過恰當調試,令AI掌握基本的文字表現形式,并通過圖靈測試。當前AI文字寫作的基本邏輯構造,看起來主要便基于第二板塊的邏輯構造模式。根據這種模式,目前的AI抒情寫作與敘事寫作其實是一回事。從現實操作而言,二者的本質邏輯是相同的,即通過有聯系的連續幾張圖像,提取其中可能包含的人物的情感色彩或故事的情節發展,以規定的文字方式呈現出來(參見圖1)。不過,AI敘事寫作就既有成果而言仍有很長的路要走。比如像同樣基于圖像學習的微軟小冰敘事詩的創作,其生成重點更強調故事情節的連貫性與敘述的完整性。若要培養AI“自主創作”的發展方向,很有可能會無法兼顧AI的詩歌語言學習,這就導致生成的詩歌走向“按圖說話”的模式,其敘事功能僅停留在表面,而忽略了詩歌的文學性和抒情功能的表達,這也是敘事詩歌質量較不穩定的原因。而在更為復雜的長篇敘事寫作中,AI則面臨著更多的挑戰。最新的語言生成算法模型GPT-3體現了自然語言處理取得的進步。人工智能語言生成器中的挑戰之一是在長文本范圍內保持連貫性,像之前的GPT-2模型往往在幾句話之后便失去了一致性。GPT-3確實能夠在幾段文字上仍保持一定的話題性,這主要是因為GPT-3最基本的功能是自動補全,給它一個詞或句子,它就會逐字逐句地生成它認為接下來該出現的詞句。但從根本上講,GPT-3不會帶來任何新變化,較GPT-2而言所擁有的只是訓練數據集和“計算”量,而若想在模型中灌輸常識、因果推理或道德判斷,仍是AI目前不能實現的挑戰。

圖1 小冰創作詩歌的過程,[ 圖片引自Heung-Yeung Shum, Xiaodong He, Di Li.“From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots.”Rontiers of Information Technology & Electronic Engineering 19.no.1 (2018):10–26.]
基于深度學習的AI寫作技術想要真正取得突破必須具備一系列基本條件,包括須是單一任務,任務邊界清楚,信息完備,結果判斷量化、明確,等等。但就目前而言,AI敘事從理論上來講就面臨著幾大難以突破的難題。首先,AI敘事缺乏目的,缺乏標準,樣本量太大。事實上這種可再生成性的語匯的邏輯關系,還是需要獲得重大突破才可能形成一種內在的可計算的、但是又能自由轉化的語言。其次,AI敘事對名詞的辨析較為困難。名詞,特別是作為普通名詞而言,往往包含了非常復雜的記憶性內容。這種記憶性的內容通常還包含家庭、宗教、社會以及文本、虛構科技等要素。人要辨析一個普通名詞中所包含的特征即轉化機制非常容易,但是對于機器來說卻很困難。一旦小說涉及諸多非邏輯的話題如意志、欲望、敘事、暴力、道德、死亡等類似具身體驗的東西,機器根本無法習得,就只能在一定邏輯框架中做外部模仿。再次,AI難以將虛構內容向實體性內容轉化。實體性的內容是一個客觀實在,它的存在不會因為別的任何方式的介入而改變或消失。從這一邏輯來講,敘事包含著兩種實體的天然的區別:一種實體能夠找到世界情況的客觀對應;另一種實體是人類虛構的,若讓機器進行這種虛構向實體的轉變則十分困難。最后,AI難以習得純粹觀念性的內容。機器最容易習得的是科學觀念性的內容,但是對比如佛、上帝這種概念既找不到它的外延,也找不到它的內涵。
就目前技術水平而言,AI敘事寫作之所以看起來像是敘事,是因為:第一,它用來組合的類型化樣本片段比較大,這種既有的樣本化素材本身就包含了一些事件的組合關系,根據格式塔心理,人們會強行為這些拼貼的樣本的事件之間補足因果關系;第二,這些類型學習的樣本內在邏輯構造是極其線性化與單調的。這種算法模型能否完成長篇的、有內在變化的因果律組合,頗可懷疑。
從算法角度出發,就計算機與人腦可比較的層面而言,根據現有的計算機技術(包括算法等),拷問AI是否可能具有藝術能力,很可能本質上就是一個緣木求魚的問題。就目前的AI技術而言,它參與人類活動并能超越人類能力,一般都在可計算的領域。它的內部邏輯構造再復雜,其實目標是單一且確定的。就像阿爾法狗圍棋上戰勝人類,其突破主要是在發明了一種通過概率計算的方法,繞過了龐大數據對技術能力的考驗。但其邏輯目標本身是簡單的:設定一種程序,依照圍棋的規則,爭取在19路棋盤上達到或超過181點以上的點位,能夠完成這一目的計算即為成功,否則就是失敗。而對藝術工作而言,在大多場合都很難說有什么是非判斷的標準;各藝術品之間也很難說有什么統一的標準,那么如何能夠有效地根據一定的邏輯計算方法判定AI演算的有效性呢?即便人們在藝術標準等方面達成了一些極有彈性的、通解方面的認識,文中談到的幾個前提仍將對相關的工作提出巨大考驗。
盡管如此,當前的AI藝術探索,仍然是極具價值的,我們不能排除AI未來會形成專屬于自己的敘事方法的可能性,也不排除會產生一種諸多要素具有通解的邏輯框架。此外,還有一種理論上的可能,那便是計算機通過超大樣本的學習,使得AI敘事自動覆蓋或超越人類敘事。因為就計算機與人腦的對比而言,人腦的演算精度與計算機相距太遠。而是否有可能設想這就是智慧生命最終本質的差距。如果情況是這樣,據人類創作過程架構的邏輯框架對具有超精度計算能力的計算機而言,其本身就是一種不好的邏輯框架,我們依據人類藝術活動經驗來規約、設想AI藝術的發展可能本身就是一種坐井觀天的想法。當然,盡管科幻文藝在這方面已經談了許多(如阿西莫夫的小說,如電影《銀翼殺手》),但從目前AI發展的情況來看,這些基本都可以歸于玄談,暫可存而不論。