王小紅 科林·艾倫 高元昊 楊冰潔



摘要:國內外海量人文經典文獻數字化工程雖已實施和完成,傳統人文研究方法(依靠學者個人細讀文本)卻歷經千年未變。近年來,包括西安交通大學哲學實驗室在內,國際、國內學者探究運用主題建模(topic modeling,縮寫為TM)技術融入傳統哲學研究有三個具體分支領域:一,基于LDA-TM特有的語境聚類特征,實驗室模型第一次計算展示了中國古代哲學核心詞的一詞多義性,并基于全新漢典語料庫呈現了張載宇宙論的獨特性;二,科史哲(HPS)領域對達爾文的閱讀內容做主題建模,用驚異度描畫并測量其閱讀模式,研究結果有助于探究溯因啟發式策略在科學發現中的發生機制;三,TM的語義測量、詞相關性語境之網融入文化研究,對語言哲學中意義的意義難題的揭示。可以說,計算哲學方法在拓展哲學解釋空間、帶來新發現和新證據的同時,也凸顯了其異于傳統方法的復雜性及深度學科交融性。
關鍵詞:主題模型;遠距離閱讀;中國哲學;科史哲;文化
中圖分類號:B2? ? 文獻標志碼:A? ? 文章編號:1001-862X(2020)04-0082-009
一直以來,人文學者研讀文獻是直接閱讀單個文本,而主題建模(Topic Modeling,縮寫為TM)引入新的“遠距離閱讀”方式,從而具有超書架功能。將一個大型文件集的語料庫作為計算機的輸入數據,只需運行TM算法,就可以自動產生在人文專家看來頗有解釋意義的主題。一個主題可以看作許多詞語的聚類,無論什么時候要討論這個主題,這些詞語就會共同出現。從概率上說,這些聚類詞的共現頻率更高于不討論該主題時這些詞的共現頻率。TM屬于語義統計模型中的一種,是對語義進行概率統計建模的方法。最簡單、應用最廣的概率建模技術是LDA(Latent Dirichlet Allocation,隱形狄利克雷分布),由David Blei團隊于2003年提出。[1]
近些年來,人文學者大膽嘗試借助主題建模技術輔助文獻研讀,已經涵蓋包括新聞傳播、文學、史學、文化學、詩歌和哲學等各個領域,取得的研究成果展現了分外有趣的人文意蘊。在此基礎上,本文著重剖析機器學習對傳統哲學問題的主題建模。
一、通過語義抓取實現對大型古典哲學語料庫的結構化
依靠人工辨識和分類,要使一個龐大的文件庫呈現清晰的結構,往往需要耗費大量人力和時間。傳統人工只能依據文章和著作的名稱、著者名、關鍵詞這些外部信息作外圍框架的分類和查詢,要想深入文檔內容來分類海量文檔庫,靠人力是不可能做到的。然而,TM實現了根據文檔內容對龐大文件庫進行結構化。這種分類管理的核心是主題,可以呈現每個文件依據主題(20、40直到100個)分布的結構表、結構圖,就是說,將文集具有的可解釋性的隱含結構呈現出來。通過超書架和遠距離閱讀,研究者可以直接看到文件的內容結構,從而根據研究主題去獲取相關信息,并直接看到文檔庫中其他文件與此文件主題的關聯度,不僅可以便捷和高效地找到所需,而且還將獲得用傳統人工方法無法得到的洞見。
(一)“氣”概念多重語義蘊含的計算呈現
2015年以來,我們和匹茲堡大學計算哲學家Colin Allen團隊合作建立了一個包含近18000個文本的中國古代哲學語料庫,通過主題建模分析,呈現了對于中國哲學研究和學習頗有解釋意義的主題,提供了通過主題建模對中國古代哲學典籍計算分析的平臺,這是國際學術界第一個比較成功的嘗試。[2][3]基于國內漢典庫[4],結合日本京都大學的KANRIPO[5]和美國哈佛大學ctext的中國古籍文本庫[6],我們建立了更全的新漢典主題建模平臺,包含2萬多個文本,總字數近4.3億。[7]
如上表所示,TM算法具有語境聚類特征,能夠梳理出一個詞在使用中的多重語境。這在解釋中文一詞多義方面非常有意義,尤其是中國古代哲學中的核心詞如氣、道、禮等的語義蘊含。表1顯示與“氣”相關的Top 10主題(K=100),可以看到,不僅每個主題的意義易識別、可解釋,且各主題的意義明顯不同。表1中,TM算法自動分出了“氣”一詞的多種含義和使用情境,這些不同的主題聚類分別表示醫學(T78)、理學(T13)、陰陽(T26)、風水-命理(T86)、時節-天氣(T48)、道家與道教思想(T52)、天文-歷法(T20)、醫藥(T6),兵家-占卜(T57),以及理學-工夫論(T29)等不同語境下的“氣”之意涵(1),契合了中國哲學研究者關于“氣”之豐富語境的如下討論:
中國身體觀的一大特色,乃是除了五臟六腑的系統外,另有一種氣——經脈的系統,而氣尤可視為根本的原理。將氣與身體結合并論(以下簡稱氣-身體),不但見之于傳統醫學,也是以往的許多“經驗科學”,如占卜、星相、武術等,得以運作的理論基礎。不但如此,它還提供了中國以往主流思潮無比重要的動力,我們甚至于可以說:沒有氣-身體的理論預設,儒道兩家的許多重要命題即不可能成立,至少也需要重新改寫。氣-身體觀與儒道兩家親密的關系,主要見之于玄學、理學與道教里的內丹傳統。[8]導論第3頁
作為中國哲學的核心詞,“氣”這一概念在中國古典文獻中頻繁出現、在理論和實踐中又廣泛運用,對這一概念的理解卻是“見仁見智、意義極易產生歧解的”[9]。通過TM等AI和大數據方法的輔助,對于那些歧解和爭議,中國哲學研究者或許可以給出新的洞見。
上圖基于我們建立的一個以中國古代氣論思想為主的語料庫,從先秦至明末清初,基本涵蓋最重要氣論思想家的論著。結合可視化圖形分析手段Sankey圖,TM算法可以更直觀地展示“氣”相關主題的流變(K=100,圖中顯示與“氣”最相關的Top 10主題)。[10]圖1中,權重相對較高的三個主題分別是T44(醫學)、T87(理學)和T10(朱子文字風格)。從圖中可以看到,先秦諸家思想存在的差異能夠被算法抓取,并反映在模型中,如圖中T78(中醫-理論)、T99(道家)、T1(中醫-處方)和T97(天文-歷法)等不同主題分別關聯先秦不同學派、不同典籍。同時,相對于先秦諸家思想之差異,不同發展階段的理學所具有的高度統一性也直觀顯示在模型中,即不同理學流派都與T87這一理學特征主題相關聯。
人文學某種程度上需要保留歧義性、多義性和融會貫通性。對此,有學者討論了LDA算法用于輔助哲學論證的優勢和缺陷[11],也有學者從解釋學角度強調計算模型的解釋問題[12],幾位該領域領軍學者正致力于同時運行多種模型來增進人文知識所特有的“多元解釋性”。[12][13]這方面亟待探索的問題空間十分廣闊,需要大量工作探究人工智能機器學習接近人文思想的豐富性。
(二)計算建模凸顯張載宇宙論思想的獨特性
對張載全文本做主題建模分析[14][15][16],如表2和表3所示,新漢典主題模型顯示,張載處于宇宙論思想的轉折點。在張載之前的宇宙論思想相關著述中,道家思想文本占主導地位;而張載之后的宇宙論思想相關文本卻呈現明顯的變化,即儒家思想文本占據了主導地位。如何解釋這一現象呢?通過直接細讀大量中國古代典籍,包括對張載全文本的閱讀,我們了解到中國古代儒家思想大致呈現的變化特征:先秦至兩漢之前,儒家思想主要關注人的性命之理,由于漢代開始關注宇宙天道,儒家思想似乎出現了一個轉型,但是漢代以后人倫和天道究竟何為儒家關注點一直存在爭議;宋明理學的開創者之一張載,他的儒家思想研究將性命之理與天道相融合,建構了獨特的宇宙論思想。正如有學者所總結的:從某種意義上說,張載建立天道本體,目的就是通向性命之學,他所謂的“知天”,目的是為了“知人”。那種作為西方哲學宇宙論意義上的單純的天道,在中國思想傳統中擔當不起“天道”這兩個字。[17][18]
西方宇宙論依托主客二元之分,而中國的天道思想則是天人合一的。所以,張載的理路是天道本體和人的性命之理相貫通的儒家倫理思想。我們運用TM手段為此提供了計算哲學的新事實。
但是,張載宇宙論不僅僅有儒家精神,也一定程度上吸收了道家、佛學的理論觀點。在接下來的工作中,我們將嘗試從多層面數據給出進一步的證據,探討張載思想受道家和佛學怎樣的影響,以及關于張載思想的一些歧義。有學者提出,為什么這個轉折點是張載而不是周敦頤?作為與張載同時期的另一位理學開創者,周敦頤的宇宙論也應當處于這個轉折點上,但他的著作文本量只有幾千字,并不適合建模方法。由此可見,欲達到更為全面的分析,TM的遠讀需要與文本細讀相結合。
張載開創關學,他的思想在中國哲學中具有重要地位,一直是學界關注的熱點。牟宗三、馮友蘭、張岱年、陳俊民、林樂昌等代表性的海內外及當代學者對其思想的豐富性和獨特性進行了系統而全面的揭示,可謂成果豐碩。但學界公認張載哲學難度大,產生的歧義也很多[19],這些有爭議的問題需要繼續反思和研討。如,張載哲學是一種唯物論嗎,是一元論、二元論還是其他,是“氣”本體論還是“太虛”本體論,對其宇宙論作本體論(本源論)和生成論(發生論或構成論)二分的證據充分嗎?還有“太虛”和“氣”的關系、“太虛”的含義,等等。[20][21][22][23][24]針對張載思想研究中存在的不同解釋,學者不妨大膽結合機器學習新方法給出新證據,這無疑是對傳統研究的有益補充。
二、為科史哲(科學史與科學哲學,HPS)研究科學發現提供新的解讀和證據
Colin Allen的IU團隊首次使用TM對達爾文的閱讀日記進行定量研究[25][26],不僅重新發現了達爾文研究生涯中的關鍵特征,還就三個圍繞達爾文研究生涯的問題提供了新的證據和回答,為科史哲(HPS)傳統一直關注的“發現的邏輯”(2)提供了新素材。
(一)HPS中的“發現”難題與計算的結合
漢森是HPS事業的奠基者,庫恩是HPS事業最有影響力的建構者,兩位科學哲學家的科學發現觀早已成為科學發現計算模擬的豐富“養料”,直接影響了西蒙開創的機器發現(Machine Discovery,簡稱MD)工作。[27][28]
漢森復興了皮爾斯的發現邏輯,即溯因式的推理。他深入論證了溯因推理方法在物理學發現中的作用:人們溯因式地考察現象P,把它“扔”進一個可理解的模式里,通過提出假說H使現象P得到解釋。但“是P控制著H,不是相反。推斷是從數據到假說和理論,而不是相反”[29]88。漢森反復強調,在溯因式推理中,數據、事實或現象對提出新假說具有基礎性作用和指引作用,這正是所有自然科學發現的共性。
達爾文發現進化論假說也是一個溯因式推理的過程:收集大量事實,觀察到大量現象,進化論假說將這些零散的事實和現象納入一個統一的模式中,給予解釋。與演繹和歸納推理不同,溯因式推理之于發現的最奇妙之處在于,結論與前提之間既不是歸納式因果關系,也不是演繹式蘊含關系,而是一種“看似合理”的關系,這種看似合理性只具有邏輯上的可能性而沒有必然性,在現實中也未有任何證據。
那么,究竟如何提出那個看似合理的假說,將已有現象前所未有地關聯起來呢?對此,漢森終究未能有清晰的表述。當代“發現之友”哲學家對此進行了一些新的探索,將認知科學哲學與傳統發現哲學相結合,如Paul Thagard、 Nancy Nersessian等人分別研究了類比心智模型、類比推理模型在發現中的作用機制[30],但是發現邏輯的“硬核”依然缺乏清晰的說明。
庫恩反復強調常規科學的重要性,即遵循范式推進科學理論的成熟和完善。可是科學史進程中一再出現的超越范式、基于范式而始料未及的現象,又如何用范式去解釋呢?庫恩提出了歷史主義的發現觀:新事物最初的突現,只是對那些能夠識別是什么地方不對勁兒的人而言的,因為只有他們才精確地了解預期應該出現的是什么。于是,依然只是在已有范式背景下,反常才會顯現。[31]60在庫恩看來,任何革命性的新范式都產生自早先的常規科學時期,正是常規科學的范式導致了反常。然而,新范式究竟如何產生?庫恩訴諸宗教信仰的皈依或心理學所謂的格式塔轉換,不僅使庫恩遠離“發現之友”,也使“發現的邏輯”無解。
面對上述發現哲學的難題和困境,我們不妨通過對閱讀內容主題建模這一新手段,以達爾文的創造性假說的涌現機制為例,探究他是如何積聚又深又廣的解題思路空間的。
(二)達爾文的閱讀模式:由深度閱讀到探索閱讀
任何科學發現都是多種活動或者子任務的復合,成功的發現者不僅具有超乎常人的堅持,還使用了與真實任務具有適應性擬合的啟發式決策(3)引導其完成各項子任務。閱讀文獻資料無疑是發現的重要子任務,成功的研究者如何在閱讀的廣度和深度間權衡和轉換,他們閱讀模式背后的啟發式抉擇是怎樣的?如圖2所示,對達爾文1837—1860年間閱讀筆記中記錄的閱讀文本建立主題模型,以信息理論中的驚異度為度量,從局域和全局兩個方面分析達爾文閱讀習慣與閱讀歷程的轉變,可以發現:在閱讀習慣方面,對新領域的探索閱讀與對已熟知領域的深度閱讀兩種習慣的相互交替貫穿了達爾文的整個研究生涯,整體上來看,達爾文的閱讀習慣是向著探索閱讀演變的;通過使用無監督貝葉斯模型對驚異度進行分析,得到了達爾文傳記生涯的三個主要分期:小獵犬號上的航海日記時期,對藤壺的研究時期,以及研究進化論的時期。分析結果與科學史家進行的傳記分期相一致,這表明了TM方法用于科學史料分析的適當性。
在此基礎上,以局域或全局方法觀察何者與實際分期更匹配,推斷達爾文的閱讀習慣是傾向于探索閱讀還是深度閱讀。此外,分別計算達爾文閱讀文本的順序和文本實際出版的順序,考察各自的驚異度變化趨勢,發現達爾文閱讀順序下的驚異度遠高于那些書目在出版順序下的驚異度,這一結果為達爾文選擇如此的閱讀順序提供了實驗證明。這個結果對發現邏輯的工作頗有啟發,或許表明,高出書籍出版驚異度的探索式閱讀,為達爾文積聚了巨大的原創性發現動力。但究竟這種閱讀模式只為達爾文個人所獨有,還是在原創性發現者中具有一定程度的共性,尚需進一步研究。另外,類比信息科學中的驚異度測量,可以說,科學研究中消除反常的過程就是驚異度降低的過程。達爾文有時是驚異度降低的閱讀,有時又是驚異度增加的閱讀,之間的轉換機制是什么?而且,賴爾的《地質學原理》(1837)、馬爾薩斯的《人口論》(1803)、錢伯斯的《創造物博物學的遺跡》(1844)又是如何在達爾文那里發生理論的認知轉換的呢?
這種基于TM的量化方法對個體與群體間行為習慣以及個體長期和短期下的閱讀選擇進行探討,擴大了TM在認知搜索領域的應用范圍。從文化視角看,科學創新往往被視為一種廣闊視域上的知識積累趨勢。這里的發現表明,個體可以產生先于時代文化的創新,之后再被接納為文化整體的一部分,這為“發現的哲學”HPS理論帶來新的個體視角。
當前,探討發現邏輯的工作大多關注兩個主要途徑:一是溯因推理,二是啟發式規則輔助下的解題算法。[30]我們早先對MD的考察揭示了西蒙開創的機器發現恰恰在AI實踐領域奠定了這兩個途徑的基礎:一方面,他通過AI模擬科學發現,填補了漢森的溯因推理給不可表征的神秘留下的空位;另一方面,他結合大量科學史中的發現案例和認知心理學實驗,設計MD程序的具體啟發式規則,為啟發式決策在科學發現中的角色給出了更清晰的闡發。[27][28]運用TM對達爾文閱讀模式實現的定量描畫,有助于我們探究溯因啟發式策略在科學發現中的發生機制。
(三)為達爾文的HPS研究提供新證據
進一步的研究,則回應了著名的“達爾文延遲”問題。通過對TM生成的不同主題做集群分析,發現在完成《物種起源》期間,達爾文的閱讀習慣表現出前所未有的探索性特點,這一結論為達爾文的延遲是在為自己的著作收集證據以及發展論證這一解釋提供了證據。而達爾文突然在1859年火速出版《物種起源》一書的原因,普遍認為是由于達爾文1858年收到華萊士 On the Tendency of Varieties to Depart Infinitely from the Original Type一書的手稿,得知華萊士也幾乎同時發現了自然選擇假說。達爾文在一次與賴爾的書信中提及此事,稱華萊士的觀點與自己1842年文章中的觀點頗為相似。通過使用TM方法發現,比之《物種起源》一書的觀點,華萊士1858年寄給達爾文的文章的觀點,反而與達爾文在1842年和1844年兩篇文章中的觀點更為相似,并且與達爾文1844年文章的觀點最為相似。這一發現為解釋兩人理論之間相似性的問題提供了新的也更精準的視角。
此外,對于達爾文Outline and Draft文稿完成日期的爭議,通過使用TM方法給出了新的證據。該文稿是由Peter Vorzimmer于1975年在劍橋大學圖書館發現的,他推定該文稿的完成日期為1839年。后來的學者通過文稿上的注釋以及文稿標題在達爾文1844年文章中出現這一事實,將這一文稿的完成日期重新推定為1842—1844年之間。使用TM比較該文稿、1842年文章、1844年文章與最終的《物種起源》,發現該文稿與《物種起源》一書之間差異最大,而1844年文章與《物種起源》最為類似。這就為Outline and Draft文稿完成于1839年這一觀點的合理性提供了新支持。
從上世紀70年代至21世紀初,以西蒙為代表的一批AI科學家、認知科學家致力于機器發現,將科學發現這項復合事業分解為一個個子任務,各個擊破,取得了一批頗有成效的成果,如:探測數據規律子任務的BACON1-6、FAHRENHEIT、IDS,發現定性定律和概念的GLAUBER、STAHL、DALTON、AM,完成表征或解釋子任務的GELL-MANN、BR3-4、PAULI、MECHEM、ECHO,設計實驗子任務并進行理論修改的KEKADA、COAST,探測錯誤并執行修復任務的STAHLp、AbE、TRANSGENE,執行類比任務的Drama、 ACME、Copycat、SME、LISA。[32]雖然MECHEM和PAULI等程序分別提出了新的化學反應機理和量子力學解釋,但這些新發現在增長人類知識方面的意義微乎其微,未引起學界重視。
近20年,MD和ASD(Autonomous Scientific Discovery自動科學發現)取得了一些新進展。2009年4月,Science同時刊發了3篇自動化科學發現方面的文章:Bruce Buchanan是第一個專家系統DENDRAL(1965年)的主要開發者,他撰寫的綜述從西蒙MD傳統出發,描述當前ASD的進展及其長遠任務[33];兩篇最新研究中,一個在辨識何為重要的數據關系式方面提出了新穎的算法,通過此算法,沒有任何理論知識背景該系統就發現了真正重要的能夠表達自然定律的數學關系式,且比20世紀70—80年代BACON的發現在復雜度上有了很大進展,能夠發現 Hamiltonians、 Lagrangians表達式[34];另一個ASD系統能夠自動對系統推導出的假說表達式進行評估,并自動決定下一步的實驗,完成一個完整的科學實驗任務。[35]
最近兩年,關注AI模擬科學發現的兩個最新進展皆使用了神經網絡機器學習模型:一個是Renato Renner小組,他們思考物理學家在建構解釋模型時所使用的傳統方法是否能自然而然地出自實驗數據,而不依賴任何預先的數學和物理知識,他們的ASD系統重新發現了經典力學和量子力學中的一些重要概念,發表在新近的《物理評論快報》(Physical Review Letters)上[36];另一項工作則重新發現了量子波函數概念和薛定諤方程。[37]總體來說,上述MD以及ASD還沒有做出真正引起學界重視的新發現。不過,艾倫小組關于達爾文的HPS計算建模所得到的一些新證據和新解釋,除了發表在認知領域頂級學術期刊上,也引起了公共媒體的關注,美國國家公共電臺(NPR)進行了專門評述和報道。
本文討論主題模型在三大類哲學和人文知識領域的應用,不論是中國古代哲學、科史哲,還是下面討論的文化哲學,TM在人文領域的知識發現都是頗有潛力的。
三、與文化哲學有高度的親和性
(一)對孔、孟、荀哲學的建模
加拿大漢學家Edward Slingerland(森舸瀾)和美國哲學家Ryan Nichols合作(下文簡稱SN團隊),近幾年一直致力于結合機器學習研究中國古代文化。2018年,他們用TM遠距離閱讀方法對《論語》《孟子》和《荀子》的內容進行比較[38],分別揭示了三部哲學論著中共同和不同的主題。他們的結果確證了許多學者一直以來采用傳統的直接細讀所得到的結論,即荀子的論著與《論語》在語義內容上有共性。進而,他們嘗試用TM方法探究頗有爭議的傳統哲學問題,如,在孔、孟、荀三位思想家中,孟子比荀子更接近孔子的思想嗎?這與道德哲學的一個核心問題密切相關,即,人性中的善這種道德規范是先天的和內在的,還是后天的和外在的?
《論語》的TM結果顯示了一個區別于《孟子》《荀子》的特點,即,《論語》的高權重主題在內容上與“三禮”的部分內容相關,經過專家細讀,確認是《論語》第十篇與“三禮”的內容十分相似。這個計算結果是有意義的,因為TM作為無監督方法,沒有預先給定它任何中國哲學知識,它的計算結果與學界共識相一致證明TM用來分析中國哲學的適當性。基于這個計算結果,SN進一步探究,孔子對于神靈的態度究竟是理性的還是非理性的?對此問題有兩種意見,以馮友蘭為代表的一方認為孔子是理性的,孔子很可能并不相信他的同時代人的迷信,而以Thomas Wilson為代表的一方認為孔子對神靈有虔誠的信仰。雙方都是采用傳統細讀原著的方法,也各有文本證據,誰也駁不倒誰。采用TM計算分析,就為這樣的爭議給出了第三方證據。
SN認為,TM計算結果提供了支持孟子持內在美德論的證據,即,人性中內在地和先天地具有向善的潛能。同時,計算結果支持了荀子比孔、孟更注重通過外在的制度手段實現社會控制的觀點。但SN認為,不能因此就認為孔、孟思想的近似度高于孔、荀思想的近似度,因為有可能是因為荀子有為官的經歷,故而更有興趣討論管理機構的細節如法律、懲治、官職等等。
根據《論語》和《荀子》共同高頻主題“禮”在《孟子》中出現頻率很低,可以支持《荀子》和《論語》之間更大的近似性,即都認同通過學習、外在文化禮儀來成就規范價值,即外在美德論的共識。
為了使上述哲學問題的計算建模具有可重復性和可檢驗性,王小紅和艾倫計算哲學組基于全新漢典TM平臺,試圖重復SN組關于孔、孟、荀比較的研究結論,目前看來數據的差異性明顯高于一致性(4),進一步的分析和解釋,還需更多工作。
(二)對中國哲學身-心關系的建模
2017年,SN采用TM結合其他算法技術,分析引起西方諸多權威漢學家很大爭議的問題:中國傳統思想是不是以強身心整體論為特征的?[39]他們建立了一個包括前戰國時期至宋代的古籍文本語料庫。計算結果顯示,荀子以及其他中國早期思想家,在提到“心”時往往會提到“心”與身體的關系,這表明,比之身體的其他器官,“心”在早期中國思想中有著不同的認知地位。基于機器學習的三種計算分析結果,他們提出中國古代早期思想至少是一種弱二元論。
得益于我們可以非常便利地閱讀更多中國哲學最新研究文獻,在深入分析SN的方法之后,我們發現,他們用于計算分析的中國哲學基礎概念可能有問題,具體說就是用于表示“心-身”概念關系對中的“身”所對應的古漢語詞。森舸瀾將“身”的表達對應于三個詞:身、形、體。基于他深厚的漢學修養,這種意義表達的拆分頗有道理,但是將形、體的意義歸于單一的生理性的形和體,與中國哲學思想中的意義指涉并不完全符合。仔細閱讀中國哲學研究權威文獻可以看到,形、體同其他中國哲學核心詞如道、理、禮等一樣,有著豐富的和變化的含義,形、體不僅表示生理的形和體,還有超出生理的,甚至超驗的意涵。[40]
(三)TM與文化研究中的意義理論
另一項有趣的漢學研究工作是哈佛大學Ian M. Miller對中國清代社會變亂實況的考察。[41]不同歷史時期反映社會實況的詞,如banditry、unrest、rebellion等,難以有固定的定義,史學家研究史料時不得不有先驗的分類定義。Miller通過使用TM方法,對這一時期的奏折內容實錄文本材料進行主題建模,通過嘗試TM特有的語境解釋性算法,輔助史學文本分析,避免了范疇模糊的詞語對理解文意的干擾,比之傳統方法增強了客觀性,在此基礎上探究了清代出現的幾起大型變亂現象的規律性。
還有一項是研究TM技術與文化研究的高度親和,實際運演了文化哲學和語言哲學的意涵。文化社會學研究者Paul Di Maggio 和Blei于2013年合作,[42]選取有代表性的報紙所刊登的公共藝術資助方面的新聞報道,用TM分析其中的演變趨勢。他們建立了一個近8000個文本、超過300萬詞語的語料庫,用TM分析識別出最重要的話題,正是這些話題框定了政府資助方面的討論。
這是一個文化學研究案例,該研究揭示了TM進路對文化學研究的優勢,因為TM模型使得文化哲學、語言哲學中的重要概念如框架、一詞多義性、雜語性、意義的關系等具有了可操作性,具體表現在:第一,TM產生的具有可解釋性的主題內容,展現了文化意義上的解釋框架。第二,TM基于一個詞出現的語境,具有抓取一詞多義性和一個詞模棱兩可的不同用法的能力。TM強調關系性,抓住了許多語言學學者的共識,即,意義是在關系中顯現的,而非居留于一個個詞中。索緒爾認為[43],意義并非內在于符號中,符號的意義得自和它一同出現并相互作用的其他符號。結構主義語言學的中心論點是:語言是一個系統,在這個系統中,各個成分的功能和意義完全由它們在系統中的相互關系來定義。這種關系式語義特性恰恰體現在主題模型LDA的算法中,按照LDA設計者Blei的話來說,就是體現在LDA的“基因”里。第三,文化學的核心洞見之一即文本的雜語性。文本往往并不只是反映某種單一的觀點,而時常呈現雜語性特征,在一個文本中常見多個“聲音”(觀點或者表達類型)共存甚至不分強弱。Blei寫道:“LDA背后的基本直覺就是,文件都呈現多個主題?!盵44]78這樣,LDA生成的結果,即每一篇文章中的多個主題結構,就有助于從實證層面檢視雜語性。
語言哲學探究“意義”的普遍、客觀性本質,從明示定義(包括直接明示、間接明示、直接內在明示)到行為主義的操作定義,再到語義網絡定義,各種意義理論都在試圖接近“意義”的普遍性和客觀性。維特根斯坦的一個核心思想是,不要問意義,“要問使用”[45]80。維氏論證“意義”的初衷與行為主義傳統一致,皆反對標準語義理論中的感受質、私人語言、意義唯我論。但維氏的結論不同,他認為,理解一個詞,只需要這個詞帶來的心理感覺與別的現象之間的聯系,而別的現象并不需要是公共可觀察的,也可以是別的心理狀態。維氏論證的結論就是:一個詞的意義就在于它與別的詞所發生的系統性關聯,沒有這些關聯,則沒有該詞的意義。可見,“意義”就是某件事物,它存在于詞與詞所構成的情境之網,在這個網中,詞與詞彼此通過那些包含這些詞的一般陳述相互關聯。
無獨有偶,丘奇蘭德也以自然科學理論中名詞術語為例,清晰地闡釋了語詞意義的網絡理論,即,一個個理論詞項的意義就隱含于它們所嵌入其中的原理之網。[46]53TM的計算結果呈現了詞的使用情境之網,其背后的算法沒有包含人類閱讀者會有的個體體驗、知識積累、文化背景,甚至情感情緒。TM生成的可重復、可檢驗的“意義”之網,有助于使意義理論走出唯我論的泥潭,為構建更加一般性的意義理論帶來希望。普特南說:“意義就不在頭腦里?!盵47]464而我們可以這樣說:意義就在語詞使用情境的收斂特征里!
注釋:
(1)TM對“氣”之多重語義進行了集簇聚類,我們結合細讀中國哲學相關文獻仔細檢視了TM計算結果的有效性和適當性。
(2)按照“發現之友”哲學家的共識,發現的邏輯是指關于產生知識的一套程式化的推理過程。
(3)認知心理學對啟發式決策的研究從未停止。早期西蒙傳統主要從人的內在認知活動如記憶、注意的研究出發來設計計算表征的啟發式規則,關注假想世界中的人工難題;當前以Gerd Gigerenzer和Peter Todd為代表的生態理性進路,則強調推理和決策成功的外部考量,探索啟發式規則與真實環境的適應性擬合在計算機科學中的具體技術含義,也不再尋求對所有環境都普遍適用的策略,而探究在不同真實環境中具有良好適應性、往往是“多快好省”式的簡單多樣啟發式策略。
(4)SN文章使用的語料庫下載自ctext。2019年6月ctext創建者哈佛學者Donald Sturgeon應實驗室邀請來訪與我們一起工作,他給予我們完整的ctext語料庫。經過比較,我們計算得出的孔孟荀語料庫權重最高十大主題與SN結果差異明顯。具體原因并不清楚,因為SN文章沒有公布所有主題內容,也沒有描述運行TM的參數細節,我們只能估計差異明顯的原因可能在于作為測度主題結構相似度的基本單元的選取不同。另外,我們得出的十大主題更為全面地反映了語料庫涵蓋的內容,而SN的十大主題明顯缺乏語料庫中的字書、兵家、占卜、醫書的內容。當然,只有SN公布所有的主題內容,才可以要么確證要么推翻我們對SN下載語料庫缺漏內容的懷疑。相比我們的十大主題,SN十大主題之間的意義相差不大,界限不夠清楚。
參考文獻:
[1]Blei,D.M.,et al. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research 3,2003,(1):993-1022.
[2]艾倫和王小紅計算哲學組.Topic Modeling the Han Dian Ancient Classics[DB/OL]. Journal of Cultural Analytics,2017,(10).https://doi.org/10.22148/16.016.
[3]王小紅,科林·艾倫,浦江淮,等.人文知識發現的計算機實現——對“漢典古籍”主題建模的實證分析[J].自然辯證法通訊,2018,(4):50-58.
[4]漢典古籍[DB/OL].http://www.zdic.net.
[5](KANRIPO)Kanseki Repository[DB/OL].http://www.kanripo.org.
[6]Sturgeon. D. Chinese Text Project[DB/OL].https://ctext.org.
[7]艾倫和王小紅計算哲學組.新漢典主題模型(New_Handian)[DB/OL].2019,http://inpho.xjtu.edu.cn/New_Handian2/200.
[33]Waltz. D, Buchanan. B. G. Automating Science[J].Science,2009,(3):43-44.
[34]Schmidt. M, Lipson. H. Distilling Free-Form Natural Laws from Experimental Data[J].Science,2009,(3):81-85.
[35]King. R. D,et al. The Automation of Science[J].Science,2009,(3):85-89.
[36]Renner. R研究組. Discovering Physical Concepts with Neural Networks[DB/OL].Physical Review Letters, 2020,(1).doi: 10.1103/PhysRevLett.124.010508.
[37]Wang. C. etc. Emergent Quantum Mechanics in an Introspective Machine Learning Architecture[J].Science Bulletin,2019,(17):1228-1233.
[38]Nichols. R, Slingerland. E, et al. Modeling the Contested Relationship between Analects,Mencius and Xunzi[J]. Journal of Asian Studies,2018,(1):19-57.
[39]Slingerland. E, Nichols. R, et al. The Distant? Reading of Religious Texts: A “Big Data”? Approach to Mind-Body Concepts in Early China[J].Journal of the American Academy of Religion,2017,(4):985-1016.
[40]貢華南.從“形與體之辯”到“體與理之辯”——中國古典哲學思想范式之嬗變歷程[J].中國社會科學,2017,(4):128-148,208.
[41]Ian Matthew Miller. Rebellion,Crime and Violence in Qing China,1722-1911:A Topic Modeling Approach[J].Poetics,2013,(41):626-649.
[42]Dimaggio. P, Nag. M, Blei. D. Exploiting Affinities between Topic Modeling and the Sociological Perspective on Culture:Application to Newspaper Coverage of U.S. Government Arts Funding[J].Poetics,2013,(41):570-606.
[43]Saussure. F. Course in General Linguistics[M].La Salle:Open Court Press,1983.
[44]Blei. D. M. Probabilistic Topic Models[J].Communications of the ACM,2012,(4): 77-84.
[45]維特根斯坦.哲學研究[M].陳嘉映,譯.上海:上海世紀出版集團、上海人民出版社,2002.
[46]Churchland. P. M. Matter and Consciousness:A Contemporary Introduction to the Philosophy of Mind[M]. Cambridge:The MIT Press,1994.
[47]普特南.“意義”的意義[C]//陳波,主編.邏輯與語言.北京:東方出版社,2005.
(責任編輯 吳 勇)