章貝格
(湖南工商大學,湖南長沙 410205)
從“云”概念到“元宇宙”概念,現代技術的發展使得網絡正在無限逼近它最終的內涵:互聯。網絡這一新媒介作為人們處理世界的認識論和方法論,已經悄然融入眾多人類智識的底層邏輯當中。當映射到人文科學中時,這一點就體現為數字人文方法論的崛起。
數字人文(digital humanities)是從人文計算(Humanities Computing)發展而來的一個概念。人文計算著重于將人文科學中的量化研究思路用系統化的計算機信息技術優化實現。雖然這一階段也已經在事實上衍生出了計算機技術和人文的交叉學科,但此時其研究對象僅囿于數據。公認的人文計算之始——1949 年意大利基督教神父羅伯特·布薩在IBM 公司幫助下,利用計算機技術對1 100 余萬字的阿奎那著作合集進行了拉丁詞匯索引編制[1]——人文計算僅將技術代入為工具而非思路中的經典例證。
20 世紀70 年代,國際文學與語言計算協會(The Association for Literary and Linguistic Computing,ALLC)的設立與《文學與語言學計算》(Literacy and Linguistic Computing)的創刊,不僅給交叉學科人才深化人文計算提供了一個集中陣地,還幫助數字技術應用在人文科學的各個環節,尤其是思路和邏輯上的不斷深化,并由此推進了人文計算到數字人文的轉型。數字人文在國際上目前公認的較經典定義之一是圖書情報學專家John Unsworth 在2016年提出的本體實踐論,他認為,數字人文是一種代表性的實踐和一種建模的方式,或者說是一種擬態、一種推理、一個本體論約定。武漢大學王曉光教授則基于近年基礎理論的新變對數字人文作出了更開放的界定,認為研究背景、人員和內容上的豐富性給數字人文提供了不斷發展變動的跨學科研究范疇[2]。也就是說,現有的數字人文概念可以理解為以下幾個方面:一是研究領域,即針對計算與人文科學之間的交叉領域進行學習、研究、發明,以及創新的研究領域;二是實踐做法和通用方法論,即運用了數字技術或面向可數字化的研究對象的人文科學研究路徑;三是一種社區,即數字時代的人文宇宙。從人文計算到數字人文,一言以蔽之,是一種從方法到方法論的升級。
選取Web of Science(以下簡稱“WOS”)核心平臺上的ESCI、SSCI、A&HCI、SCI-E 等英文數據庫和CNKI 平臺上的期刊、報紙、會議等中英文數據庫,以“‘數字人文’OR‘人文計算’OR‘digital humanities’OR‘humanities computing’”為檢索式在主題(TOPIC)字段進行檢索,分別得到了2 000 余篇中文文獻和6 000 余篇外文文獻。文獻發表數量的時序變化是衡量該領域學術動態的重要指標。從年代分布來看,受到上面提及的人文計算發端事件的影響,1973 年發表的首篇相關文獻《意大利的人文計算活動》(Humanities Computing Activities in Italy)[3]對截至當時的意大利人文計算活動進行了總結分析;之后20 年內的零星文獻也大致延續了上面的內容,集中在人文計算項目的實踐描述上; 從1990 年開始,文獻發表數量開始了低平的上升,這體現了伴隨著第四代計算機的發明,人文計算研究逐漸獲得重視并緩慢發展的過程,期間的英文文獻中也首次出現了“數字人文”一詞;到了21 世紀初,數字人文在以“文本”或“圖像資源數字化”為主題的文獻中迎來了短暫的發文高峰,其中圖書情報學作為數字人文的基礎學科,在這一時期的文獻中占有相當的比重;2011 年,不僅國際性的數字人文機構日益增多,中國的首個數字人文研究中心也在武漢大學成立;這之后,數字人文徹底取代了人文計算在這一交叉學科領域的話語主導權,論文數量也呈現爆炸式增長;2020 年之后,兩個平臺上相關文獻的年發表數量都始終保持在550 篇以上; 度過理論新聲的熱度爆發期后,近兩年相關文獻增速在兩個平臺上均明顯放緩,但CNKI 數據AI 仍對未來一年內相關文獻發表數量做出了正面預測。整體來看,中文文獻在兩平臺合計占比雖然逐年緩慢提升,但始終低于25%,這體現了國內數字人文研究起步較國外晚、成果較國外少的事實。
從學科歸屬上來看,許多文獻直觀地體現了數字人文的跨學科屬性。計算機科學、圖書館學、世界文學分別占到了文獻學科屬性的前三名。對它們進行人文計算和數字人文的分類可以得出,前者更注重計算機等數字技術類研究,后者則更關注人文主題的技術參與。同時,相較于和數字人文一同成長起來的國內研究,自人文計算發端的國外研究跨學科程度更高: 外文文獻的全文有效詞按詞頻從高到低排列是計算機技術、圖書情報、藝術人文、教育、語言學、歷史、工程、社會等,其詞頻的標準差約為283;國內相關文獻關鍵詞不僅在語義上互相接近,詞頻標準差也遠高于國外。也就是說,國外文獻詞頻離散程度更低,各學科研究數量分布較國內更為平均。
文獻的共被引分析可以顯示該學科發展的關鍵知識節點。WOS 平臺中被引頻次超過100 的文獻多發表在數字人文萌芽后期,其中被引次數最多的是時空地理信息技術應用上的里程碑《人造夜空光源下的新型世界地圖》(The new world atlas of artificial night sky brightness)[4],被引高達740 次(2023 年10月前數據),其次則是2020 年討論疫情時代在線教育的 《新冠肺炎大流行與在線學習: 挑戰與機遇》(Covid-19 pandemic and online learning: the challenges and opportunities)[5],再次是文學方面的文本挖掘、語言學方面的語料庫語言學、歷史學方面的分析重建、數字圖書館和網絡數據庫等文章,這體現了近年來世界范圍內的數字人文學科熱點。在我國國家社科基金項目中,則是數據庫建設、檔案管理、圖書情報等基礎性主題占據著近年的相關熱門。
另外,運用Cite Space 分析WOS 平臺上被引次數超過50 次的66 篇文獻及其引用的專著,可以得到數篇中介中心度達到0.3 以上的高關鍵文獻。中介中心性指的是一個結點擔任其他兩個結點之間最短橋梁的次數。一個結點充當“中介”的次數越高,它的中介中心度就越大。在Cite Space 中,中介中心度超過0.1 的就已經被稱為關鍵節點了,這類文獻實際上組成了數字人文的基礎理論構架,其中包括闡述計算機技術對人文科學重要意義的 《人文計算》(Humanities Computing)[6]; 介紹數字人文的應用與爭議性概念、討論了藝術與人文領域跨學科協作技術的《理解數字人文》(Introduction: Understanding the Digital Humanities)[7]及前述兩篇最高被引文獻等。
總的來說,數字人文在國內外都依舊處于學科建設的高速成長階段,地理信息化和數字敘事是數字人文當前最熱門的研究課題。以上綜述實際上遵循了圖書情報學中量化文獻的思維,借用目前已經較為常見的文獻管理工具達成,是數字人文的簡單應用,下文嘗試在技術與理論建構的基礎上,進行具有針對性主題的數字人文方法論實踐。
總的來說,數字人文的方法學基礎是映射和模擬。映射指的是將某一人文學科中的研究資料經過數字化處理后在虛擬世界中建立起相對應的系統;模擬指的則是學科邏輯在虛擬世界系統中運行的過程。John Unsworth 提出了“七原語”說(發現、注釋、比較、參考、抽樣、說明和表示),后來被歐洲學者Tobias Blanke 和Sheila Andering 等規范為“五原語”說(發現、搜集、比較、發布和協作)[8],用于解構上述過程,并對數字人文方法共同體進行抽象化和理論化。將這些原語和實際技術手段對應來看時,就能得到數字人文的技術體系。
一是數字化技術,即數字人文的基石——研究對象的支撐技術。值得注意的是,建設人文數據庫時,所選用的原始資料本身就是價值密度較高的,甚至是經過幾千年時間淘洗的珍貴資料,這使其在根本上區別了數字化技術應用最廣的范疇——大數據。
二是數據管理技術,這一類技術源于語言學語料庫的建設邏輯。這是指所有數據資料在收錄之后,能夠依據一定的編寫規則,自動標識其中的有效單元,并以語義單位的形式析出。這也使得自動分類、歸納的數據庫功能得以發展,因此在實質上是一種管理技術。
三是數據的分析技術,也是數字人文特有的基于數據的一套研究范式。如詞頻分析、共現分析、時空分析等[9]。前沿數據分析技術甚至在朝著機器學習、智慧算法的方向努力[10]。這不僅包括機器對人力的替代性學習,如代替人類進行繁重、危險的工作等;體驗感的優化,如更人性化、交互性的研究體驗等;更存在著基于遠超智人計算能力的虛擬、再現,甚至預測等功能場景。
在技術的基礎上,得以對數字人文進行包含創想的理論架構。首先,傳統人文的結構化和再造。文本編碼大大提高了數字文本的傳播和研究效率。研究對象性質的轉變所帶來的影響是冰山—藍海式的,一旦文本的“可計算性”得到充分釋放,人文研究范式的顛覆將指日可待。資源富集和知識重構可能刺激人文科學期盼已久的文明升級拐點的到來。其次,人文研究的增強與拓展,這指的是海量的單維資料在被復合著地展現出來的同時就已經被接收,這一特性實現了研究過程和結果展示的“通感”。智能補充關鍵幀、極具沖擊力的場景重建和增強交互藝術給人文對象賦予了更加鮮活可感的生命力,這能夠極大幫助打通關聯分析的“任督二脈”,促進學術研究的升級。
以上許多成果的直觀性延伸都仰賴于可視化研究這一數字人文范疇下的具體研究范式。可視化研究是建立在計算機技術基石上的一種新型研究范式。它是指把數據、信息或知識轉化為某種可視的表現形式,以獲得對原始資料更深層次認識的過程[11]。借助數據分析、圖像處理、人機交互、深度學習、模擬運算等技術,可視化研究把紛繁的內容輸出為多維、直觀且重點突出的易感知系統。
通過數字人文中的可視化方法,研究主體能夠更充分地對研究對象運行“處理—展示—再處理”的循環,從而對每個階段的研究結論作出人腦和計算機兩重系統的深化分析,幫助推進研究成果從量變到質變的轉化。比起傳統研究,數字人文研究方法具有區別于前者的內生的必然特點,如過程依賴于計算機技術、形式上可讀性強、更適應讀圖時代等,但作為兩種平行的范式,這兩者在應用邏輯上區別更甚。
為了更清晰地比較數字人文方法與傳統研究方法的區別與聯系,下文試以明刊百回本《西游記》中的孫悟空形象源流分析作為研究對象,結合數字人文的前沿熱點地理信息系統和可視化研究范式,進行數字人文應用實踐。
首先需要明確的是,從南宋《大唐三藏取經詩話》開始到元代《西游記雜劇》這些前本,都與明代百回本在主角團隊設置和故事情節上有著明顯的傳承甚至照搬的關系。因此,這里對孫悟空形象源流的探討應當拋開這些關系密切的已成書版本,而將重點放在虛構人物孫悟空的從無到有是怎樣發生的這一疑問上。
為了研究這只富有神怪屬性的猴子從哪里來、走過哪些路才最終成為西行故事的主角,就需要在《西游記》成書前的整個人類文化史中搜集它的痕跡。在這里,傳統研究者們如魯迅和胡適等,僅依賴于自身強硬的文獻功底和分析能力,就分別在印度史詩和《山海經》 佚本殘卷中摸索出了孫悟空模糊的前身。這就體現了人文學科中傳統研究范式的幾個顯著特點:一是受制于研究主體質素;二是在存在假設的前提下,再抓取論據而完成理論,有著某種類似先驗的內涵;三是研究資料的一貫性,這里指的是,為了回答由文本《西游記》提出的問題,選取了同為文本的研究資料,輸出了文本式的研究成果。長久以來,這些特點都使得人文學科對于疑問的解決和提出,都存在著極高的門檻,人們只有也只能在大師們已半完成式的成果上徘徊。
而一旦引入數字人文,這種限知視角就能被瞬間拓寬。首先,海量的古籍等其他文獻資料被數字化存儲和展示出來,幾次點擊就能使人手捧歷史結晶,超越原先“站在巨人肩膀上”的高度。如在不同平臺中檢索“猴+神怪or 傳說”,經人工選擇與EXCEL 簡單處理后,就可以得到最早從公元前300 年左右開始,到明代百回本《西游記》成書結束這一時間跨度中,包括11 個國家文獻在內的至少50 種猴怪傳說,并將它們按照時間順序進行排列。其次,數字人文獨有的多維特性使其可以融合時間與空間信息,貫通歷時研究與共時研究。在本案例中,第二步是引入簡易的地理信息系統,將文獻信息(最早發現時間、最早發現地點、敘事要點等)按地點標注在古代中國對外交流路線圖上,由此驗證了印度哈奴曼故事從東南亞—泉州口岸傳入中國的可能性。另外,對于哈奴曼故事在漢文文本上從5 世紀到12 世紀的漫長空缺,在上面地圖中顯示的該傳說可能的傳播路徑周邊進行印度相關文獻和景點等歷史資料的搜尋,可以發現在這一空缺期間,相關城市存在包括哈奴曼雕像、壁畫在內的眾多佐證,足以證實哈奴曼故事在3 世紀末傳入中國后并未失傳。這體現了數字人文突破了文本的壁壘,在資料形式上的豐富多樣性。最后,將文獻整理并繪制系譜圖,可以得出孫悟空形象囊括4 個起源大類:受罰猴、佛學猴、哈奴曼、好色猴。之所以這樣劃分,是因為在譜系圖中可以明顯地看出,這4 個大類在唐末以前幾乎是各自平行的,到宋代它們開始產生各種交叉,到了南宋末年已經雜糅難分。這有力地否定了孫悟空形象的單源流說,再次驗證了數字人文方法中的可視化研究在直觀度及其效用上的一騎絕塵。
由以上分析可知,可視化研究在某一案例中至少應當包括分析和展示兩個環節的功能。雖然囿于本文的紙本性質,無法對上述可視化環節進行完整展示,但仍可以通過該案例的研究思路與過程,窺見數字人文的新穎魅力。同時,其中反復運用的推理、聯想、選擇等方法亦是傳統研究的運用。可以說,數字人文不能脫離傳統研究的思路和手段而存在。
盡管數字人文的優勢顯而易見,但在其發展中困難同樣比比皆是。目前,在數字人文的前端設計中,數據采集的部分技術很難達到人們期望的高度。這不僅體現在現有機器學習模式的欠缺中,更體現在傳統資料數據化難、傳統資料與現代系統的對接難。人們過去高度抽象化了的資料,現在需要用符號標識出來,這不僅是一套映射語言的建設問題,更是人類自古以來感性與理性的爭斗中提出的永恒難點。如何分類細膩的感情色彩?如何量化標準各異、形式不同的原始資料? 數字人文可能在未來的很長一段時間內都將默認著其量化的內核帶來的與傳統研究范式相比無限逼近卻永遠難以達成的研究飽滿度。
另外,不得不承認的現實是交叉型人才數量稀少,使得這一方法論融會貫通的成本指數級膨脹著,收效卻相對寥寥。人文學界對新技術的理解、掌握和運用缺乏足夠的認識,而信息工作者的人文素養培訓也同樣長路漫漫。
值得注意的是,在人文學科的研究中,數字人文本身不能是唯一的、單純的目的,而應當至少作為一種工具或手段參與著研究。這就是說,如果一項研究止步于新奇的學術范式的應用,那么再華麗的技術也只能成為研究空洞的“遮羞布”。伽達默爾認為,如果缺乏對方法論的反思,就可能導致強行將某種有條件的因果代入終極理性實現路徑的錯誤,這一邏輯在數字人文的討論中也是顛撲不破的。盲目崇拜技術方法論,放任數字科技和人文學術的聯姻向著“輕文字、重圖像,輕思想、重制作,輕創作、重編碼”的分支走去,無疑會使人文學科拋卻批判性和試驗性,令自身成為過度偏離傳統的分支。回到上文提到的可視化案例,可以發現案例中所有被可視化的對象無論進行了幾重信息的疊加,都能被輕易復制。從資料到編碼再到資料,僅從數字人文的第一步——存儲來看,其中轉換的每一步似乎都已然消解了專屬于上一種載體的特殊體驗,驅散著人們從印刷時代就已漸隱的靈暈,驅散著人文中人的體驗的在場。數字技術在事實上的載體中心主義斷絕了意義的延伸,將解釋和韻味固化了。這樣一來,不僅是普遍意義上面向載體的人的體驗在一定程度上被破壞,研究主體自身的痕跡也被部分隱去了。
數字時代實現了某種意義上的“談笑有鴻儒,往來無白丁。”扁平化的數字對象指數級地拉近了大儒和具有基本理性的普通人之間對一般結論獲取程度的差距,但卻并未能以同樣的效率縮小二者之間認知積淀的區別。罔論文本資料的數字化甚至并非剝離感性體驗的簡單化,反而可能會因機器體驗的滲透而在未來呈現為更加復雜的人工智能倫理問題,并同時持續架空著智人之所以為人的思維感受。
上述人文精神的損傷能否追回? 人們或許可以先退一步,承認數字人文在方法論上不割裂成兩個維度,而是渾然一體的運用,并不是一個前提要求,而是一個終極目標。向著這個目標,數字技術與人文方法必須展開對話而不是互斥。研究者們需要在兩者的徘徊間找到銜接和融合的可能,因為“數字人文的收益絕不僅從數字技術或傳統方法的單一途徑中獲得”[12]。帶著這一底層邏輯再回到前述疑問,就可發現,載體的變遷因為至少保有著操作者這一層面的人文要素,而不可能成為純數字化的過程。在不同平臺間的遷移使得文本雖然打上了對應技術模式的烙印,但也創造著真正意義上的“眾聲喧嘩”,在一個動態開放的文本系統中,人們甚至能夠通過技術可倒溯的特性自然地限制“狂歡化”的弊端。通過數字技術有痕的脈絡,人文得以在保有自身闡釋邊界的同時,免于損傷文化共享的空間。由此,所謂數字人文的極端擁躉對傳統人文的貶低挫傷了人文精神甚至是人類精神文明的名譽這一說法即被證偽了。
人文在數字人文中不僅是目的,更是頂層設計。研究者們只有用數字技術吸納人文感性,在研究中突出人文本位,才能不丟失通往未來云端世界的“杰克的魔豆”。事實上,就連自然科學本身都在汲取人文的思維,將模糊、偶然,甚至是哲學納入學科體系當中。2022 年,諾貝爾物理學獎頒發給了證實量子糾纏和貝爾不等式的三位物理學家,并在頒獎禮中提到了中國“墨子號”量子科學實驗衛星成功實現的量子跨洲通信給這一領域帶來的寶貴資源。由此,20世紀20 年代海森堡提出的違背形而上因果律的“不確定性”理論得到了肯定,科學通過驗證哲學而產生了革命般的推進。
藝術是文化的自然意識,元宇宙時代數字人文藝術的爆發就是數字文化大繁榮的縮影。進入到元宇宙時代后,物理世界的物質性約束越來越少,在純意識的藍圖中,哲學和技術的終極在虛擬這一性質上得到互通,思想和文化將成為人們最后真正的稀缺資源,這也就提示了數字人文超出工具方法論的意義。在數字人文中,更珍貴的永遠是人們最終希望達成的人文維度,人們因發現了這樣一條復興人文學術的全新路徑而興奮。盡管人文學科過去推崇的勤奮、淵博和洞見等品質的確都已或多或少地被現代技術奪去了光輝,但筆者相信,這反而能夠倒逼研究者們堅持人文本位,強化研究主體地位,發揚從傳統研究中繼承下來的思維和精神,挖掘數字人文研究路徑的更優可能,在自我感動的案牘勞行和機械復制的低質成果之廢浪中淘取到真正的學術黃金。