文/趙薇
20世紀末以來,飛速發展的數據科學和信息網絡技術,越來越普遍地影響了人文知識的獲取、管理、分析、闡釋、共享和再生產等基本環節,深刻重塑了人文社會科學的方法基礎和研究形態。由人文計算(Humanities Computing)轉化而來的數字人文(Digital Humanities,DH)成為全球范圍內興起的知識生產范型。盡管數字人文的基本界定尚處于廣泛爭議和多元發展中,在中國,這一領域仍以其鮮明的實踐性特色,吸引了不同學科的學者投身其中,形成了跨學科、跨地域,甚至跨文化和語言共生的協作型研究社群。數字人文項目從無到有,相繼孵育成熟,紛紛進入頗為可觀的成果產出期。
中國大陸數字化和文獻計量的歷史,可追溯至20世紀80—90年代古籍數字化的先驅工作。這些工作充分借助紙本索引,為數字化查詢積累了經驗,尤其處理了早期數字化過程中的中文編碼和字符集受限等問題。錢鍾書先生早在1984年就開始在中國社會科學院倡導把計算機技術引入中國古典文獻的搜集、疏證和整理中。90年代中期后,隨著 GBK字符集擴展到兩萬多個漢字并可支持繁體,OCR技術成熟,互聯網興起,各種通用的電子文獻整理平臺應運而生。1996年,上海圖書館率先建成“中國古籍善本查閱系統”,隨后國家圖書館正式啟動“中國數字圖書館工程”。中文自然語言處理利用語料統計來建立算法模型,完成音素、字詞、句子、段落、篇章等不同單位上的詞頻統計、標注和分析等任務。2003年以后,機器學習在一些任務上的測評顯示出優于人工規則的效果。清華大學、哈爾濱工業大學、南京師范大學等相關團隊機構在漢語自動分詞、語義計算、文本分類、意見挖掘、實體識別等典型任務上有了重要突破,形成了一個個可持續發展的技術熱區,為后來數字人文中文本挖掘的研究面向積累了關鍵經驗。文史領域仍傾向于采取簡單易行的計量方法。如陳大康在20世紀80年代中期用耗時的人工統計步驟,對《紅樓夢》作者統一性問題進行再檢驗,反駁了陳炳藻利用計算機得出的結論等。
中國的量化史學悄然復興。蜚聲海內外的李中清-康文林團隊,自1979年起逐步建立基于八旗戶口冊和清代皇室族譜資料的“中國多代人口系列數據庫”。還有90年代初興起,由哈佛大學、臺灣“中研院”、北京大學合建,2007年正式對外開放的“中國歷代人物傳記資料庫”(CBDB);復旦大學歷史地理研究中心和哈佛大學共建的“中國歷史地理信息系統”(CHGIS)等。
2009年,“數字人文”第一次以今天的義涵出現在中國大陸學界。2011年,大陸首個數字人文研究中心落戶武漢大學。大陸學者開始有意識地發表相關文章,對圖書檔案情報和信息管理學界而言,數字人文將成為超越數字圖書館的下一個“大趨勢”。王曉光團隊對敦煌壁畫圖像語義描述層次模型的實證研究,包平團隊對農業物產類方志古籍地名識別系統的研究和建構,郭金龍、許鑫等對文本挖掘的初步探索,黃水清、王東波、陳小荷等關于先秦文獻的分詞、命名實體識別,以及多位學者使用聚類方法研究作者歸屬問題等都取得了令人矚目的進展。在傳統文史哲等學科,只有零星學者關注數字人文,2013年陳靜翻譯了蘇珊·霍基等人的文章,并對數字人文在英美的發展和爭論作了檢討性綜述。綜論性文章有陳剛《“數字人文”與歷史地理信息化》(2014),王濤《挑戰與機遇:“數字史學”與歷史研究》(2015),王兆鵬《建設中國文學數字化地圖平臺的構想》(2012),鄭永曉《情感計算應用于古典詩詞研究芻議》(2012),劉京臣《大數據時代的古典文學研究——以數據分析、數據挖掘與圖像檢索為中心》(2015)等。地理信息系統、文本挖掘、文體測量、網絡分析等方法與傳統問題結合,產生了一些頗有創建的應用個案,如許超《〈左傳〉的語言網絡與社會網絡研究》(2014),趙思淵《19世紀徽州鄉村的土地市場、信用機制與關系網絡》(2015),趙薇《“社會網絡分析”在現代漢語歷史小說研究中的應用初探——以李劼人的〈大波〉三部曲為例》(2015)等。
被視為標桿的“中國歷代人物傳記資料庫”項目由包弼德(Peter K.Bol)教授牽頭,經過10多年辛苦的元數據標注,為目前世界上最大的中國歷史人物傳記資料分析數據庫。臺灣地區在這一時期也經歷了由“數位典藏”向“數位人文”的轉型,由單純的資料檢索向更深入的文本挖掘思維進步。2012年“臺灣大學數位人文研究中心”的成立亦標志著臺灣地區數字人文學自主性的形成。
2016年起,數字人文在中國大陸進入加速發展的建制化階段,相關論文的發表量呈直線遞增趨勢。數字人文的基本內涵、應用實踐和未來走向獲得了圖博檔領域的高度關注,迅速成為當下最受歡迎的科際整合新方向。人文學者的參與度和熱情大幅提高,“方法共同體”初步顯形,網絡基礎設施建設和由研究性問題驅動的數字人文研究之間的分野漸漸清晰起來。數字人文的學術交流和出版活動日益繁榮。2016年起北京大學連續3年舉辦數字人文論壇,2017年清華大學舉辦“數字人文與文學研究國際工作坊”,2018年數字人文創研中心在南京大學成立。中國人民大學清史研究中心的“數字人文與清史研究工作坊”,中國社會科學院文學研究所2019年“數字人文時代的中國文史研究”工作坊,清華大學2019年“《數字人文》創刊儀式暨數字人文國際工作坊”等,均產生較大影響。2019年中國人民大學信息管理系牽頭建立校級數字人文研究中心,在圖書情報與檔案管理學科下設全國首個數字人文碩士點,北京大學的數字人文中心于2021年1月正式宣告成立。此外,南京農業大學、中南民族大學等多個高校擁有自己的相關中心。中國社會科學情報學會數字人文專委會和中國索引學會數字人文專委會先后成立,自2019年起負責召集、舉辦全國數字人文年會,評出年度優秀項目和優秀論文。
2016年起,戴安德、姜文濤在《山東社會科學》上主持“數字人文:觀其大較”欄目。2019年12月,清華大學與中華書局創辦中國大陸第一個數字人文學術刊物《數字人文》(Journal of Digital Humanities)。一年后,中國人民大學信息資源管理學院推出《數字人文研究》。
近年來機器學習有了長足進步,以深度學習為代表的數據驅動范式在業界取得了成功,人文學者開始希冀基于大數據的“計算智能”為傳統學術帶來翻天覆地的變化。在研究實際中,好的人文學者大都堅持“問題取向”,帶著強烈的問題意識來構建數據集,尋求能夠契合研究性問題的一兩種主要技術手段,如此便在處理人文問題的同時,也完成了一項應用性的技術探索。
文本挖掘是“遠讀”海量文獻時采用的一系列技術“集合”的統稱,早期應用中有代表性的是對古代作品的作者歸屬研究。近年來的文史研究中,對文本挖掘倚重較多且能行之有效的,是金觀濤、劉青峰、鄭文惠、劉昭麟、邱偉云、梁穎誼等的“數字觀念史研究”。他們以“中國近代思想史專業數據庫(1830—1930)”為對象,運用詞頻統計、自然語言分布定律、詞共現網絡等方法,從海量語料中自動生成關鍵詞群,對詞群和網絡所表征的價值體系進行歷史語義學的描述,以之勾勒近現代思想觀念的結構轉型和演化趨勢。此外,高劍波、趙思淵、胡恒、王濤、申斌等都取得了引人注目的成績。臺灣大學項潔團隊近年來注重以基于特征的算法,發掘巨量文檔間的多重知識脈絡和關聯結構,如對兩部官修類書和淡新檔案的研究。南京師范大學先后建設了《左傳》《史記》《資治通鑒》等語料庫平臺,實現了詞語概念的本體化檢索,可用于更精準的數字人文研究。無監督的聚類和分類算法最近被用于古代文類和類書,甚至現代文類的研究,借此與一些文學史命題形成對話。前者如諸雨辰、李坤、胡韌奮對《漢書·藝文志》中的存世文獻進行自動聚類實驗,后者如芝加哥大學文本光學實驗室與上海圖書館合作的“民國時期期刊語料庫(1918—1949)”項目,采用樸素貝葉斯分類器、層次聚類和網絡分析等多種方式,對近現代期刊中“新文類”的構型因素進行多層面研究。
深度學習和大規模語料結合,特別是近來預訓練模型(如BERT)的提出和發布,使得“大數據預訓練”加上“小數據微調”的做法在中文古籍處理方面擁有眾多應用場景。清華大學自然語言處理與社會人文計算實驗室曾以80余萬首舊體詩語料和標注知識庫,來訓練專門的詞匯句法模型,研發“九歌人工智能詩歌寫作系統”。北京師范大學中文信息處理團隊利用BERT成功提升了命名實體的準確率,開發古詩文斷句和多元古籍標注系統。中華書局古聯公司、龍泉寺和北京大學也上線了高效的自動標點和專名識別系統。清華大學鄧柯團隊的無監督中文文本分詞方法TopWORDS系統,可以用極低的人力成本從海量經典古文獻中快速建立專名索引。
社會網絡分析是很多關系型數據庫的方法論基礎。在“中國歷代人物傳記資料庫”中,各類實體間的關系經過人工編碼,依靠算法來衡量,可在瞬間獲得歷代人物的生平資料,對其所置身的親屬、官僚、師門、著述、通信等社會關系一目了然,如包弼德、魏希德對宋代士人網絡的研究。嚴承希、王軍從CBDB中抽取數據,設計算法來表示宋代政治黨群網絡。徐永明利用數據庫,將湯顯祖的社會關系準確投射到地理坐標圖上。王濤充分利用《德意志人物志》中人物的生卒地信息,繪制出15、18世紀德意志人物的“出生地圖”和“死亡地圖”。陳松對現存宋代地方官學碑記的作者進行網絡分析,揭示宋代四川與其他地區在思想觀念交流上的結構性鴻溝,以及理學思想在官學碑記寫作中與日俱增的影響力。嚴程建立了以顧太清為中心的閨閣詩人交游網絡,解釋了“秋紅詩社”的“中斷之謎”。許超等在《左傳》標注語料庫基礎上,將“人物”與“事件”實體通過共現網絡表示出來,發現了春秋網絡的小世界性。
圖像與視覺化是數字人文研究不可或缺的重要手段。向帆、朱舜山采用“中國歷代人物傳記資料庫”中的家族關系數據,結合上海圖書館的家譜數據和可視化、3D技術及其交互性,建構中國古代皇室家譜巨大的樹狀立體網絡。王軍、李曉煜的“宋元學案知識圖譜系統”將《宋元學案》中的人物、時間、地點、著作以及它們之間的復雜語義關系提取出來構造成知識圖譜。由萊斯大學Tani Barlow和南京大學陳靜合作的“中國商業廣告數據庫”,對海量商業廣告進行數字化和元數據標注,結合文本挖掘及圖像自動聚類工具,完成廣告內容和圖像的量化分析,并將其放置于其他信息關聯的節點上,來追蹤廣告業發展與中國近現代社會思想之間的關系。
歷史地理信息化與空間人文研究可看作數字人文中技術性最強、科學化程度最高的分支體系。“中國歷史地理信息系統”(CHGIS)使用典型的矢量化數據,以點—線—面的組合來描述現實地理世界信息,對后續歷史地理信息化產生深遠影響。2013年后,復旦大學、首都師范大學和陜西師范大學、云南大學等均發布了“絲綢之路”的地理信息平臺。其他獨立的平臺還有南京大學陳剛團隊于2006年開發的“六朝建康歷史地理信息系統”,上海交通大學曹樹基主持的“中國歷史地圖地理信息平臺”等。南京師范大學“華夏家譜GIS平臺”,致力于以通用型GIS數據模型和標準來處理歷史文獻,將家族、人口、遷移等多方面問題相關聯。中國人民大學歷史地理學團隊借助“《縉紳錄》數據庫”,發揮GIS在清史研究中的功用。中南民族大學王兆鵬團隊“唐宋文學編年地圖”將GIS、電子地圖與唐宋作家作品編年信息深度融合,提出“系地”的概念。浙江大學徐永明主持的“學術地圖發布平臺”,支持用戶個人上傳數據,生成學術地圖,包括歷史人物行跡圖和各類實體定位查詢圖等,提供了一個友好、專業的信息共享環境。臺灣“中山大學”簡錦松教授倡導的“現地研究”、何捷在天津大學籌建的SHAPC Lab,近年來貢獻了頗多開創性成果。
近年來信息管理學界提出了一套“智慧數據”的解決方案,為鋪設全面的人文網絡基礎設施,特別是提升文化遺產保存和研究領域的價值提供了保障。武漢大學王曉光團隊與敦煌研究院合作,圍繞“敦煌智慧數據”建設和敦煌文化遺產保護、研究和傳播,建構了敦煌壁畫的圖像增強展示和敘事系統。中國人民大學馮惠玲團隊的工作以“高遷古村數字記憶網站項目”為代表,為用戶提供了一個可檢索和呈現、富含語義關聯的沉浸式知識庫,完成了多種文本的再媒介化和交互式詮釋。
數字人文學界已經普遍認識到,一方面,有必要盡快確立技術和元數據的統一規范,實現全國乃至全球范圍內的數據、技術資源共享;另一方面,要為專業人文學者賦能,增強大型通用研究平臺的建構能力。其代表,如上海圖書館的“歷史人文大數據平臺”,整合了“中國家譜知識服務平臺”“中文古籍聯合目錄及征詢平臺”“人名規范庫”“中國近代報刊庫”等前期資源,建立起有關人物、機構、事件、物品、時空、領域概念等詞表體系及知識圖譜,實現了對掃描圖片的互操作管理,數據中臺和算法中臺具有共享數據和計算的能力。與此同時,劉煒、夏翠娟、王曉光、陳濤、張春景、張磊、黃水清、朱慶華、王東波、趙宇翔、許鑫、包平、李斌、歐陽劍、趙生輝、張衛東、裴雷、聶華、王麗華、張衛東、左娜、徐晨飛、張永娟、朱鎖玲、李欣、單蓉蓉等諸多學者在基礎設施的設計和理論方面都發表了奠基性成果。朱本軍、張久珍等較早意識到國家基礎設施建設的文化戰略意義,敦促中國學者牢牢把握數字基礎設施建設的主動權,同時吸引海外學者進駐參與。臺灣大學項潔教授主持的“Docusky數位人文學術研究平臺”,整合了個人文本的格式轉換、標記與建庫、探勘與分析,以及視覺化觀察、GIS整合等數字人文的工具模塊,致力于為人文學者提供個人化的資料儲存和分析平臺。此類平臺也提供API接口,可以獲得外部資源,讓人文研究者不必再步步仰賴信息科技專家,自主且自由地融合數字科技進行人文研究。
中國古典文獻學的資深學者們則就當下古籍由數字化向數據化再向知識化的進程提出激蕩人心的宏大構想。清華大學劉石、孫茂松教授提出建設“中國古典知識庫”(CCKB)的構想,即以20多萬種全部存世古籍為基礎,輔之以相應的工具,在保障古籍文獻內容完整性及內部邏輯性的基礎上突破文獻原有結構,通過實體及相互關系對文獻進行深層組織和知識管理。
2019年以來,適逢中國教育部力推“新文科”建設,數字人文在中國被寄予厚望。數字人文帶來了材料和議題的擴展,一些在前數字環境下無從觀察的現象、難以想象和處理的議題得以展開。在學科區分日趨細密的今天,數字人文重新喚起人文學者思考和解決“大問題”和“綜合問題”的雄心。在數字人文的背景下,學科的固化、社會科學與人文學術間的壁壘和禁忌將被進一步破除,量化實證的方法將進一步得到規范化的運用,跨學科、多學科協作的知識生產方式將重塑人文社科領域。中文數字人文的推進有望觸發中國人文學科在知識基礎、認識論、方法論和評價體系等多方面的反思,一個學科大碰撞大融通的時代終將來臨。
媒介變革使得整個學術界進入“后數字社會”,開放獲取的學術出版和發表方式,將逐步影響學術生產方式。文獻基礎設施已經深入人文學科的每個分支,新時代的學者人人都要成為懂數據的文獻學家。對單個命題有意義的自建專題數據集將與大數據對接,能夠滿足多樣化的研究需求,可以展開有問題針對性的研究。同時,這些小型數據也將被使用者公開,源源不斷地匯入全球數據海洋,在一種開放、共享的數字情境下,承擔起連接更廣泛的公共文化的橋梁作用。未來將有越來越多的文獻數據庫按照語義單元來組織領域知識,能夠模擬領域應用的知識環境,促使研究者徹底擺脫紙質文獻的存儲和利用思維,實現真正高效、共享的資源“數據化”,促進文獻學的“現代轉型”。
從另一方面說,數字人文是將對象和歷史材料數字化之后,在虛擬世界里建立起一套相應的映射和模擬系統,可以視之為一種典型的“再現實踐”。因而,計算不可避免地具有“壓縮效果”,數字人文無法自動獲得批判性的維度,由“算法優化”主導的諸多數字人文研究,會將其進一步抽離具體社會、文化甚至技術語境。在“數據驅動”與“知識驅動”、“問題意識”之間,人文學者還需要把握平衡點,發展作為一種闡釋和批評手段的數字人文,使其具有反思性的向度。在這方面,一部分人文學者作出了清晰的思考,認為數字人文須超越“工具角色”的階段,反對數字人文的學科化,或將主導權交給僅僅在技術上占有優勢的學科,提倡開放邊界和“復數的數字人文”(陳靜,姜文濤,但漢松)。未來應有更多的量化成果以“計算批評”的面貌出現——人文學者能夠從自身的領域知識和細讀體驗出發,巧妙地利用數字工具設計實驗,和數據驅動的結果交流對話,從而達到破除算法黑箱,揭示現象背后的文化邏輯的目的(趙薇)。同時,人文學者能夠有效參與到搭建、部署、運行和評判復雜的計算和實驗的系統工作中去,而不是“外包”給技術團隊,如此才不會割裂實踐的各個環節。從現實來看,踏實投入實踐也是避免數字人文的泡沫化和過分虛熱的唯一有效辦法。
必須承認,數字人文絕非無所不能,總的看來,中國數字人文在很長一段時間內都將處于探索階段,它所面臨的問題也是顯而易見的。其一,中國大陸的數字人文學術進展到今天,搖旗吶喊者居多,但真正投身實踐的并不多。其二,缺乏規范,數字人文的標準和共識亟待形成。已發表的量化成果也面臨嚴重的評價問題。在問題定義、數據集建構、技術實現、問題求解和結果評價諸環節都缺乏規范化的方法。其三,數字人文的評價體系建設任重道遠。其四,來自國家、社會的決策和支撐體系也需要機制創新。其五,對于大量潛在的自發研究者來說,發展“微型數字人文”可能是別無選擇的選擇。