王秋云,龍 歡
(湖南圖書館,湖南 長沙 410000)
古籍數字化是指以古籍文獻保護與利用為主要目的,利用數字化掃描與輸入技術、OCR光學識別技術、字處理技術、網絡技術、智能化處理技術等現代信息技術對古籍進行加工處理,使其轉換成計算機可識別的字符[1—3]。我國古籍數字化已經歷了40余年的發展,在古籍數據庫建設、數字化技術等方面形成了大量的研究與實踐成果[3],有力地支撐著古籍的檢索、查詢、閱讀、標注等需求。但隨著古籍研究需求的持續深化,傳統古籍數字化成果在助力古籍研究與利用等方面也暴露出一些不足。一是古籍文獻數字化深度不夠。以古籍保護為主要目的的影像古籍數字化產品仍占較高比例。根據相關統計,我國現存古籍約20萬種,其中,利用掃描技術形成的影像古籍數字產品有8萬種,而文本數字化的古籍產品僅有3—4萬種[4—5]。影像古籍數字產品是古籍原件的電子化直接代替,難以支撐細粒度的全文檢索、主題檢索等高級檢索方式。二是當前古籍數字化對古籍學術研究的支持力度不足。從古籍全文數據庫來看,仍以非結構化數據存儲為主,以全文檢索為主要知識獲取方式,無法實現文本分析、規律發現與知識提取等古籍文獻深度挖掘與利用[6—8]。中國社會科學院教授鄭永曉曾指出:當前古籍數據庫發展面臨的主要瓶頸是除全文檢索外,無法支撐學者完成其他工作[5,9]。三是古籍文獻內容挖掘有待進一步深入。目前,古籍數字化仍以古籍掃描、古籍文字識別與錄入技術研究為主,大數據技術、人工智能與古籍數字化深入融合的切入點并不明確[10—12]。
數字人文是在計算機技術和網絡科技普及的基礎上,以多媒體表達為輔助,借助各項新興技術支持開展的以人文學科為對象的新興領域,是對傳統人文學科在數據信息時代的自然延伸與不斷創新和發展[13]。從本質上來講,數字人文是以新技術為手段,挖掘古籍、檔案、文獻等傳統資料中的新觀點或對舊觀點的數據化驗證。數字人文理論與技術融入古籍較早,此類研究最初體現在紅學研究領域。之后,古籍領域的研究者開始探索將數字人文的理論與技術應用到古籍數字化工作中,延伸古籍文獻的價值[14—18]。為進一步討論數字人文對我國古籍領域的意義與價值,筆者從古籍數字人文研究與實踐2個方面對古籍數字人文相關理論研究與建設實踐進行系統梳理與分析。首先,從研究趨勢、研究影響力、合著情況以及研究主題等方面揭示我國古籍領域開展數字人文研究現狀及特點;其次,結合古籍數字人文實踐,從建設理念、應用技術、人才結構與服務模式4個方面研判我國古籍領域開展數字人文的實踐特點;再次,立足當前古籍數字化工作開展情況,提出下一個階段古籍領域深化數字人文應用的工作路徑。
當前,部分研究學者從技術視角出發,將古籍數字人文理解為古籍文本數據化、古籍數據的可視化,未體現數字人文對古籍研究的價值提升。為更加全面地揭示古籍數字人文的研究與實踐,本文將研究對象聚焦為應用數字人文技術,挖掘古籍文獻中新觀點或驗證已有觀點的研究以及技術手段。筆者以中國知網為檢索數據源,設置檢索詞為“古籍”“數字人文”,采用組合檢索的方式,時間與應用領域不限。獲取文獻后,對文獻的來源、內容進行分析,剔除不相關文獻,最終獲得目標文獻28篇。
研究文獻按時間分布可直接反映出該方向的發展趨勢(見圖1)。如圖1所示,古籍領域開展數字人文研究于2016年起步,雖然后續發展中有波動性下降,但整體呈現出明顯的上升趨勢。結合發文期刊、研究內容等來看,一是古籍數字人文具有較強的發展潛力。古籍數字人文論文超過半數發表在《中國圖書館學報》《圖書情報工作》《圖書館學研究》等核心期刊上,反映出古籍數字人文雖然研究起步較晚,但表現出了一定的研究活力與研究潛力,形成了新的學術增長點。二是結合內容分析,先前古籍數字化研究學者多關注古籍掃描、分詞、檢索等技術,以古籍保護為主要目的。2016年后,部分研究逐漸從古籍數字化的視角中逐漸脫離出來,向利用數字人文挖掘古籍文獻價值的“增強古籍研究”階段邁進,值得更進一步的關注。

圖1 古籍數字人文研究論文發表趨勢分析
論文被引數是指該論文被其他論文引用的次數,可直接體現出論文的影響力。研究論文被引數對考察該領域的研究質量和研究特點具有重要意義。筆者統計了古籍數字人文研究論文的總被引數、總下載數、篇均被引數、篇均下載數等指標,通過分析上述指標考察古籍數字人文研究影響力。同時,表1將其與古籍數字化研究高被引論文(前200篇)的計量指標進行對比分析。

表1 古籍數字人文研究與古籍數字化研究論文計量指標對比分析
一般來講,高被引論文影響力較高,研究時間較早。如表1所示,古籍數字人文研究相較于古籍數字化研究起步較晚,但卻在較短時間內獲得了較高的影響力與關注度。從單篇論文來看,部分古籍數字人文研究論文雖發表時間不長,但被引數較高。例如,2013年范佳的《“數字人文”內涵與古籍數字化的深度開發》[14]被引數為75次,下載數為3 131次,遠高于古籍數字化研究論文的指標值。從整體來看,古籍數字人文研究論文篇均被引數為11.96次,篇均下載數為1 038.57次,而古籍數字化研究論文的篇均被引數為1.16次,篇均下載數為214.41次。前者在篇均被引數、篇均下載數上均遠遠超過后者。這進一步說明了古籍數字人文在較短時間內產生了較大影響,并引起了廣泛的傳播。
論文合著研究是學科發展的必然趨勢,也是學科創新的重要路徑,分析研究人員的合作情況能夠了解學科發展的特征。目前,古籍數字人文研究學者分別來自武漢大學、四川大學、北京大學、中國社會科學院、南京農業大學等研究機構。通過利用合著關系繪制的合作網絡可以看出:一是目前古籍數字人文研究團隊較為分散、獨立,跨地域、跨學科的合作研究較少;二是研究團隊中研究者的專業背景較為多樣、復雜,反映出古籍數字人文研究技術性、數據性、交叉學科性等特點。
關鍵詞可體現學術論文的研究主題和核心內容,通過匯總分析關鍵詞可管窺特定領域的研究內容、研究熱點以及知識體系。結合中國知網的主題標注、論文關鍵詞對古籍數字人文研究主題進行分類匯總,形成表2。可以看出,我國古籍數字人文研究主要從三方面展開,分別為:傳統古籍數字化技術、古籍數據化技術以及古籍研究價值提升。研究對象分別為圖書館古籍數據、醫藥古籍、古代文學、方志古籍、歷史古籍以及檔案等內容。

表2 研究方向以及子主題
隨著技術的進一步發展,一些高校和研究機構將信息技術進一步應用于古籍研究中,如對古籍文獻開展語義畫像、要素關聯、語義查詢等相關研究,并形成一系列實踐項目。本節以古籍數字人文實踐成果為切入點,從實踐項目的建設理念、建設主體、應用技術、人才結構、研究機構、服務模式等維度分析古籍數字人文的實踐特點[9,12,19—20]。
數字人文項目具有廣泛的歷史回溯性與深度關聯性。中國國家圖書館副館長、國家古籍保護中心副主任張志清曾指出:要活化古籍,需要建設涵蓋人、地、事、史、制度、典故、名物的知識網絡,與當今文化要緊密銜接。與傳統古籍數字化項目不同,古籍數字人文項目建設重點進一步向古籍的文本內容挖掘傾斜,研究對象從古籍的字詞層面分析,如文字識別、版本比對、特殊字符識別等,轉向對句法特征、語義特征、語用特征進行深度分析,關注點由外部特征向內部特征轉變,旨在利用文本挖掘、自然語言處理、機器學習等技術實現古籍文本中的要素提取,并借助地理信息系統、知識圖譜、關聯數據等技術對古籍中的人物、事物等要素的互動關系、發展趨勢進行可視化展示,發現特定時間段演變的內在規律[1,8,11,14]。例如,清華大學唐杰AMiner團隊的“半個世紀以來頂級學者遷徙”項目為1.3億研究者半個世紀以來的職業變化進行畫像,從中探索文化的變遷。又如,《宋元學案》知識圖譜系統提取《宋元學案》的人物、地點、著作等要素及其關聯關系,形成知識圖譜并進行可視化展示。
古籍人文平臺呈現出一定的數字人文基礎設施屬性,面向研究人員提供相應的服務。通過梳理,典型的服務模式涉及在線數據服務、可視化服務、古籍整理分析服務3種。其中,在線數據服務可提供數據檢索、專題數據庫瀏覽、數據下載等服務,或通過API接口提供古籍基礎數據。例如,清華大學數字人文門戶網站作為提供學術交流、實踐、資源獲取的平臺,該平臺數據以方便獲取處理的結構化數據為主,可實現按需導出、API數據調用等功能。可視化服務提供GIS、知識圖譜、關聯數據等服務,目前,《宋元學案》知識圖譜系統、唐宋文學編年地圖、中國文學地理學信息平臺等典型的系統均將處理過的數據以地圖、知識圖譜等形式展示出來(見表3)。古籍整理服務提供命名實體識別、文本挖掘等基礎性技術工具,使古籍數字人文具備技術基礎設施與基本條件(見表4)。
古籍數字人文項目建設主體呈現多樣性、跨界性特征。古籍數字人文研究通常涉及古籍、人文等領域,也涉及技術開發、算法模式、系統研發工作,需要來自多個領域的專業人員參與研究。例如,復旦大學歷史地理研究中心的中國歷史地理信息平臺與首都師范大學的絲綢之路歷史地理信息開放平臺由西安云圖信息技術有限公司提供的技術支持,“漢典重光”古籍數字化平臺由互聯網巨頭阿里巴巴和國內外多所知名大學、圖書館共同建設。
從人才隊伍來看,古籍數字人文研究繼承了數字人文交叉學科的屬性,在人才的需求方面比傳統的古籍數字化專業更多元,要求技術更復雜。在人才需求方面,古籍數字人文實踐工作不僅需要掌握古籍知識、人文知識,還需要計算機信息技術、數據科學技術[28—36]。從目前數字人文研究機構來看,其人才隊伍支撐均體現了人才多元化、專業綜合化的特點。例如,浙江大學數字人文研究中心團隊成員既有人文社會科學專業,又有理工科學專業,分別來看文學院、地理信息科學研究院、計算機科學與技術學院等多個院系或部門。武漢大學數字人文研究中心的成員主要來自信息管理學院、信息資源研究中心、遙感實驗室、文學院、歷史學院、計算機學院等,團隊的研究方向既涉及知識圖譜、本體設計等算法層面技術,又涉及科研數據集成、數字資產管理等資產層面技術,甚至還有3D建模仿真、虛擬現實以及圖形設計等方向。北京大學數字人文研究中心研究團隊既有計算機科學、人工智能等領域的研究學者,也有歷史學、語言文學、外國語等人文社科與語言學領域的研究學者。
從機構形態上來看,目前以邏輯組織為主,通過招集不同學科的研究人員,形成可解決交叉學科問題的跨學科組織。例如,南京大學高研院數字人文創研中心以南京大學人文社會科學高等研究院為依托,結合歷史學、地理學、計算機科學、信息管理學等南京大學校內多學科資源,形成一個跨學科的研究組織。
古籍數字人文技術實踐具有綜合性與集成性特點,通常開發一個數字人文平臺需要多種不同的技術集成應用。例如,在《宋元學案》知識圖譜系統開發過程中就融合了實體識別、文本挖掘、知識圖譜、可視化等多種技術。首先,利用命名實體識別技術提出《宋元學案》人物、時間、地點、著作等實體信息;其次,利用關系分析、關聯數據、文本挖掘、本體技術以及知識圖譜等探尋實體間的關聯;再次,利用可視化技術等進行綜合展示。如表5所示,古籍數字人文多涉及以下三類技術體系:一是資源數字化技術。是指利用圖像識別、文本識別、命名實體識別、本體構建等技術,對古籍原始文獻進行識別、集成、清理、處理和分析,從中提取有價值的信息和知識。二是數據管理類技術。使用統計分析、機器學習、數據挖掘、文本挖掘等技術,對數據進行分析和建模,以發現數據中的模式和關聯。古籍數字人文研究以非結構化的文本處理為主,更偏向于數據挖掘技術、自然語言處理技術協助學者開展統計、比較、分析等工作。三是展示類技術。利用GIS、知識圖譜、VR技術實現,將古籍數據進行可視化展示,將復雜的數據用直觀的方式進行呈現。
第一,關注古籍數字人文基礎性技術研究,進一步加強古籍全文數據庫建設。古籍數字人文關鍵點在于新一代信息技術在古籍文本中的深度應用,對古籍數據進行知識加工。當前,所形成的古籍數字人文產品以檢索、查詢、可視化等功能為主,語義層面較少。主要原因有兩方面,一是從實踐角度來講,我國現存古籍數據庫量多,但總體數字化程度較低、以文本形式進行數字化的古籍數量少,難以對古籍數據庫進行深入挖掘;二是從研究層面來講,面向數字人文的古籍實踐案例研究較多,但面向特殊語言的實體識別、分詞技術、自動翻譯、自動提取等基礎性技術研究較少,導致推動古籍全文數據庫建設的技術動力不足。在后續工作中,學者應進一步將研究重點聚焦于命名實體識別、本體抽取等基礎性技術研究,同時,強化古籍全文數字庫建設,為新一代信息技術在古籍文本中的深度應用提供數據源與技術積累。
第二,加快研究范式轉變,形成研究與實踐相互促進的良性循環。古籍數字人文是古籍數字化在新一代信息技術背景下發展的產物,是人工智能、數據挖掘等新一代信息技術發展到一定階段后應用于古籍文獻研究的具體體現。傳統信息技術多以輔助古籍數字化檢索、查詢等為主體,對古籍研究起到支撐作用,而新一代信息技術對于古籍數字化將發揮引領發現新知識、新規律的作用。當前從研究領域來看,多數學者仍以人工分析為主要手段,存在對傳統研究的路徑依賴現象,無法發揮新一代信息技術引領驅動數據人文發展的作用。在后續工作中,要充分認識大數據、數據挖掘、數據可視化等新一代信息技術對傳統古籍數字化研究范式的影響,將數字人文推向更加客觀的定量研究,采用主題建模、數據檢索與分析、實體識別等技術,重塑古籍數字化研究范式與人文知識體系。同時,研究人員應加強對古籍數字人文產品的應用,逐步優化數字人文產品,形成研究與實踐相互促進的良性循環。
第三,拓展研究和實踐群體,逐步擴大社會力量參與的深度與廣度。古籍數字人文的實踐和研究均體現出多學科融合、多行業參與的發展特點。例如,復旦大學歷史地理研究中心中國歷史地理信息平臺、絲綢之路歷史地理信息以及“漢典重光”古籍數字化平臺等具有一定影響力的項目都有互聯網企業的深度參與與技術支撐。在研究方面,數據人文研究課題與項目多體現交叉學科的背景,涉及學科領域廣、專業背景多樣。后續,在古籍數字人文實踐中,應探索更靈活可行的管理模式,吸引互聯網公司積極參與項目的早期設計、中期開發、后期實施以及迭代升級等全生命周期工作。
第四,優化和健全人才培養機制,突出“新技術”要求。近年來,隨著數字圖書館的建設,圖書館已引進和培養了一批具有信息技術專業的人才,但主要集中在數據庫、Web建設等傳統信息化方面,缺乏對大數據分析、數據挖掘、可視化技術等新一代信息技術相關人才的引進,制約了古籍數字人文的深入研究。在后續工作中,圖書館在招聘新進人員時應重點考慮新一代信息技術的背景,重點引進具有圖情專業與計算機專業雙重背景的技術人才,此外,持續對圖書館古籍工作人員進行系統的、有計劃的培訓,使其充分、全面認識數字人文的基礎理論,更加適應古籍數字化發展數字人文新階段下的新要求。
當今數字人文蓬勃發展,本文將古籍數字化與數字人文結合起來,對推動古籍數字化工作進入更深知識服務層次的理論研究與建設實踐進行梳理分析并提出實踐路徑,以便進一步挖掘古籍的時代價值,讓書寫在古籍里的文字都活起來。