□文│薛志紅
近年來,隨著信息技術發展及其在科學研究領域的應用,數據收集和處理方式發生了巨大變化,科學研究的方式也發生了革命性的變化,于是出現了基于數據密集型的科學發現新模式。美國計算機專家、圖靈獎得主吉姆·格雷(Jim Gray)2007年提出數據密集型科學類型,2009 年微軟研究院出版了《第四范式: 數據密集型科學發現》(The Fourth Paradigm: Data-intensive Scientific Discovery),提出了基于數據密集型計算的科學研究“第四范式”。數據驅動的科研發現和基于研究數據的知識管理,已經成為許多領域的重要基石,包括人文社會科學領域。[1]基于數據計算和應用的數字人文(Digital Humanities)成為人文領域的創新研究范式并得到廣泛關注。
人文學界紛紛開展數字人文研究,哈佛大學、北京大學和中國臺灣“中研院”三方合作建立“中國歷代人物傳記數據庫”(China Biographical Database,簡稱CBDB),復旦大學歷史地理研究中心開發中國歷史地理信息系統(CHGIS),南京大學雙語詞典研究中心利用語料庫開展辭典編纂和翻譯學研究等;歐美國家的一些大學已經建立了跨學科的數字人文研究中心,如美國喬治梅森大學歷史與新媒體中心、加州大學洛杉磯分校數字人文中心、劍橋大學文字與語言學計算中心、美國斯坦福人文實驗室、倫敦國王學院數字人文研究中心,等等;國際上的數字人文研究聯盟也已經出現,各種數字人文主題會議在全球頻繁召開,南京大學于2017年6月舉辦了“數字人文:大數據時代人文研究前沿與探索”學術研討會。
人文學術出版作為科學研究的重要支撐,必須支持數字人文這種研究范式。2016年10月,國家新聞出版廣電總局提倡“關注知識挖掘與發現、知識關聯與重組、知識應用與管理、自然語言理解與深度學習等技術;關注主題詞表、敘詞表、本體建設等工具;關注知識資源加工、資源管理、產品運營與服務管理等系統;關注知識服務模式創新”。[2]2018年1月9日,中國出版協會常務副理事長鄔書林在第八屆中國學術出版年會演講時指出:“信息技術的進步對學術出版提出了新的要求,……國際上學術出版已從單純的出書、出刊、出數據庫,到現在自覺把出版工作融入科學研究、經濟發展和社會生活當中,為其提供知識和信息的解決方案,為科學家、經濟決策人、讀者更好地從事科學研究、經濟發展和社會生活提供知識和信息服務,這已經成為出版的新的重要理念。近年來,中國出版業也響亮地提出了知識服務的出版理念。”[3]當前,國外數據庫出版商蓋爾公司的蓋爾學術平臺(Gale Scholar)和谷歌公司的谷歌圖書搜索(Google Book Search)等在功能上支持數字人文;中國知網2017年首頁改版,不再突出信息資源特色,而是通過“大數據研究平臺”“協同研究平臺”“行業知識服務與知識管理平臺”“中國經濟社會大數據研究平臺”等入口突出對科學研究全方位的支持;中華書局通過“二十四史”本體創新性地支持歷史領域的數字人文研究,南京大學出版社“基于引文索引數據庫的人文社會科學雙語術語庫”項目,為面向數字人文的知識服務提供術語保障。
人文學界和包括學術出版社在內的知識服務領域的探索為數字人文的發展提供了經驗,但不可否認的是,數字人文和面向數字人文的知識服務才剛剛起步。學術出版社要深入研究面向數字人文的知識服務:數字人文究竟是怎樣的研究過程,需要哪些知識服務來支持?當前語義出版、數據出版、增強出版等新的出版形態是否完全支持數字人文這種研究范式?面向數字人文的知識服務有哪些特點?面向數字人文的知識服務的生存和發展模式是什么,社會效益和經濟效益如何?本文擬探析上述問題。
數字人文的前身是“人文計算”,由20世紀40年代意大利著名人文學者羅伯特·布撒(Robert Busa)神父提出,其目的是:將學者從繁雜瑣碎的資料收集整理工作中解脫出來;專注于提出問題和學術發現;極大地提高研究效率,促進學科發展。20世紀60年代,數字人文在語言學領域獲得較多研究和應用,產生了大量基于語料庫語言學的理論和實踐。大數據時代,數據足夠豐富,計算能力足夠強大,通信交流足夠方便,數字人文研究范式以全新的形態受到廣泛關注。
盡管數字人文在很多領域有豐富的實踐,但學界一直未對“數字人文”給出準確定義。約翰·昂斯沃思(John Unsworth)2002年提出的“‘人文計算’是一種代表性的實踐、一種建模/模擬的方式,一種推理、一個本體論約定。這種代表性的實踐可分為兩個方面,一方面是高效的計算,另一方面是人文溝通”是一種比較經典的表述。計算的目的是為了知識發現,溝通的目的是為了知識表達并輔助知識發現。比如,黃敏聰對55組基本漢字的簡繁體進行“人文計算”,獲得了其從1946~1990年間在書籍上的使用頻率,從而發現漢字簡繁體的演變過程;[4]又如,CBDB項目通過社交網絡方式給出朱熹的通信網絡[5](見圖1),以視覺溝通形式進行知識表達;其對朱熹通信網絡的計算,給出朱熹人際交往中的親疏關系和社群關系,并進一步發現影響朱熹思想的人物,這就是知識發現。
劉煒總結了數字人文研究與傳統人文研究的不同之處(見表1)。[6]

圖1 朱熹通信網絡

表1 人文研究的兩種范式比較
數字人文的研究過程如圖2所示。人文學科的文獻經過數字化儲備,形成以版權作品為單元的文獻型數據庫;綜合若干學術需求進行知識組織,設計知識單元,依此對數字化文獻進行碎片化的知識單元抽取,形成包含實體和實體關系的領域知識庫;針對人文學科問題構建模型,結合具體算法研制平臺工具,形成模型工具庫;利用模型工具對知識庫中的知識單元進行知識表達或知識計算,知識表達的形式為知識圖譜,知識計算的形式為數據報告;這些數據報告和知識圖譜經人文專業學者分析解釋后,用于發現或印證相關知識,形成人文成果;相關成果進入科學交流體系,經過同行評價,部分成果成為有價值的新知識。

圖2 數字人文的研究過程
上述研究過程,除了“學術需求”提出和數據報告的“分析解釋”由人文學者獨立完成,其他過程都離不開知識服務的支持,可以說,知識服務融入整個數字人文的研究周期。
從數字人文的研究過程可以看出,面向數字人文的知識服務應該包含以下內容:①數字化文獻儲備,②知識組織,③模型構建和工具研制,④知識表達和知識計算,⑤知識交流和知識評價。這些內容有的包含在語義出版、增強出版、優先出版等新型服務中,有的還需要新的出版業態來完善。
以版權作品為單元的高質量、全面完整的文獻型數據庫是數字人文的基礎,離開大量原始文獻的數字化積累,數字人文將成為無源之水。這些文獻包括電子書、期刊、音頻視頻圖像作品,文獻型數據庫通過版權元數據進行組織,其服務功能主要是提供篇章層次的檢索。數字化文獻儲備是當前學術出版提供服務的主要領域。
知識組織通過知識單元的提取和結構化構建知識庫,為知識表達和知識計算做準備。這里的知識單元包括各種粒度的結構性知識和概念性知識,如細粒度的術語、實體、公式、圖像,中粒度的句子和段落,以及粗粒度的章節、數據集、附加資料等。知識組織體系,如主題詞表等,本身是輕量級基礎知識庫,同時支持領域知識庫構建。
語義出版是當前知識服務的主要形式,在語義出版領域,根據構建目標和知識組織方式不同,又有納米出版物和微型出版物[7]兩種形式。需要說明的是,隨著原生數字化文獻的產生和知識服務的需求不斷提出,文獻型數據庫和知識庫融合出版加強,研究型數據庫不斷出現。
知識庫包含人機共讀的結構化數據,其用戶有兩種,一是用戶,二是機器。這種人和機器都能讀懂的編碼化知識被稱為“智慧數據”。[8]當前語義出版的功能主要為用戶提供基于知識單元的檢索,在服務數字人文研究方面,其作用有待進一步開發。語義出版要服務于數字人文,被機器使用,必須借助相關模型和工具。
模型和工具的使用是數字人文研究范式與傳統人文研究范式的最大區別。以下為數字人文研究常用的模型:①自動分類聚類模型,用于梳理文獻熱點前沿;②自動摘要模型,實現海量文本“遙讀(Distant Reading)”;③統計分析模型,發現人文要素之間的關聯;④GIS分析模型,發現空間與人文要素的關聯;⑤社交網絡模型,研究重要人物的社交關系和思想淵源。
工具是實現模型的計算手段,與算法有關,直接面向終端用戶,模型與算法之間存在1:n關系,不同算法實現的模型有所區別。
在數字人文研究中,用戶根據需求自主自助選擇模型工具進行知識生成,模型工具庫是知識服務的新內容。模型工具庫構建是語義出版的延伸,是面向數字人文的知識服務的必然趨勢,它促使檢索服務走向計算服務,從而實現“智慧服務”。中國知網在“中國經濟社會大數據研究平臺”[9]中提供了若干相關分析模型、統計預測模型等,值得借鑒。
知識表達的方式可以是可視化知識圖譜,也可以是GIS地圖,還可能是詞云等;知識計算的結果是相關數據報告,這些報告也可能以圖譜形式表達。這種知識服務借助平臺,是數字人文成果的一種形式,可以成為增強出版的一部分內容。
無論是傳統人文還是數字人文,其研究成果都要進入科學交流和評價體系,才能彰顯其價值所在。學術出版的最初使命就是促進科學交流。數字人文更加促進人文成果的生產,優先出版這種形式突破傳統出版的周期約束,成為必然趨勢。數字人文作為數據驅動的研究范式,其成果的來源數據和研究過程應該被學界重復檢驗。當前增強出版服務主要是數據出版,面向數字人文的知識服務應該進一步支持計算過程的公開,便于學界對數字人文成果進行客觀評價。另外,目前學界流行的基于文獻計量的評價體系不再適應,新的評價體系有待探索。
面向數字人文的知識服務呈現出以下特點。
面向數字人文的知識服務是基于智慧數據的服務,可以看作是“智慧服務”,用戶使用平臺自助完成知識生產是必然趨勢。在2014中文數字出版與數字圖書館國際研討會上, 時任國家新聞出版廣電總局副局長的鄔書林在談及我國知識與信息生產傳播業未來走向時,用了一個形象的比喻——從“超市”模式向“餐館”模式轉型。[10]隨著“信息時代正在走向數據時代、數據時代同時在走向計算時代”,[11]面向數字人文的知識服務可以比喻為自助式“學術廚房”,在這個廚房中,知識服務者準備了經過清洗、分類、編碼的食材(知識庫),提供各種煎炒烹炸的廚具(模型工具庫),還有各種餐具容器(知識表達和知識計算結果陳列),最后廚房實現全透明裝修(知識交流和評價)。針對不同學科和問題,“學術廚房”預設各種菜譜,各種廚具可搭配使用,也可自行組裝生成新的廚具。這個“學術廚房”提供知識生產的環境,在內容上更加重視知識庫出版和模型工具庫出版,在形式上表現為融檢索功能、計算功能、可視化功能、自助訂制功能于一體的平臺出版。
面向數字人文的知識服務是一種融入式服務,一方面,從知識服務內容可以看出,這種知識服務是一種全生命周期的學術支持,與僅提供科學交流服務的傳統出版有根本區別;另一方面,這種知識服務也離不開人文學界的支持和參與,人文學界的學科特色和問題導向直接影響知識庫的構建和模型工具庫的構建。
在知識組織中,不同學科有不同的學術指向。比如,同樣是歷史領域知識庫,中國古代史、中國近代史與中國當代史知識庫的概念模型有很大差別。中國古代是家天下,中國古代史知識庫重視歷史人物之間的血緣關系表達;中國近代史中戰爭戰役頻繁,近代史知識庫必須將戰爭戰役作為一個大類并詳細設定其屬性;當代中國史以國家建設為主要內容,戰爭戰役的屬性設置可以簡單些,人物之間的血緣關系也不再是重要的關聯。
在人文領域,由于知識的時空依賴性、主觀性、不確定性、模糊性和爭議性,[12]知識庫的構建必須依賴人文領域專家,無論是通過機器深度學習抽取知識還是人工標注知識,知識單元的專業性和知識關聯的準確性一定要經專家認可。
在模型構建和工具研制中,同樣的分詞工具,依據通用詞表所作的分詞和詞頻統計基本不可靠,文本挖掘結果不能發揮“遙讀”的功能,學科專家必須參與詞表研制。
隨著知識服務成為需求,中國科學院文獻情報中心最早提出“融入一線、嵌入過程”的“嵌入式”學科服務模式。[13]北京大學圖書館連續兩年舉辦數字人文論壇,主題分別是 “跨界與融合:全球視野下的數字人文”和“互動與共生:數字人文與史學研究”。學術出版和圖書館都要支持面向數字人文的知識服務,二者應相互配合。圖書館有組織上的優勢,能夠實時嵌入研究過程,學科館員對人文學科有足夠的了解;學術出版有資源和資金上的優勢,能夠解決版權問題和調動社會力量。學術出版一方面要從圖書館了解學科需求,另一方面與圖書館在學科知識組織體系等方面進行合作,共同推動數字人文研究。
中華書局的“二十四史”本體項目于2014年結項,是出版界最早構建的知識庫,目前一直未成為產品形態,其原因就是盈利模式不清。學術出版也是一種市場行為,面向數字人文的知識服務必須考慮生存模式,才能形成良性循環。鑒于整個知識服務都處于培育和探索階段,本文僅做一定的分析,認為業態可能出現如下特征。
面向數字人文的知識服務是一種新型人文學術出版,仍然遵從學術出版的經濟效益與社會效益并行的特點,當前階段應是以社會效益為主、經濟效益為輔。2015年3月,國家新聞出版廣電總局下發《關于開展專業數字內容資源知識服務模式試點工作的通知》,并在經過專家評選之后,選取28家單位作為知識服務模式探索的試點單位;[14]2018年年初又公布了第二批27家試點單位。[15]語義出版是面向數字人文的知識服務的重要內容,政府的引導和支持就是希望通過項目產生社會效益,從而培育市場,促成經濟效益的產生。在這種情形下,通過縱向政府扶持或橫向與科研機構合作項目,成為很多出版社面向數字人文開展知識服務的起點。有實力的出版社,建議可獨立開展此類服務的探索。另外,鑒于面向數字人文的知識服務投入大、風險高,因此應在項目初期進行原型系統設計,并將原型系統提交學界討論,一是充分聽取學者的意見,二是擴大社會影響力。
面向數字人文的知識服務凸顯數據和工具的價值。人文學科尤其重視所引用知識的出處,為保障知識單元的有據可查,應該建立知識單元與來源文獻之間的關聯。一般情況下,用戶點擊知識圖譜中的知識單元或關聯關系時,平臺應給出來源文獻。也就是說,在面向數字人文的知識服務中,資源出版與數據工具出版并行。在當前用戶體驗不足的情況下,知識庫和模型工具庫應該開放出版,而文獻資源庫可有償使用。
面向數字人文的知識服務是需求驅動型服務。人文學者的研究旨趣影響著知識庫的文獻來源、知識單元粒度、概念關系模型和模型工具庫的設計。知識庫和模型工具庫的構建是一個不斷迭代的過程,無論當前如何深挖用戶的潛在需求,知識庫的設計總有不完善之處,工具算法總有不滿足的地方。知識庫的設計一旦定型,再次修訂投入會很大,出版商應首先滿足大眾出版的需求,再在有條件支持的情況下開展定制出版。
寶寶看到新奇事物,總想知道這是什么、為什么這樣?所以就會去動動摸摸、敲敲打打。讓他按照自己的意愿去進行,才能滿足他的學習需要,因此,不堵塞寶寶進行自主學習的路是原則。
數字人文作為一個以跨界與融合為特點的新興領域,還將不斷變化和再定義,無論是數字人文的學理研究,還是數字人文的實踐應用都還處于初級階段。對于學術出版社面向數字人文的知識服務來說,更是面臨諸如學界需求方向、技術支持程度和商業模式的挑戰,本文僅就其中的部分問題進行嘗試性的探析,有待學界和業界的進一步理論研究和實踐探索。
注釋:
[1]Hey T,Tansley S,Tolle K.第四范式: 數據密集型科學發現[M].潘教峰,張曉林,等,譯.北京: 科學出版社,2012
[2]關于開展首批新聞出版業科技與標準重點實驗室申報工作的通知[EB/OL].http://www.sapprft.gov.cn/sapprft/contents/6588/306381.shtml
[3]鄔書林.抓住信息技術進步機遇,提升學術出版水平[EB/OL].http://www.sohu.com/a/216991262_692521
[4]黃敏聰.基于人文計算的漢字簡繁體演變定量分析[J].科技視界,2012(18)
[5]中國歷代人物傳記資料庫——從軼事到資料[EB/OL].https://projects.iq.harvard.edu/cbdb/presentations-and-papers
[7]王曉光,宋寧遠.語義出版物的內容組織架構研究——基于納米出版物和微型出版物的比較分析[J].出版科學,2017,25(4)
[8]曾蕾,王曉光,范煒.圖檔博領域的智慧數據及其在數字人文研究中的角色[J].中國圖書館學報,2018(1)
[9]來源于中國知網http://data.cnki.net/
[10]知識服務或將成我國數字出版產業新拐點[EB/OL].http://culture.people.com.cn/n/2014/0708/c87423-25254827.html
[11]張曉林.顛覆性變革與后圖書館時代——推動知識服務的供給側結構性改革[J].中國圖書館學報,2018(1)
[12]董慧,余傳明,楊寧.基于本體的數字圖書館檢索模型研究(Ⅲ)——歷史領域資源本體構建[J].情報學報,2006(5)
[13]初景利,張冬榮.第二代學科館員與學科化服務[J].圖書情報工作,2008(2)
[14]國家新聞出版廣電總局.關于開展專業數字內容資源知識服務模式試點工作的通知[EB/OL].http://www.gapp.gov.cn/news/1663/247536.shtml
[15]國家新聞出版廣電總局.第二批專業數字內容資源知識服務模式試點單位遴選結果公告[EB/OL].http://mp.weixin.qq.com/s/X-iCP8d wKZ6W0EwwOcSAzw