







摘要:隨著互聯網技術和數據處理技術的日益強大,數字人文的發展進入快速上升階段,國內數字人文領域涌現出大量有價值的研究,但相關綜述型研究存在多采用主觀內容解讀、較少運用科學計量工具進行客觀分析的局限之處。因此,文章基于中國知網來源文獻,運用CiteSpace軟件,針對2004—2022年間國內數字人文領域研究的發文量、科研合作網絡和關鍵詞等進行可視化分析與解讀。結果發現,該領域的研究保持增長趨勢,是一個由現代化信息技術驅動的研究領域,具有跨領域、跨學科合作的顯著特點。
關鍵詞:CiteSpace;數字人文;知識圖譜;文獻計量
中圖分類號:G250 文獻標志碼:A
0 引言
數字人文學科起源于20世紀40年代的人文計算,21世紀初,隨著數字革命和通信技術的爆炸性發展,誕生了數字人文這一學科。數字人文是一個運用計算機技術研究傳統人文學科的“數字技術與人文學科”交叉的新興研究領域。因此,涉及學科范圍廣泛,包括管理學、計算機科學、圖書館學、歷史等領域。近年來,隨著互聯網技術和數據處理技術的日益強大,數字人文的發展進入快速上升階段[1]。
國內數字人文領域涌現出大量有價值的研究,已經有許多學者對相關研究成果進行系統的梳理分析。例如,司莉等[2]利用文獻調研法和內容分析法梳理數字人文領域中有關知識組織方法與技術的研究現狀,發現了知識組織在該領域中發揮了中介價值和方法價值。平碩等[3]基于文獻計量方法運用分詞和詞云工具對數字人文領域的研究進行系統梳理,分析發現,現代信息技術是進行數字人文研究的重要方法。張華[4]采用文獻計量法和主題分析法對國內數字人文及檔案管理相關研究進行梳理,分析發現國內相關研究較少。這些系統性分析都為數字人文研究做出貢獻,但存在局限之處,從研究方法角度,多采用主觀的內容解讀,運用科學計量工具的客觀分析較少。
鑒于此,系統梳理該領域的研究熱點和發展脈絡,對于促進領域相關的理論研究和應用創新有著重大意義。本研究使用目前學界認可度較高的科學計量軟件CiteSpace作為研究工具,針對中國知網2004—2022年間國內數字人文領域相關研究成果進行可視化分析,客觀呈現該領域的演進脈絡、發展現狀、研究熱點和未來發展趨勢,進而為該領域未來的理論研究和實踐創新提供借鑒。
1 研究設計
1.1 研究方法
CiteSpace軟件是由美國德雷賽爾大學計算機與情報學教授陳超美博士基于Java語言開發、基于引文分析理論的信息可視化軟件。它能夠分析科學文獻中蘊含的潛在知識,通過可視化的手段呈現科學知識的結構、規律和分布情況。本文運用CiteSpace軟件進行可視化分析,客觀呈現發文量、作者合作情況、研究熱點和主題演化脈絡等。
1.2 數據來源
基于數據資源的多樣性和信息的完整性,本文選擇中國知網學術期刊網絡出版總庫(CNKI)作為數據來源。為保證查準率和查全率,構建以下檢索策略:檢索式為“SU=‘數字人文’or篇關摘=‘數字人文’”,檢索年限為2004—2022年,檢索時間2022年10月31日,檢索得到文獻2 304篇。為保證檢索得到的文獻準確性,人工進行復查。刪除會議、報紙、綜述、與數字人文領域研究無關的文獻、重復文獻和中文數據庫檢索得到的英文文獻等,最終獲得相關文獻1 773篇。
2 數據分析與處理
2.1 發文量分析
近18年來發文量總體呈上升趨勢,具體可分為4個階段:第1階段是2004—2013年,每年的發文總量不超過10篇,處于發展冷淡期;第2階段是2014—2017年,每年的發文量10~100篇,處于快速上升階段;第3階段是2018—2021年,發文數量呈指數式增長的趨勢;第4階段,到2022年,文獻數量稍有回落。隨著近年來互聯網技術和數據處理技術的日益強大,相信未來數字人文領域相關研究會保持持續增長趨勢(見圖1)。
2.2 科研合作網絡分析
科研合作網絡分析的概念出現于20世紀30年代,由J.L.莫雷諾提出社會計量學概念,對各種社會關系進行分析和度量[5]。在文獻計量學領域,利用共同發表論文對科研合作網絡進行計量測度。本研究主要針對作者這個微觀層次的合作網絡進行分析。
打開CiteSpace軟件,Node Types選擇Author,g-index的k值設為15,Threshold設為9,如圖2所示。文獻中參與研究的學者一共287位,作者合作網絡較為稠密,主要形成王東波和馮敏萱等,劉周穎和趙宇翔,蔡迎春和歐陽劍等,何琳和高丹,何思源和嘎拉森,李曉敏、趙萌和王昊,薛玉和王蕾等組合作網絡,其中王東波的發文量最多,有129篇,發文量排前5名的研究者如表1所示。由作者單位可以反映出數字人文研究的跨學科跨領域特點。
2.3 關鍵詞分析
2.3.1 關鍵詞共現
關鍵詞反映領域的研究熱點及其演變,分析關鍵詞有助于把握學科發展現狀進行前沿分析。首先運行CiteSpace,設置Node Type為Keyword,時間跨度為2004—2022年,為了更加明晰地展示數字人文研究的關鍵詞共現情況,將軟件的網絡裁剪方法設為Pathfinder,Pruning sliced networks,Pruning the merged network,得到關鍵詞共現圖譜。接著進行相似關鍵詞合并及無關關鍵詞刪除,最后得到高頻關鍵詞詞頻列表(見表2)和關鍵詞共現圖譜(見圖3)。高頻關鍵詞有19個(頻次≥20),基礎關鍵詞是數字人文,且頻次最高,說明本研究緊扣主題(見表2)。該領域的主要研究內容是數字化技術在“新文科”建設中的應用;研究涉及的學科領域從管理學到信息科技領域再向其他學科領域滲透,其中,圖書情報學科是數字人文領域研究的核心學科之一;主要研究場景在圖書館、博物館、檔案館和高校,知識圖譜的構建、學術研究的數字化、知識服務與知識組織、古籍研究、文化遺產的傳播和高校的人文學科建設等為主要研究內容;研究涉及的方法主要有引文分析法和文獻計量法,研究涉及的技術基本是利用人工智能相關技術,比如大數據技術、實體識別和BERT模型等。除此之外,利用文本分析工具對文本進行情感分析、針對文本化資源利用本體與機器學習等人工智能技術結合進行數據化和資源化建設亦是研究熱點。
2.3.2 關鍵詞突顯
為了分析出在短期內產生很大變化的關鍵詞,并了解該關鍵詞開始與結束的時間跨度,本文利用CiteSpace軟件中的“Burstness”功能,進行突發性檢測分析。最終得到20個表現最強的關鍵詞,如圖4所示。由圖4可以看出,數字人文的研究熱點可以分為2個階段。第一階段為2004—2013年,此階段的突顯詞較多,且主題內容豐富,主要包括數字人文領域的學科建設、理念和研究方法。第二階段為2014—2019年,此階段的突顯詞有3個,分別是圖書館、人文計算和數字學術。人文計算是數字人文的核心,圖書館在新時代的數字人文領域無論是理論研究還是實踐創新都擔任重要角色。從突顯強度來看,“數字學術”的強度最高(6.83),是近年來數字人文研究領域受廣泛關注的研究前沿。
2.3.3 關鍵詞聚類
關鍵詞聚類指的是將關聯緊密的關鍵詞聚成一類,用于觀察某個學科領域目前形成的研究類團,可以進一步了解該領域的研究是否具有共性。采用Log liklihood Ratio(LLR)對數似然比檢驗算法對文獻關鍵詞進行聚類分析,形成14個有效聚類,如圖5所示,包含了數字人文領域的主要研究主題。圖譜的Q值為0.866 6(gt;0.3),S值為0.961 5(gt;0.5),根據陳悅等[6]的研究可知:當Qgt;0.3時,劃分出來的社團結構是顯著的;當Sgt;0.5時,聚類是高效且令人信服的。在前文關鍵詞共現和突發性檢測的基礎上,整合圖5的聚類結果得到圖6,即研究方法與工具、學科建設和文化機構3大類。
第1類是數字人文研究運用的方法與工具,主要包括文獻計量法、科學知識圖譜可視化技術、數字化技術、數據管理技術、機器學習技術等,說明數字人文是一個由現代化信息技術驅動的研究領域。例如李斌等[7]以《左傳》知識庫為例,基于古漢語自動標注技術,完成古文獻文本標注和可視化分析;趙雪芹等[8]運用Protg本體構造工具和Neo4j數據庫完成萬里茶道知識圖譜的構建,進而實現資源的可視化存儲與表示,為萬里茶道資源的開發利用和本體持久化提供了思路;鐘遠薪等[9]采用實驗研究法對比發現,語音識別技術適用于徽州文書文本化工作,高效且準確,對于民間歷史文獻文本化工作有借鑒意義;張力元等[10]利用TextCNN與BERT兩種機器學習模型對先秦諸子六家十部典籍文本進行分類訓練,比較二者的分類準確率,并將結果更優的BERT模型進行微調后用于對《荀子》與《管子》進行篇、章粒度的分類判斷,實現了基于機器學習的互著與別裁的方法框架。
因此,數字人文其實就是基于數據的研究,各類數據技術和現代化信息技術平臺為數字人文研究提供素材、工具和交流平臺,同時使數字人文在宏觀上實現整合與一體化,實現跨學科、跨領域研究交流[11]。
第2類是數字人文相關的學科建設,有數字學術、人文學科、學科發展3個關鍵詞聚類。主要包括數字素養、數字人文教育、人才培養等主題。
第3類是進行數字人文研究的文化機構,有圖書館、博物館、數字記憶3個關鍵詞聚類。
#2是以圖書館為核心詞的關鍵詞聚類,包括知識服務、信息組織、學術出版、空間再造等主題。例如鄧靈斌[12]通過文獻查閱、綜合分析等方法,揭示美國圖書館界數字學術服務的理論研究和實踐探索對我國有借鑒意義,并提出國內圖書館要重視數字學術服務以及培養相關優秀人才的具體建議;杜宗明[13]探討了數字人文背景下圖書館的角色定位,提出利用新技術去創新服務以此實現面向需求、迎合轉型期的發展路徑;凌霄娥[14]對圖書館的開放數據現狀進行分析,針對開放數據服務機制存在的問題提出適應數字人文背景的解決方案等。
綜上所述,圖書館界的數字人文相關研究主要包括以下幾個方面:首先是圖書館的角色定位,圖書館作為傳統的信息有效查詢和有效獲取的平臺,共享資源的管理者和傳播者,可以促進人文學科的數字化轉型,數字化發展也是現代圖書館轉型的必然趨勢,圖書館新的角色定位包括數字人文研究的推動者、數字化技術的支持者、跨學科交流的聯絡者。其次是圖書館數字人文的研究工具,主要聚焦于機器學習技術、人工智能技術、知識可視化、移動視覺搜索和各種語義標注工具等。此外,對于圖書館的館員崗位設置和相關教育培訓亦是研究熱點。由此可見,圖書館界的數字人文服務拓寬了圖書館的服務范圍,推動了圖書館的現代化建設和創新性服務的轉型。
#3是以數字記憶為核心詞的關鍵詞聚類,包括檔案學、檔案管理等主題。#6是以博物館為核心詞的關鍵詞聚類,包括歷史文獻、特藏、數字化保存等主題。例如,陳艷紅等[15]通過訪問31個省級綜合檔案館官方網站發現問題,提出采用技術用具促進紅色檔案資源開發的路徑選擇;劉健[16]以上海博物館為研究對象,分析數據可視化與博物館之間的關系,并展現了該館的數字化建設,為相關技術在博物館的應用提供借鑒。以上研究成果表明,數字人文是近年來圖情檔博領域的研究熱點。
3 結論
本文以中國知網為文獻來源,對2004—2022年間數字人文研究的相關文獻進行檢索,獲得1 773篇文獻。運用文獻計量法和CiteSpace軟件,從發文量、科研合作網絡、關鍵詞共現、關鍵詞突發性檢測和關鍵詞聚類5個角度進行可視化分析,客觀呈現國內數字人文領域研究的演進脈絡、發展歷史、發展現狀、研究熱點和未來發展趨勢,得到以下結論:(1)數字人文研究總體呈上升趨勢,隨著近年來互聯網技術和數據處理技術的日益強大,相信未來數字人文領域相關研究會保持持續增長;(2)數字人文研究是一個由現代信息技術驅動的研究領域,主要包括科學知識圖譜可視化技術、數字化技術、數據管理技術、機器學習技術等,推動了圖書館、檔案館、博物館等文化機構的現代化建設和創新性服務的轉型;(3)數字人文研究具有跨領域跨學科的顯著特點,涉及的學科領域有管理學、歷史學、語言學、傳播學、計算機科學,是圖情檔博領域當前的研究熱點。
4 結語
本研究運用科學計量工具對國內數字人文領域研究的發文量、科研合作網絡和研究主題進行了研究綜述,通過可視化的手段呈現數字人文領域研究的發展規律、研究熱點與前沿以及未來發展趨勢,對于促進數字人文領域相關的理論研究和應用創新有著重大意義。
參考文獻
[1]鄧君,宋先智,鐘楚依.我國數字人文領域研究熱點及前沿探析[J].現代情報,2019(10):154-164.
[2]司莉,郭財強.基于內容分析的數字人文領域中知識組織價值體現研究綜述[J].圖書情報工作,2022(13):127-137.
[3]平碩,李思雨,鄒鼎杰.基于文獻計量的國內數字人文研究綜述[J].圖書館學刊,2022(6):107-113.
[4]張華.國內數字人文與檔案管理研究綜述[J].檔案與建設,2021(1):31-36.
[5]呂娜,全少穎.科研合作網絡多數據源加權模型研究[J].情報理論與實踐,2016(9):114-118.
[6]陳悅,陳超美,劉則淵,等.CiteSpace知識圖譜的方法論功能[J].科學學研究,2015(2):242-253.
[7]李斌,王璐,陳小荷,等.數字人文視域下的古文獻文本標注與可視化研究:以《左傳》知識庫為例[J].大學圖書館學報,2020(5):72-80.
[8]趙雪芹,李天娥,曾剛.基于Neo4j的萬里茶道數字資源知識圖譜構建研究[J].情報資料工作,2022(5):89-97.
[9]鐘遠薪,王蕾,楊新涯,等.徽州文書文本化語音識別技術應用研究[J/OL].圖書館論壇:1-10[2022-12-13].http://kns.cnki.net/kcms/detail/44.1306.G2.20220104.1634.004.html.
[10]張力元,王軍.基于機器學習的古籍目錄互著與別裁探析[J].中國圖書館學報,2022(2):47-61.
[11]劉煒,葉鷹.數字人文的技術體系與理論結構探討[J].中國圖書館學報,2017(5):32-41.
[12]鄧靈斌.美國圖書館界數字學術服務的實踐及其有益借鑒[J].情報理論與實踐,2020(11):187-191.
[13]杜宗明.數字人文環境下的圖書館角色定位與實踐路徑[J].農業圖書情報學刊,2017(10):103-106.
[14]凌霄娥.數字人文下的圖書館開放數據服務機制分析[J].圖書館,2021(5):68-73.
[15]陳艷紅,陳晶晶.數字人文視域下檔案館紅色檔案資源開發的時代價值與路徑選擇[J].檔案學研究,2022(3):68-75.
[16]劉健.博物館數據可視化的探索與實踐:以上海博物館數字化建設為例[J].博物院,2019(2):91-97.
(編輯 何琳編輯)
Visualization analysis of domestic digital humanities research based on CiteSpace
Wu Jinglin1, Wang Jiaying1,2, Shan Jing1,2
(1.School of Computer Science and Engineering,Shenyang Jianzhu University, Shenyang 110168, China; 2.School of Software,Shenyang University of Technology, Shenyang 110023, China)
Abstract:With the increasing strength of Internet technology and data processing technology, the development of digital humanities has entered a stage of rapid rise. A large number of valuable studies have emerged in the field of digital humanities in China. However, there are many limitations in the relevant review research, such as the use of subjective content interpretation and less use of scientific measurement tools for objective analysis. Therefore, based on the literature from CNKI, this paper uses CiteSpace software to visually analyze and interpret the number of publications, research cooperation networks and keywords in the field of digital humanities in China from 2004 to 2022. The results show that the research in this field has maintained a growing trend. It is a research field driven by modern information technology and has the remarkable characteristics of interdisciplinary and interdisciplinary cooperation.
Key words:CiteSpace; digital-humanity; knowledge-graph; bibliometrics