999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

近三年檔案資源語義化開發研究熱點與前沿探測

2023-09-04 01:25:17宋雪雁張祥青張偉民
檔案管理 2023年4期
關鍵詞:關聯語義資源

宋雪雁 張祥青 張偉民

摘? 要:本文對近三年國內外檔案資源語義化開發研究熱點與前沿進行了探測,通過高頻關鍵詞共現分析總結了國內外近三年檔案資源語義化開發研究的相關主題,其中國內總結為檔案保管與智慧建設、檔案社會記憶建構與知識服務、檔案語義轉換與語義重組等6個研究主題,國外總結為基于本體的語義化開發等3個研究主題,同時基于高頻關鍵詞主題加權演進分析探測了研究熱點與前沿。此外,本文對該領域相關平臺項目實踐研究進行了梳理,并基于以上研究,對國內外檔案資源語義化開發的對象、目標、技術方法等內容進行了歸納總結。

關鍵詞:檔案資源;語義;本體;知識圖譜;知識組織

Abstract: This article explores the hot spots and frontiers of research on the semantic development of archival resources both at home and abroad in the past three years. Through high-frequency keyword co-occurrence analysis, it summarizes the relevant topics of research on the semantic development of archival resources both at home and abroad in the past three years, including six research topics summarized domestically, including archival custody and intelligence construction, archival social memory construction and knowledge services, archival semantic transformation and semantic reorganization. There are three research topics summarized abroad, including ontology based semantic development. And through weighted evolution analysis based on high-frequency keyword topics this paper also studies research hotspots and frontiers. In addition, this article reviews the practical research on relevant platform projects in this field, and based on the above research, summarizes the objects, objectives, technical methods, and other contents of semantic development of archive resources at home and abroad.

Keywords:? Archival resource; Semantic; Ontology; Knowledge map; Knowledge organization

要對檔案資源語義化開發研究有整體的理解與掌握,首先需要理解檔案語義的含義與概念。馮惠玲等[1]指出檔案語義是指所有檔案本身的數據和描述檔案的數據含義,包括檔案內容數據、背景數據以及結構數據的含義,與傳統文本內容以及元數據的含義不同,檔案的語義使用形式化的語言表達,含義明確且機器可理解。伴隨技術的快速發展與更迭,大數據、深度學習等技術被廣泛應用于檔案資源語義化開發研究中,這促進了學者對該領域研究的逐漸深化。為發現與總結檔案資源語義化開發中熱點與前沿性內容,本文對近三年國內外檔案資源語義化開發研究成果進行梳理,對該領域主要研究主題進行總結分析,發現該領域重點研究內容,以期為相關研究提供參考。

1 國內相關研究梳理

本研究以主題=“檔案 AND 語義”或者篇關摘=“檔案 AND 語義”為檢索方式在中國知網、萬方、維普數據庫進行檢索,檢索時間限制在2019年8月31日—2022年8月31日,共獲得近三年相關文獻201篇。經過人工校對清理,將與主題不相符合的文獻加以剔除,最終保留114篇相關文獻進行分析。

1.1 中文文獻關鍵詞數據分析。中文文獻關鍵詞數據分析將從關鍵詞詞頻統計、時間分布、高頻關鍵詞共現分析方面進行總結。

(1)中文關鍵詞詞頻統計。對相關文獻進行詞頻分析,其中出現頻次≥2的關鍵詞有52個,出現頻次≥3的關鍵詞有23個,現對部分關鍵詞詞頻進行表格整理(表1),除了表1整理的數據,關鍵詞清代在相關文獻中出現的頻次也為3。繪制的關鍵詞詞云圖如圖1所示。

由表1和圖1可以看出,在檔案資源語義化開發研究中,相較于其他關鍵詞,知識圖譜、數字人文、關聯數據、本體、語義關聯、檔案數據化在文獻中出現次數較多,說明知識圖譜、關聯數據以及本體等技術在檔案資源語義化開發中得到了較多應用,并且學者對數字人文視域下檔案資源語義化開發進行了較多研究,實現了檔案資源的語義挖掘、關聯與發現,推動了檔案資源的智慧建設。

(2)中文關鍵詞時間分布。本文對關鍵詞進行分時段統計,每時段擬選取10個有代表性的關鍵詞進行分析,選取依據首先為選取頻次高的關鍵詞,在頻次相同的情況下,選擇與該時段高頻關鍵詞密切相關聯的關鍵詞,以期對檔案資源語義化開發研究有一個整體的了解與分析,統計如圖2所示。

由圖2可以看出,在2019年8月31日—2019年12月31日這一時段間,元數據、關聯數據為高頻關鍵詞,頻次為2,其余關鍵詞頻次皆為1。數字檔案資源、檔案信息資源等檔案資源的語義化開發需要運用元數據、關聯數據技術,實現檔案資源的關聯與共享,推動檔案信息化進程,編碼檔案信息描述需要建構檔案元數據體系。

此外,本體與元數據、關聯數據緊密關聯,運用這些技術方法可助力檔案資源的語義轉換,實現語義互操作,除了圖譜顯示的關鍵詞,在該時段內,本文認為語義網也是與高頻關鍵詞關聯數據相關聯的關鍵詞,語義網的構建需要以關聯數據技術為基礎,實現檔案資源的語義互聯。通過展示的關鍵詞,可以看出學者在這一時段的研究有運用元數據、關聯數據等技術方法對數字檔案資源語義關聯、語義轉換探索,元數據、關聯數據等技術方法的應用是這個時期的關注點。

在2020年相關文獻中,知識圖譜、檔案管理、數字人文等8個關鍵詞出現頻次≥2,其余關鍵詞出現1次。機器學習、大數據等技術方法可助力實現檔案資源的智能管理。此外,在數字人文研究背景下,國內外部分高校開展了以檔案為中心的數字人文項目研究,這推動了檔案資源的語義化開發研究。因此,除了高頻關鍵詞,本文在剩余頻次為1的關鍵詞中選擇“智能管理”“數字人文項目”作為這一時段的代表性關鍵詞,如圖2所示,可以看出這一年的研究成果中關于檔案知識圖譜的研究最多。知識圖譜以圖結構揭示語義信息,[2]以知識圖譜的方式揭示檔案語義信息是較為可行的方法。

另外,語義化開發視角下的檔案管理、檔案組織、電子文件管理研究也較多,學者基于數字人文理念,將機器學習、本體以及大數據等技術方法運用到檔案領域語義知識挖掘與知識發現中。在2021年相關文獻中,關聯數據、數字人文、知識圖譜、知識服務、本體、語義關聯、知識組織7個關鍵詞出現頻次≥4,檔案、數字檔案、檔案資源3個關鍵詞出現3次,其余關鍵詞頻次小于3。通過圖譜可以看出,前兩個階段的相關研究在這一年得到了延續和加強,學者的關注點也為基于數字人文視角,運用知識圖譜、關聯數據、本體等技術方法對檔案知識組織進行研究,以期為用戶提供更好的知識服務。

在2022年1月1日—2022年8月31日期間,知識圖譜、數字人文關鍵詞頻次為4,口述歷史檔案、數字管護、檔案數據化、清代、可視化、本體、檔案資源、知識發現8個關鍵詞出現2次,其余關鍵詞頻次為1。通過圖譜可以看出,這一時段學者運用知識圖譜、本體、可視化等技術方法對數字人文視域下的檔案資源語義挖掘、揭示與知識發現進行了相關研究。

基于以上每時段關鍵詞條形圖可以看出,“本體”在統計的各個時段都有出現,體現了本體知識建模是檔案資源語義化開發研究中必要且基礎的技術,是檔案學者掌握且能夠成熟運用到檔案資源語義化開發中的技術方法;“數字人文”“知識圖譜”從2020年開始至統計時段結束都有出現,其中知識圖譜技術受到學界較多關注與使用;元數據、關聯數據也是學界較為關注的檔案資源語義挖掘與組織技術,這呈現出檔案學與計算機科學、信息哲學、歷史學、語義學等多學科的交叉融合態勢。

(3)中文關鍵詞共現矩陣。由以上分析可知頻次≥2的關鍵詞有49個,頻次≥3的關鍵詞有23個,現對頻次≥2的關鍵詞進行了共現矩陣計算,并對頻次≥3的23個關鍵詞繪制了共現矩陣圖(圖3)。

其中,本體與關聯數據共現3次,數字人文2次。關聯數據與檔案、知識組織、元數據、語義網共現2次。共現頻次越高,說明關鍵詞之間關聯關系越突出,便于發現檔案資源語義化開發相關研究文獻中檔案領域與其他理論、技術方法等內容具有交叉價值的知識點。除了以上列舉的關鍵詞數字人文、知識圖譜、本體、關聯數據與其他關鍵詞的共現關系,其他關鍵詞之間也有共現關系。

1.2 基于高頻關鍵詞共現的中文文獻主題聚類分析。經過對頻次≥2的49個關鍵詞共現矩陣計算,可以發現關鍵詞之間的共現關系。將共現矩陣導入VOSviewer軟件,布局格式設置為Fractionalization,吸引力(Attraction)設置為5,排斥力(Repulsion)設置為0,最小聚類中關鍵詞個數(Min. cluster size)設置為5,共得到7個聚類結果。根據關鍵詞的共現關系回顧文獻,發現聚類6下的關鍵詞檔案數據化、資源描述框架,聚類7下的記錄因子、數據化、檔案數據與檔案數據化研究主題相關,聚類6下的關鍵詞本體工程、電子文件管理、人工智能與聚類7下的領域本體、視頻檔案與檔案領域本體構建研究主題相關,因此,根據關鍵詞表達的主題與語義含義,本文將聚類6與聚類7合并為一個聚類進行主題概括與分析,最終聚類結果整理如表2所示。

基于表2的聚類結果,可以歸納近三年國內檔案資源語義化開發研究中的主題方向。

(1)檔案保管與智慧建設研究。聚類結果1包含智慧數據、檔案保護、資源建設、語義增強、數字人文等10個關鍵詞。對于檔案保管方面,錢毅[3]總結了檔案保護、保存、管護的目標分別為維系延續實體老化的物理空間、構建防范技術老化的數字空間、營造適應文化老化的語義空間,基于學者對檔案保管體系理念演變的討論與分析,可以幫助人們應對未知的檔案管護問題。

牛力等[4]指出,在檔案工作新形勢下,構建從保管導向到價值導向的智慧檔案2.0體系會成為未來趨勢,由此可以發現,檔案保管是推動檔案智慧建設的重要基礎。在檔案智慧建設方面,郝偉斌等[5]指出應用語義網技術進行檔案文化數據資源語義組織能構建知識本體之間的語義關系,實現檔案資源智慧數據建設。曾蕾等[6]也認為語義技術使圖博檔數據納入到智慧數據中,語義增強是一種使數據形成語義網的顯著有效方法。

在檔案資源知識語義開發中,本體作為一種語義技術得到了廣泛應用,趙雪芹等[7]以芭蕉茶廠1973年第三件檔案為例,使用Protégé軟件進行了可視化的構建,揭示類與類之間錯綜復雜的語義關聯,此研究在一定程度上促進了數字人文領域下萬里茶道檔案資源智慧建設的研究。

(2)檔案社會記憶建構與知識服務研究。聚類結果2包含語義分析、檔案著錄、口述歷史檔案、社會記憶建構、知識服務、知識發現等9個關鍵詞。

對于檔案社會記憶構建相關研究,房小可從檔案編研和檔案著錄兩個視角切入進行了相關論述。在檔案編研方面,房小可[8]對檔案學科視角下社會記憶構建框架進行了研究,指出語義分析、機器學習等技術能夠提取擬訂編研主題的子主題,幫助實現檔案資源主題挖掘。在檔案著錄方面,房小可[9]指出在著錄工具基礎上加入語義分析等技術,能夠獲取檔案社會記憶邏輯要素及其語義關系,實現記憶重構及再現。牛力等[10]對名人檔案價值挖掘的理論及技術支持進行了研究,指出知識服務層次的實現為名人檔案數據的記憶呈現。從已有研究可以發現,檔案社會記憶建構能幫助實現更好的檔案知識服務,幫助人文學者深入利用檔案資源,挖掘檔案資源中的記憶價值。對于檔案知識服務相關的研究,周娟娟等[11]指出運用語義分析、知識圖譜等技術,能夠增強數據之間關聯,促進人事檔案知識服務研究發展。檔案知識服務的發展與檔案資源開發與利用、檔案資源知識發現研究緊密關聯。高淞等[12]指出利用RDF框架、語義網等數字技術進行資源開發,能夠構建新的數字人文視域下的口述歷史檔案資源開發模式。鄧君等[13]對口述歷史檔案資源知識圖譜與多維知識發現進行了研究,實現了資源細粒度關聯、語義化查詢、個性化服務。

(3)檔案語義轉換與語義重組研究。聚類結果3包含關聯數據、本體、互操作、大數據、知識組織、語義網、元數據7個關鍵詞。通過關鍵詞之間的共現關系回顧文獻,發現學者在語義轉換和語義重組方面進行了相關研究。在檔案語義轉換方面郭學敏等[14]指出關聯數據在檔案知識組織中發揮了重要作用,元數據元素集、值詞匯表、數據集是語義轉換的源數據,語義轉換能加強語義融合與不同語義工具間的互操作,通過本體構建和語義匹配,檔案數據可轉換為關聯數據。在檔案語義重組方面,夏天等[15]認為面向知識服務進行檔案語義化重組具有重要意義,指出語義網與關聯數據在檔案組織與檔案數據語義重組方面的應用需要深化研究。從已有相關研究可以發現檔案語義轉換、檔案數據關聯、檔案語義重組與檔案知識服務之間存在著緊密的邏輯關聯,其中檔案語義轉換將檔案數據轉換成關聯數據,檔案關聯數據的應用實現了檔案數據語義重組,檔案語義重組有助于檔案資源實現更優的知識服務。

(4)檔案知識圖譜構建與智慧轉型研究。聚類結果4包含知識圖譜、智慧化、檔案服務、檔案資源、機器學習、科研檔案本體、清代7個關鍵詞,其中知識圖譜與檔案服務、檔案資源、機器學習、科研檔案本體都有共現,將這些關鍵詞的研究歸納為檔案知識圖譜構建研究,檔案資源與智慧化共現,回顧文獻,發現學者在檔案智慧轉型方面進行了相關研究。在檔案知識圖譜相關研究方面,宋雪雁等[16]基于《欽定大清會典圖》和《皇朝禮器圖式》構建清代祭祀禮器知識圖譜,此研究在一定程度上促進了清代檔案文獻的數字化進程。向夢宇[17]探索了基于知識圖譜的軍工研究所檔案知識服務實現方式和流程,通過信息抽取、知識融合、知識加工及知識更新,實現了檔案資源結構化、網絡化知識體系的構建。雷潔等[18]構建了計算機可識別、具有較強操作以及富含語義關系的科研檔案知識圖譜模型,實現了科研檔案資源的揭示、組織和關聯,促進了科研檔案資源的集成、共享與利用。雷潔等[19]指出利用知識圖譜、機器學習等語義技術對科研檔案資源進行知識組織和表示,能夠推動科研檔案智能管理。在檔案智慧轉型研究方面,祁天嬌等[20]指出檔案資源的智慧化轉型基本路徑為“數字化—數據化—語義化—智慧化”,數字化過程包括掃描加工、案卷著錄等工作,數據化過程包括OCR識別、內容級標簽等工作,語義化過程包括語義識別、揭示、表達等工作,智慧化過程包括檢索與可視化等。鄧君等[21]指出知識圖譜技術實現了口述歷史檔案資源關聯聚合,完成了“數字化—數據化—智慧化”過渡。基于已有研究可以發現,檔案知識圖譜構建是檔案智慧化轉型的重要環節,幫助實現檔案資源的可視化呈現與語義檢索。

(5)檔案語義關聯與語義發現研究。聚類結果5包含檔案、語義、語義組織、語義關聯、檔案館、檔案信息6個關鍵詞。通過回顧文獻,其中關鍵詞檔案、檔案信息、語義、語義組織表示基于檔案語義組織的檔案發現研究,語義關聯、檔案館共現,表示檔案語義關聯研究。檔案語義關聯與語義發現與檔案組織密切相關。在檔案語義組織方面,馮惠玲等[22]指出檔案語義組織旨在從檔案資源的內容、背景與結構數據中實現語義關聯與語義發現。張斌等[23]指出以本體、關聯數據和知識圖譜為代表的知識組織與推理技術能夠實現檔案知識對象間的語義關聯。周媛媛[24]構建了檔案語義關聯模型,指出語義關聯可推動檔案館構建異構分散的館藏資源語義關聯關系,構建的語義關聯模塊主要功能是語義分析與提取、語義關聯挖掘、跨媒體本體構建及跨媒體檢索技術。

(6)檔案數據化與領域本體相關研究。經過合并,聚類結果6包含檔案數據化、本體工程、電子文件管理等10個關鍵詞。檔案數據化、數據化、檔案數據都表示檔案領域數據化研究,記錄因子是檔案數據研究中提出的概念。本體工程、領域本體表示檔案領域本體研究,視頻檔案共現領域本體表示視頻檔案本體相關研究,檔案領域本體的構建也有利于電子文件管理。在檔案數據化、記錄因子方面,趙生輝等學者研究較多。趙生輝等[25]提出了體現檔案學特色的記錄因子理論,指出記錄因子可以劃分為時間類、空間類、人物類等類型,“檔案數據化”意味著檔案管理的基本單元由粗粒度的文檔轉變為細粒度的記錄因子,并指出檔案數據化的主線實踐模式是“檔案領域本體建模”。趙生輝等[26]指出數據本質上是記錄因子的結構化集合,記錄因子是描述社會系統實體、屬性、關系的通用框架,開展記錄因子攻關,對推動國家層面檔案數據資源中心協作網絡規劃建設具有建設性意義。在檔案領域本體相關研究方面,呂元智[27]指出視頻檔案語義標準的任務是將各類視頻檔案知識資源在語義標注領域本體的作用下,轉化為含有語義信息的、規范化的視頻檔案知識資源進行存儲。趙生輝等[28]在分析電子文件管理中“文檔態電子文件”管理技術瓶頸的基礎上,提出了“檔案領域數據本體”概念,是用來模擬和反映社會歷史領域各類實體屬性之間的語義關系及其運動變化過程的大規模關聯數據集,這推動了人工智能時代檔案信息服務智能化發展。

以上通過高頻關鍵詞聚類與關鍵詞共現關系回顧文獻發現學者對檔案保管與智慧建設、檔案社會記憶建構與知識服務等主題進行了相關研究,每個主題內部有著其內在的邏輯關聯。以上主題是近三年檔案語義化開發領域關注的重點與熱點內容,檔案保管是檔案資源語義化開發的基礎,語義化開發從最小粒度的知識單元——記錄因子著手,學者通過知識圖譜、領域本體的構建以及相關語義轉換技術,對檔案資源進行語義重組、語義關聯與語義發現,重構檔案社會記憶,最終實現檔案資源的智慧建設、智慧轉型,更好地為用戶提供知識服務。

通過以上主題的梳理與分析,可以發現學者在該領域的研究呈現出技術牽引、具體對象實踐、理論升華特征。對于技術環境的牽引與指導,可以發現在以上的主題研究中本體、關聯數據、語義網等語義技術在實現檔案資源的智慧建設、社會記憶建構、知識服務、語義關聯、語義發現、語義重組中發揮著重要作用。在具體對象實踐方面,學者們以萬里茶道檔案資源、清代祭祀禮器、口述歷史檔案資源、科研檔案為研究對象,進行了可視化、知識圖譜構建相關研究,這種對具體對象的實踐研究證明了語義技術的應用可實現檔案資源語義的關聯、揭示、發現、組織與表示,助力檔案智能化管理,實現檔案資源的智慧化應用和服務。在理論升華方面,該領域學者對檔案保管體系理念的演變進行了探討與分析,提出了檔案知識組織的、記錄因子“檔案領域數據本體”的概念,進行檔案智慧轉型路徑的探索,這些概念的提出,理念的探討以及路徑的探索會助力當下學者反思檔案資源語義化開發的內涵與外延,實現多維度、結構化、空間化的檔案資源語義化開發。

1.3 檔案資源語義化開發平臺與項目實踐研究

在平臺開發、項目實踐的相關研究中,夏翠娟老師團隊以紅色文獻資源為例,展開了較多研究。劉倩倩、夏翠娟等[29]指出,上圖紅色文獻平臺建設采用基于知識本體的方法,將多種紅色文獻資源和語義知識圖譜融合,應用關聯數據、GIS、數據可視化等多種技術進行了相關平臺建設,已經建成的一系列相關聯的知識服務平臺有中國家譜知識服務平臺、中文古籍聯合目錄及循證平臺、人名規范庫等,這些平臺取得了較好的服務效果。鐵鐘、夏翠娟等[30]指出,“上海記憶——紅色旅游”項目利用語義網、關聯數據、知識圖譜等技術將不可移動的歷史文化建筑與文化記憶資源深度整合,形成多角度、多層次、可操控、便于傳輸和展示的數據,直觀再現了上海的歷史變遷與人文建筑信息。張春景、夏翠娟[31]指出,開放數據競賽啟發并驗證了基于語義網和知識圖譜技術的多源數據融合以及利用微信小程序、GIS、3D建模、VR等技術的文旅融合服務,為紅色文化信息資源的開發和利用提供了新的模式和路徑。

1.4 中文研究熱點與前沿發現——高頻關鍵詞主題加權演進分析。對國內檔案資源語義化開發研究進行研究熱點與前沿探測,為使繪制的主題加權演進圖譜表達清晰,易于直觀發現研究熱點與前沿,綜合考慮關鍵詞數量及其頻次,選擇對頻次≥3的23個高頻關鍵詞進行主題加權演進分析,經過計算,基于關鍵詞的主題加權結果如圖4所示。橫軸表示關鍵詞平均出現的年份,縱軸表示關鍵詞在相應年份出現的頻次。對于橫軸而言,關鍵詞出現的年份越靠近2022年,說明其與該領域最新研究相關,代表檔案資源語義化開發研究的前沿;對于縱軸而言,關鍵詞出現的頻次越高,說明近三年一直受到學者關注,代表檔案資源語義化開發研究的熱點。

可以看出,在檔案資源語義化開發中,知識圖譜、數字人文、關聯數據、本體在近三年時間內出現的次數較多,時間較為平均,體現了檔案知識圖譜構建、檔案數字人文、檔案關聯數據、檔案本體構建一直是該領域的研究熱點。檔案數據化、知識發現、語義組織、人工智能出現的頻次相對較低,但相比其他關鍵詞時間接近2022年,說明檔案數據化、檔案知識發現、檔案語義組織以及人工智能技術是檔案資源語義化開發研究的前沿內容。

2 國外文獻梳理

本文以所有字段=“Archival semantics” 或者 所有字段=“File semantics”為檢索方式在Web of Science、ScienceDirect 等數據庫中進行檢索,時間限定在2019年8月31日—2022年8月31日,共檢索到論文192篇。依據中文文獻梳理可知,檔案資源語義化開發研究中涉及具體對象除檔案外,還有文件、文本以及記錄等與檔案息息相關的內容,因此對英文文獻篇名、摘要進行梳理與篩查,篩查方式為篇名或摘要部分含有“Archives、Semantic”或者“File、Semantic” 或者 “Record、Semantic” 或者“Documents、Semantic”或者“Text、Semantic”等特征詞,經過整理與校對,最終保留與研究主題相符合的外文文獻31篇。

2.1 外文文獻關鍵詞數據分析。外文文獻關鍵詞數據分析將從關鍵詞詞頻統計、每年關鍵詞分布分析、高頻關鍵詞共現矩陣分析方面進行總結。

(1)外文關鍵詞詞頻統計。本研究對外文關鍵詞進行了頻次統計,頻次≥2的關鍵詞共有7個,其余關鍵詞在31篇文獻中出現頻次只有1次,說明外文文獻研究的主題關鍵詞相對中文而言較為分散,因為此領域研究外文成果相對較少,高頻關鍵詞以及其共現相對應也較少。經過以上統計,本研究繪制了外文文獻檔案資源語義化開發研究關鍵詞詞云圖(圖5),并將頻次≥2的關鍵詞進行了表格統計(表3)。

可以看出,在外文文獻中,頻次≥2的關鍵詞為Semantics(語義)、Ontologies(本體)、Semantic Web(語義網)、Metadata(元數據)、Deep Learning(深度學習)、Linked Data(關聯數據)、Feature Extraction(特征抽取)。以上關鍵詞表示語義描述、語義抽取、語義組織、語義關聯的技術支撐。除以上高頻關鍵詞外,剩余技術相關關鍵詞有Image Segmentation(圖像分割)、Character Recognition(字符識別)、Deep Semantic Feature(深層語義特征)、Convolutional Neural Network(卷積神經網絡)、Deep Neural Network(深層神經網絡)、Machine Learning(機器學習)等。本體、元數據、語義網、關聯數據、深度學習、機器學習等技術方法的應用實現了語義關聯、特征抽取,圖像分割以及深層語義特征分析,技術方法的創新與更迭推進了檔案資源語義化深度開發。

(2)外文關鍵詞時間分布。本文按2019年8月31日—12月31日、2020年、2021年、2022年1月1日—8月31日四個時段對外文文獻關鍵詞進行了部分統計,如圖6所示。

在2019年8月31日—12月31日時段內,文獻中出現的關鍵詞有Web Ontology Language(網絡本體語言)、Unified Modelling Language(統一建模語言)、Information Model(信息模型)、Geographic Information Systems(地理信息系統)、Big Data(大數據)等,說明在這個時段學者對本體語言、模型構建、地理信息系統應用、大數據分析在檔案資源語義化開發中的應用進行了相關研究。本體、信息模型的研究實現了該領域相關概念及語義關系的規范化、統一化表述,地理信息系統的應用對檔案資源中的空間信息進行了精準、可視化的呈現,大數據思維與技術的應用實現了海量檔案數據的語義挖掘與分析。在2020年時段內,文獻中出現的關鍵詞有Semantics(語義)、Feature Extraction(特征抽取)、Deep Learning(深度學習)、Resource Description Framework(RDF資源描述框架)、Linked Data(關聯數據)、Semantic Web(語義網)等,在這個時段內學者對深度學習、RDF資源描述框架、關聯數據等對語義深度挖掘的技術方法應用進行了相關研究,深度學習技術在檔案資源實體識別、關系抽取方面得到了應用并取得較好結果,關聯數據的應用可助力檔案資源的集成與共享,RDF三元組描述框架對檔案資源的統一形式化表示具有重要意義,便利學者標注、抽取與獲得檔案資源中的實體語義關系。在2021年時段內,文獻中出現的關鍵詞有Semantics(語義)、Ontologies(本體)、Document Analysis And Recognition(文檔分析和識別)、Character Recognition(特征識別)、Text Recognition(文本識別)、Text Analysis(文本分析)等,這個時段內研究包括對檔案資源內容進行語義方面的特征識別、文本分析等,文本分析是檔案資源文本挖掘的主要手段,基于計算機對檔案資源文本理解與分析的基礎上,從檔案資源文本數據中抽取文本的特征與信息。檔案資源的特征識別與生物特征識別緊密關聯,智能機器通過獲取和分析人臉、聲紋、筆跡等生物特征,可助力檔案資源中聲像檔案資源的語義化開發。在2022年1月1日—8月31日時段內,文獻中出現的關鍵詞有Convolutional Neural Network(卷積神經網絡)、Deep Semantic Feature(深度語義特征)、Computational Semantics(計算語義學)、Data Curation(數據保管)、RDF Triples(RDF三元組)等,在這個時段學者對卷積神經網絡數據處理、深度語義特征抽取、計算語義學等進行了相關研究,卷積神經網絡技術的進步與發展實現了檔案資源深度語義特征抽取,在計算語義學理論的指導下,學者可對檔案資源詞匯、句子、文本所蘊含的意義進行形式化描述,設計一套計算機可理解的語義語言,對檔案資源進行語義解釋,可以揭示檔案資源不同詞匯、句子及文本間的各類語義關聯。

(3)基于高頻關鍵詞的外文文獻共現分析。在相關外文文獻中,頻次≥2的關鍵詞共有7個,本文對這7個關鍵詞進行了共現分析(圖7)。

其中,Semantics(語義)與Ontologies(本體)共現1次,與Metadata(元數據)共現2次,與Deep Learning(深度學習)共現1次,與Feature Extraction(特征抽取)共現2次;Ontologies(本體)與Semantic Web(語義網)共現1次,與Linked Data(關聯數據)共現1次;Semantic Web(語義網)與Linked Data(關聯數據)共現1次;Deep Learning(深度學習)與Feature Extraction(特征抽取)共現1次。基于共現結果,可以發現Semantics(語義)與其他關鍵詞共現較多,語義、本體、語義網、關聯數據之間的共現形成了閉環,說明學者以本體構建為基礎,結合語義網、關聯數據等技術實現檔案資源的語義化開發研究。語義、深度學習、特征抽取之間的共現體現了學者在對檔案資源語義化開發研究中,將深度學習等技術應用于資源內容的特征抽取,實現了檔案資源的特征識別與分析。此外,語義與元數據共現2次,說明檔案資源的語義化開發需要構建規范化的元數據體系,這對實現檔案資源的語義發現和語義分析具有重要意義。

2.2 基于高頻關鍵詞共現的外文文獻主題聚類分析。本文將國外檔案資源語義化開發研究主題歸納為3個方面,分別是基于本體的語義化開發研究、基于元數據的語義化開發研究和基于深度學習與特征抽取的語義化開發研究,現將每個主題進行相關文獻的梳理與總結。

(1)基于本體構建的語義化開發研究。Wang等[32]基于語義網和語義本體,總結了政府檔案相關領域知識,構建了中國政府檔案本體模型,進一步推動了檔案學在數字化領域的研究和實踐。Viry 等[33]提出一種基于語義Web技術從應用程序數據模型中展示地理可視化的方法,實現了以本體論推導知識自動創建地理可視化的目標。Stork等[34]提出了一個自然歷史集合本體論NHC-Ontology(Natural History Collection Ontology)語義模型,用于構建自然歷史檔案館藏中的命名實體,并且設計了一個注釋工具,對1820年至1850年間自然歷史委員會收集的8 000頁書籍頁面的圖像進行了專家語義注釋,實現了NHC-Ontology語義模型與語義注釋數據的結合,此研究解釋了本體在語義建模方面的價值。

(2)基于元數據規范化的語義化開發研究。Neal等[35]在生物網絡計算建模(COMBINE)共識指導下,開發了一個規范、用于開放建模和交換(OMEX)格式的檔案編碼注釋,OMEX元數據有助于注釋檔案中各種模型和數據表示格式的規范化。Gennari等[36]詳細介紹了規范的 OMEX 元數據1.2 版本,其是支持語義模型注釋的軟件工具的技術指南,在模型重用、語義發現和語義分析方面具有重要意義。

(3)基于深度學習與特征抽取的語義化開發研究。Ren等[37]提出了基于深度學習框架——動態卷積神經網絡(DCNN)的電子設備配置數據集的自動映射方法,使用Word2vec詞模型對詞及其語義關系進行向量化,實現了語義規律挖掘和智能記錄儀的數據集自動映射,此研究對語義映射、語義特征提取具有重要意義。Wang等[38]指出深度信念網絡模型使用多級神經網絡從訓練數據中學習表示,該表示可以重建訓練數據的語義和內容,使用深度信念網絡從源代碼中提取的標記向量中自動學習語義特征,并利用這些特征來構建和訓練缺陷預測模型,對文件級預測具有顯著作用。

通過上述國外相關主題梳理可以發現,本體幫助實現檔案領域知識總結,借助本體可以對檔案資源內容進行知識表示和知識推理,幫助構建命名實體識別,對檔案資源語義建模具有較大價值。元數據有助于規范檔案資源中的模型和數據表示格式,實現檔案資源的語義發現和語義分析。深度學習實現檔案資源語義特征的提取,對文件級缺陷預測具有顯著作用。以上技術方法的綜合應用能夠實現多層次、空間化的檔案資源語義化開發,有助于檔案資源智慧價值的挖掘,輔助人文學者構筑以語義發現與語義關聯為紐帶的檔案資源知識記憶體系。

2.3 國外檔案資源語義化開發平臺與項目實踐研究。在國外檔案資源語義化開發實踐研究中,Bartalesi等[39]芬蘭文化遺產開發項目中的遺產資源來自22個博物館、檔案館和圖書館,包含繪畫、雕塑、漫畫、人物傳記等不同類型對象,其中關于傳記桑波開發的系統使用CIDOC CRM模型對傳記詞典進行敘事概念表示,基于該系統構建了數字圖書館,包含13 000多位歷史人物傳記,通過使用知識提取技術將文本傳記轉換為關聯開放數據,通過內部與外部數據源鏈接進行推理來豐富數據,并且豐富了數據分析和數據可視化的工具,助力學者進行數字人文研究。Koho等[40]指出基于桑波傳記的另一個項目是關于手稿研究的數字圖書館開發,旨在將不同數據庫來源的手稿數據集集成到共享平臺中進行研究和發現,此項目統一并發布了手稿元數據作為開放關聯數據,創建了語義門戶和開放關聯數據服務,便于進行搜索和發現,支持使用推理引擎進行知識發現,為用戶提供更好的知識服務。Felipe等,[41]指出拉丁美洲漫畫檔案館(LACA)對拉丁美洲漫畫進行了數字化和編碼,在漫畫檔案上為學者和學生提供了助力人文學科研究的數字標記和注釋等數字技術工具,方便學生和研究人員能夠合作定義要注釋的關鍵術語語義,幫助學者和學生進行語義主題研究等學術探索。

2.4 外文研究熱點與前沿發現——主題加權演進分析。與基于中文關鍵詞進行主題加權演進來發現研究熱點和前沿相同,對頻次≥2的外文關鍵詞進行主題加權演,以2020年為時間間隔點,可以發現在外文文獻高頻關鍵詞中,特征抽取、深度學習、本體、元數據是近3年檔案語義領域相關研究的熱點,語義網關鍵詞時間相比最靠前,說明其在外文文獻檔案語義相關研究中既是熱點也是前沿。

3 國內外檔案資源語義化開發研究總結分析

本文利用Co-Occurrence13.2(COOC13.2)軟件,[42]對國內外檔案資源語義化開發研究進行了關鍵詞詞頻統計、條形圖繪制、共現矩陣計算、主題聚類分析以及主題加權演進分析,通過以上分析,可以發現國內外學者對檔案資源語義化開發在一些方面也達成一致意見:(1)檔案資源語義化開發的對象是多源多構的,檔案資源來源于檔案館、檔案網站、檔案數據庫、檔案微信公眾號以及包含檔案資源的圖書館、博物館等組織或平臺,數數據結構包括結構化數據、半結構化數據與非結構化數據;(2)檔案資源語義化開發的主要目標是通過方法與技術實現檔案資源語義內容的揭示與互聯,以求解檔案資源語義知識挖掘與關聯問題或者滿足知識服務需求,國內外都對檔案資源語義化開發的技術應用較為重視,文獻中提到包括本體、元數據、關聯數據、語義網、知識圖譜、GIS、機器學習、深度學習等主要語義開發技術與方法;(3)檔案資源語義化開發涉及了多學科的理論與方法,主要涉及檔案學、圖書情報學、計算機科學、語義學、數學等不同學科的理論和方法,這映射了檔案學與其他學科的合作共生關系,檔案資源語義化開發也是多學科交叉融合的關鍵體現;(4)檔案資源語義化開發的結果是提供用戶所需的知識,或對于現有知識體系而言的新知識,助力學者與學生進行數字人文研究,實現檔案資源智慧價值的挖掘。

通過對檔案文獻資源語義化開發平臺與項目的相關實踐研究分析,可以發現國內外學者大多基于輔助學者進行數字人文研究視角,構建相關的數據庫、語義門戶、數字圖書館等服務平臺以實現檔案資源的語義化開發,國內涉及的實踐項目有上海圖書館發布的中國家譜知識服務平臺、中國古籍聯合目錄及循證平臺、人名規范庫等,國外涉及的實踐實現包括基于桑波傳記開發的數字圖書館、關于手稿研究的語義門戶以及拉丁美洲漫畫檔案館項目等。這些實踐研究應用了本體、元數據、關聯數據、語義網、知識圖譜、GIS等技術,實現了檔案資源語義的深度挖掘與關聯,為學者和學生進行數字人文研究提供了助力。

4 結語

本文對近三年國內外檔案資源語義化開發研究進行了系統梳理,重點內容為通過高頻關鍵詞的共現分析與回顧文獻總結了國內外檔案資源語義化開發中的研究主題,剖析了各主題之間的邏輯關聯以及各主題與檔案資源語義化開發的關系。同時,對高頻關鍵詞進行主題加權統計分析,進而發現在高頻關鍵詞中近三年國內外檔案資源語義化開發研究熱點與前沿,助力學者快速掌握此領域的熱點與前沿。此外,本文對國內外檔案資源語義化開發平臺、項目實踐進行了梳理概括,通過梳理可以發現,相關檔案資源服務平臺為學者和用戶提供了良好的知識服務,助力學者進行數字人文視域下檔案資源語義化開發研究。最后,本文對國內外該領域研究進行了分析,發現了國內外檔案資源語義化開發之間的共性,基于此,總結了檔案資源語義化開發的對象、目標、多學科視角、結果實現以及相關應用技術等內容。

基于本文的梳理與總結可以發現,技術的更新、多學科的交叉融合創新了檔案資源語義化開發模式,推動了檔案資源從數據價值到信息價值到知識價值再到智慧價值的凝練與挖掘,隨著用戶對檔案資源語義知識服務的需求不斷變化,這種需求反過來也會推動檔案資源語義化開發技術及理論層面的研究深度拓展。在未來,計算機科學、信息哲學、數字人文學、語義學將與檔案學深度交融,在檔案資源語義化開發中發揮更大的作用,而關于檔案資源多模態語義融合與語義發現將是未來一段時間內檔案資源語義化開發研究的重點內容。

*本文系國家社會科學基金項目“數據驅動的檔案文獻資源知識構建與知識服務研究”(項目號:21BTQ109)的研究成果之一。

參考文獻:

[1][22]祁天嬌,馮惠玲.檔案數據化過程中語義組織的內涵、特點與原理解析[J].圖書情報工作,2021,65(09):3-15.DOI:10.

[2][13][21]鄧君,王阮.口述歷史檔案資源知識圖譜與多維知識發現研究[J].圖書情報工作,2022,66(07):4-16.

[3]錢毅.從保護到管護:對象變遷視角下的檔案保管思想演變[J].檔案學通訊,2022(02):82-88.

[4]牛力,黎安潤澤,劉慧琳,等.從物理到數據:智慧檔案2.0體系構建研究[J].檔案學研究,2022(03):84-90.

[5]郝偉斌,王君儀,段燕鴿.檔案文化智慧數據資源建設——河南省檔案館館藏中福公司檔案整理開發研究之二[J].檔案管理,2022(01):114-116.

[6]曾蕾,譚旭.數據的語義增強——解讀圖檔博支持數字人文的新動向[J].數字人文研究,2021,1(01):65-86.

[7]趙雪芹,李天娥.面向數字人文的檔案領域本體構建研究——以萬里茶道檔案資料為例[J].情報理論與實踐,2022,45(08):154-161.

[8]房小可.檔案學科視角下社會記憶構建框架研究[J].檔案學研究,2021(03):18-23.

[9]房小可,王巧玲.檔案著錄?知識關聯與社會記憶重構[J].檔案學通訊,2021(03):27-33.

[10]牛力,高晨翔,劉力超,等.層次與空間:數字記憶視角下名人檔案的價值挖掘研究[J].檔案學研究,2021(05):138-144.

[11]周娟娟,李澤鋒,劉竟一.基于知識圖譜的干部人事檔案知識化服務研究[J].檔案管理,2021(06):87-89.

[12]高淞,王向女.數字人文視域下口述歷史檔案資源開發利用研究[J].山西檔案,2021(03):61-70.

[14]郭學敏,Ryan Shaw.基于關聯數據的檔案語義轉換實踐分析[J].檔案學通訊,2019(05):50-57.

[15]夏天,錢毅.面向知識服務的檔案數據語義化重組[J].檔案學研究,2021(02):36-44.

[16]宋雪雁,張偉民,張祥青.基于檔案文獻的清代祭祀禮器知識圖譜構建研究[J].圖書情報工作,2022,66(03):140-151.

[17]向夢宇.基于知識圖譜的軍工研究所檔案知識服務模式研究[J].機電兵船檔案,2022(01):21-23.

[18]雷潔,趙瑞雪,李思經,等.科研檔案管理知識圖譜構建研究[J].科技管理研究,2020,40(11):162-169.

[19]雷潔,趙瑞雪,李思經,等.知識圖譜驅動的科研檔案大數據管理系統構建研究[J].數字圖書館論壇,2020(02):19-27.

[20]祁天嬌,曹宇,傅曉丹,等.“十四五”時期檔案資源智慧化轉型研究[J].檔案學通訊,2021(06):96-98.

[23]張斌,高晨翔,牛力.對象?結構與價值:檔案知識工程的基礎問題探究[J].檔案學通訊,2021(03):18-26.

[24]周媛媛.綜合性檔案館基于特征提取與數據分析的檔案語義關聯模型應用研究與實踐[J].蘭臺世界,2022(06):59-61.

[25]趙生輝,胡瑩.“檔案數據化”底層邏輯的解析與啟示[J].檔案學通訊,2021(04):20-27.

[26]趙生輝,胡瑩,黃依涵.數據?檔案及其共生演化的微觀機理解析[J].檔案學通訊,2022(02):4-12.

[27]呂元智.視頻檔案資源多層級語義標注框架構建研究[J].數字圖書館論壇,2021(11):13-20.

[28]趙生輝,胡瑩.擁有整體性記憶:檔案領域數據本體管理論綱[J].山西檔案,2020(06):17-27.

[29]劉倩倩,夏翠娟,朱武信.紅色文化傳承視域下的紅色文獻服務平臺建設實踐與思考[J].信息資源管理學報,2021,11(04):17-24+32+16.

[30]鐵鐘,夏翠娟,黃薇.文旅融合視域下紅色文化信息資源數據化創新設計與實踐[J].信息資源管理學報,2021,11(04):33-39+59.

[31]張春景,夏翠娟.開放數據競賽在紅色文化信息資源開發利用中的價值貢獻研究——以上海圖書館開放數據競賽為例[J].信息資源管理學報,2021,11(04):25-32.

[32]Wang Z Y,Song Z P,Yu G,et al.An Ontology for Chinese Government Archives Knowledge Representation and Reasoning[J].IEEE Access,2021,9:130199-130211.

[33]Viry M,Villanova-Oliver M.How to Derive a Geovisualization from an Application Data Model:An Approach Based on Semantic Web Technologie[J].International Journal of Digital Earth,2021,14(07):874-898.

[34]Stork L,Weber A,Miracle E G,et al.Semantic annotation of natural history collections[J].Journal of Web Semantics,2019,59:100462.

[35]Neal M L,Gennari J H,Waltemath D,et al.Open modeling and exchange(OMEX) metadata specification version 1.0[J].Journal of Integrative Bioinformatics,2020,17(2-3):20200020.

[36]Gennari J H,K?nig M,Misirli G,et al.OMEX metadata specification(version 1.2)[J].Journal of Integrative Bioinformatics,2021,18(03):20210020.

[37]Ren J B,Li T C,Gen S B,et al.An Automatic Mapping Method of Intelligent Recorder Configuration Datasets Based on Chinese Semantic Deep Learning[J].IEEE Access,2020,8:168186-168195.

[38]Wang S,Liu T Y,Jaechang N,et al.Deep Semantic Feature Learning for Software Defect Prediction[J].IEEE Transactions on Software Engineering,2020,46(12):1267-1293.

[39]Bartalesi V,Pratelli N,Lenzi P.linking different scientific digital libraries in Digital Humanities:the IMAGO case study[J].International Journal on Digital Libraries:2022,23:303-317.

[40]Koho M,Burrows K,Hyv?nen E,et al.Harmonizing and publishing heterogeneous premodern manuscript metadata as Linked Open Data[J].JASIST,2022,73(02):240-257.

[41]Felipe G ,Scott W ,Rikk M ,et al.The Latin American Comics Archive(LACA)an online platform housing digitized Spanish-language comics as a tool to enhance literacy,research,and teaching through scholar/ student collaboration[J].Cuadernos del Centro de Estudios en Dise?o y Comunicación.Ensayos,2020,89:47-67.

[42]學術點滴,文獻計量. COOC一款用于文獻計量和知識圖譜繪制的軟件[CP/OL].[2022-10-13].https://gitee.com/academic_2088904822/academic-drip.

(作者單位:吉林大學商學與管理學院 宋雪雁,教授,博士生導師;張祥青,博士研究生;張偉民,博士研究生 來稿日期:2023-04-19)

猜你喜歡
關聯語義資源
基礎教育資源展示
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
一樣的資源,不一樣的收獲
語言與語義
資源回收
奇趣搭配
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 日韩午夜片| 国产综合日韩另类一区二区| 久草热视频在线| 国产乱人伦偷精品视频AAA| 原味小视频在线www国产| 激情网址在线观看| 国产欧美视频一区二区三区| 伊人网址在线| 久久香蕉国产线看观看亚洲片| 麻豆国产精品一二三在线观看| 久久久久九九精品影院| 精品久久久久久中文字幕女| 国产资源站| 色爽网免费视频| 永久免费精品视频| 国产成人无码AV在线播放动漫| 国产在线精品网址你懂的| 国产高清免费午夜在线视频| 激情在线网| 久久窝窝国产精品午夜看片| 依依成人精品无v国产| 欧美精品v欧洲精品| 日韩精品高清自在线| 久久精品这里只有精99品| 思思热精品在线8| 亚洲男人天堂2018| 亚洲毛片网站| 国产人成乱码视频免费观看| 手机在线国产精品| 激情综合婷婷丁香五月尤物| 中文字幕日韩视频欧美一区| 久久精品最新免费国产成人| 国产黑丝一区| 欧美精品1区| 99一级毛片| 成人在线观看不卡| 欧美精品另类| 2024av在线无码中文最新| 性色一区| 午夜啪啪福利| 亚洲制服中文字幕一区二区| 欧美怡红院视频一区二区三区| 草逼视频国产| 一级毛片在线播放| 色网站免费在线观看| 又大又硬又爽免费视频| 欧美激情一区二区三区成人| 免费a级毛片视频| 亚洲精选无码久久久| 男女男精品视频| 欧美另类精品一区二区三区| 免费一级毛片不卡在线播放 | 亚洲va视频| 天天色天天综合网| AV无码无在线观看免费| 成人国产免费| 日韩精品专区免费无码aⅴ| 十八禁美女裸体网站| 国产大片喷水在线在线视频| 亚洲综合九九| 久久婷婷六月| 国产精品无码制服丝袜| 国产色婷婷| 亚洲男人天堂网址| 在线观看精品国产入口| 国产精品蜜芽在线观看| 亚洲欧美另类久久久精品播放的| 一级成人a毛片免费播放| 亚洲中文字幕精品| 日韩精品成人网页视频在线| 亚洲美女操| 国产区网址| 中国国产高清免费AV片| 亚洲欧美日韩动漫| a毛片免费观看| 亚洲另类色| 国产无码精品在线| 国产原创自拍不卡第一页| 精品国产成人三级在线观看| 亚洲人精品亚洲人成在线| 无码日韩视频| 国产粉嫩粉嫩的18在线播放91|