科研檔案管理知識(shí)圖譜構(gòu)建研究

2020-06-29 02:42:54趙瑞雪李思經(jīng)鮮國建寇遠(yuǎn)濤

科技管理研究 2020年11期

雷潔，趙瑞雪，3，李思經(jīng)，鮮國建，3，寇遠(yuǎn)濤，3

（1.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所，北京 100081；2.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與發(fā)展研究所，北京 100081；3.農(nóng)業(yè)部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室，北京 100081）

科研檔案日益成為國家基礎(chǔ)性戰(zhàn)略資源，科研檔案管理工作內(nèi)容也更加豐富、需求更加多樣，地位和作用日益重要。隨著科學(xué)技術(shù)以及社會(huì)生產(chǎn)力的發(fā)展與變化，檔案管理方式與流程、檔案利用思想等在不同時(shí)期有不同的表現(xiàn)。我國檔案管理的發(fā)展可分為3 個(gè)階段：檔案實(shí)體管理、檔案信息管理和檔案知識(shí)管理階段。2016 年國家檔案局發(fā)布的“十三五”規(guī)劃綱要中［1］，闡明了當(dāng)前檔案管理面臨的主要挑戰(zhàn)：電子政務(wù)系統(tǒng)的建設(shè)極大地促進(jìn)了電子檔案資源的形成；檔案的信息化與網(wǎng)絡(luò)化成為主要的發(fā)展趨勢(shì)；大數(shù)據(jù)等技術(shù)的發(fā)展給檔案數(shù)據(jù)安全與存儲(chǔ)、隱私保護(hù)等帶來挑戰(zhàn)。掌握科研檔案的管理現(xiàn)狀、發(fā)現(xiàn)目前科研檔案管理中存在的問題與需求，對(duì)開展科研檔案管理研究具有重要影響。隨著數(shù)字檔案急劇增加，大數(shù)據(jù)、云計(jì)算、語義網(wǎng)等信息技術(shù)正在推動(dòng)檔案管理方法的創(chuàng)新。傳統(tǒng)的檔案收集、管理與利用過程隨著信息技術(shù)的快速發(fā)展和廣泛應(yīng)用發(fā)生了改變。但在現(xiàn)有的檔案系統(tǒng)內(nèi)資源的加工粒度依然按照傳統(tǒng)的“卷”和“件”進(jìn)行，標(biāo)引按照檔案著錄格式開展，檔案數(shù)據(jù)關(guān)聯(lián)度與利用率都較低，對(duì)檔案資源的管理依舊處于“僅保存”狀態(tài)。如何充分發(fā)掘科研檔案資源這座“沉睡的寶藏”，改變傳統(tǒng)的科研檔案管理模式，實(shí)現(xiàn)檔案資源以及檔案與外部知識(shí)庫之間知識(shí)關(guān)聯(lián)、集成與共享，構(gòu)建一個(gè)語義化、智能化的科研檔案管理系統(tǒng)是目前科研檔案管理迫切需要解決的問題。

1 相關(guān)研究

隨著語義技術(shù)的發(fā)展，檔案管理逐漸向關(guān)聯(lián)數(shù)據(jù)、語義組織方向發(fā)展，檔案管理語義知識(shí)組織標(biāo)準(zhǔn)化日益重要與緊迫。檔案語義知識(shí)組織標(biāo)準(zhǔn)化涉及知識(shí)組織系統(tǒng)、本體、語義網(wǎng)（關(guān)聯(lián)數(shù)據(jù)）等標(biāo)準(zhǔn)化。語義網(wǎng)是一種數(shù)據(jù)組織方式，能夠在數(shù)據(jù)之間建立鏈接，從而形成關(guān)聯(lián)數(shù)據(jù)［2］，而知識(shí)圖譜技術(shù)則是實(shí)現(xiàn)語義網(wǎng)絡(luò)連接與展示的基礎(chǔ)和橋梁。知識(shí)圖譜（Knowledge Graph）由谷歌在2012 年提出，旨在實(shí)現(xiàn)更智能的搜索引擎。目前知識(shí)圖譜在智能問答、情報(bào)分析等應(yīng)用中也發(fā)揮了重要作用［3］。通用知識(shí)圖譜一般面向多領(lǐng)域資源，突出知識(shí)的廣度。如國外公開可獲取的知識(shí)庫資源Freebase 由美國Metaweb 公司開發(fā)，旨在創(chuàng)建一個(gè)全球資源允許人與機(jī)器更有效地訪問公共信息［4］。在DBpedia 知識(shí)庫中，用戶可基于語義查詢維基百科資源的關(guān)系和屬性，還包括指向其他相關(guān)數(shù)據(jù)集的鏈接［5］。FABIAN［6］從維基百科、Word Net、Geo Names 中提取數(shù)據(jù)，到2019 年已經(jīng)擁有超過1 000 萬個(gè)實(shí)體。CN-DBpedia 是由復(fù)旦大學(xué)研發(fā)的結(jié)構(gòu)化百科，主要從中文百科類網(wǎng)站的純文本頁面中提取信息，形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)，包含900 萬+的百科實(shí)體以及6 700 萬+的三元組關(guān)系，目前提供Dump 數(shù)據(jù)下載［7］。上海交通大學(xué)發(fā)布的百科數(shù)據(jù)的zhishi.me 融合百度百科、互動(dòng)百科、維基百科，抽取結(jié)構(gòu)化數(shù)據(jù)，提供SPARQL 查詢，以HTML 的形式給出反饋結(jié)果［8］。另外還有百度的知心、搜狗的搜立方，等等。這些知識(shí)圖譜具有語義領(lǐng)域覆蓋面廣、規(guī)模大、結(jié)構(gòu)良好等特點(diǎn)。垂直領(lǐng)域知識(shí)圖譜針對(duì)具體領(lǐng)域資源，注重知識(shí)的深度和完備性，對(duì)知識(shí)的展示粒度更細(xì)。Linked Life Data是生物醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜，涵蓋了醫(yī)學(xué)領(lǐng)域幾乎所有的重要對(duì)象。全球地理領(lǐng)域Geo Names 免費(fèi)數(shù)據(jù)庫由美國國家測(cè)繪等部門收集數(shù)據(jù)，地名數(shù)據(jù)覆蓋性強(qiáng)，包含近200 種語言的1 100 多萬個(gè)地名［9］。

我國在20 世紀(jì)90 年代初開始針對(duì)檔案的電子形式資源進(jìn)行研究，提出多位一體的電子數(shù)據(jù)管理模式和多重管控的思想［10］。在信息技術(shù)廣泛運(yùn)用的背景下提出了文件管理流程重組，有利于文檔一體化管理［11］。許多學(xué)者就我國電子文件管理國家戰(zhàn)略開展了深入的研究［12-14］。國外在語義關(guān)聯(lián)方面的研究主要集中在基于已有元數(shù)據(jù)如EAD、Dublin Core 等，探討元數(shù)據(jù)語義互操作以及映射關(guān)系。在各個(gè)領(lǐng)域開展了語義技術(shù)的應(yīng)用研究，如從語義網(wǎng)的角度出發(fā)，探討了圖書館、檔案館以及博物館之間的數(shù)據(jù)關(guān)聯(lián)［15］。還有研究采用了本體技術(shù)構(gòu)建知識(shí)庫模式應(yīng)用于電子政務(wù)，對(duì)數(shù)據(jù)和服務(wù)的描述進(jìn)行了改進(jìn)［16］。在目前的國內(nèi)外關(guān)于檔案的語義化研究中，國外更加注重元數(shù)據(jù)的語義融合以及泛在化的檔案資源與圖書等資源的整合。國內(nèi)研究更多聚焦在檔案資源體系語義互操作與檔案系統(tǒng)資源挖掘、檔案數(shù)據(jù)整合與集成等。從檔案管理前端出發(fā)，關(guān)注檔案采集、加工與管理等過程中語義技術(shù)的應(yīng)用較少。本研究利用知識(shí)圖譜開展科研檔案資源管理研究，通過構(gòu)建一種計(jì)算機(jī)可識(shí)別、具有較強(qiáng)操作性以及富含語義關(guān)系的科研檔案知識(shí)圖譜模型，以揭示、組織和關(guān)聯(lián)科研檔案資源。通過科研檔案知識(shí)圖譜數(shù)據(jù)層實(shí)例的填充和聚合，基于知識(shí)抽取與知識(shí)融合等技術(shù)，實(shí)現(xiàn)科研檔案的碎片化與精細(xì)化加工。基于知識(shí)圖譜的科研檔案管理實(shí)現(xiàn)科研檔案資源知識(shí)關(guān)聯(lián)以及科研檔案資源更廣的集成、共享與利用。

2 科研檔案知識(shí)圖譜構(gòu)建

2.1 總體構(gòu)建思路

在科研檔案管理需求分析基礎(chǔ)上，明確科研檔案知識(shí)圖譜功能并確定數(shù)據(jù)源。結(jié)合科研檔案特點(diǎn)，設(shè)計(jì)科研檔案管理知識(shí)圖譜構(gòu)建框架，選取構(gòu)建語言、構(gòu)建工具以及構(gòu)建過程，進(jìn)行圖譜模式層構(gòu)建，包括定義科研檔案知識(shí)圖譜所包含的實(shí)體類型及類的屬性、實(shí)體類之間的語義關(guān)系等。之后，根據(jù)構(gòu)建的科研知識(shí)圖譜模式，匹配檔案數(shù)據(jù)特點(diǎn)，選取合適的命名實(shí)體識(shí)別和語義關(guān)系抽取方法對(duì)檔案數(shù)據(jù)開展知識(shí)抽取，構(gòu)建科研檔案知識(shí)圖譜數(shù)據(jù)層。通過實(shí)體消歧、實(shí)體對(duì)齊等過程進(jìn)行知識(shí)融合，并與科研檔案知識(shí)圖譜模式互相映射。經(jīng)過知識(shí)融合過程，科研檔案數(shù)據(jù)資源形成標(biāo)準(zhǔn)的數(shù)據(jù)表示，經(jīng)過一定的質(zhì)量評(píng)估，最終根據(jù)科研檔案圖譜構(gòu)建目的選取適合方式進(jìn)行知識(shí)存儲(chǔ)，完成科研檔案知識(shí)的繪制和管理（見圖1）。

圖1 科研檔案知識(shí)圖譜構(gòu)建思路

2.2 科研檔案知識(shí)圖譜模式層構(gòu)建

構(gòu)建科研知識(shí)圖譜模式的目的主要有兩方面：一是對(duì)科研檔案知識(shí)抽取結(jié)果進(jìn)行明確且規(guī)范、客觀的描述，使其可以被計(jì)算機(jī)理解和處理；二是將抽取的實(shí)體、關(guān)系進(jìn)行有效地組織、管理，以便于后期科研檔案管理模式擴(kuò)展。科研檔案知識(shí)圖譜的構(gòu)建過程可分為兩個(gè)階段：一是描述體系設(shè)計(jì)；二是知識(shí)圖譜模型構(gòu)建（見圖2）。

圖2 科研檔案知識(shí)圖譜具體構(gòu)建過程

描述體系設(shè)計(jì)過程，面向科研機(jī)構(gòu)檔案管理智能化、精細(xì)化與關(guān)聯(lián)化的需求，制定采集策略與范圍遴選檔案資源，對(duì)科研檔案核心要素進(jìn)行分析，參考CERIF、Nanopublication 等模型框架［17-18］，進(jìn)行科研檔案語義描述體系設(shè)計(jì)。

知識(shí)圖譜模型構(gòu)建過程，利用本體編輯工具Protégé，使用資源描述框架RDF 和WEB 本體表示語言O(shè)WL，繼承利用EAD、DCMI、VIVO、SWRC、VIVO、Schema.org 等現(xiàn)有較為通用的本體模型，結(jié)合科研檔案語義描述體系，構(gòu)建科研檔案的知識(shí)圖譜模型，形成檔案資源之間以及檔案資源與外部知識(shí)庫的語義關(guān)聯(lián)，為檔案資源精細(xì)化加工與智能組織提供語義框架支持。

2.2.1 描述體系設(shè)計(jì)

當(dāng)前，科研檔案主要涉及與科研活動(dòng)相關(guān)以通知類規(guī)定類為主的綜合政務(wù)文件，與科研項(xiàng)目相關(guān)的科研項(xiàng)目材料，科研活動(dòng)中形成的科研成果文件，與科研人員相關(guān)的人事檔案以及與科研項(xiàng)目經(jīng)費(fèi)相關(guān)的財(cái)務(wù)檔案等。在科研檔案形成過程中，數(shù)據(jù)處理的相關(guān)工作變得更加復(fù)雜。本研究對(duì)象的界定是機(jī)構(gòu)在開展科學(xué)研究活動(dòng)中形成的具有保存價(jià)值的文字、圖表、數(shù)據(jù)、聲像等各種載體的文件材料。具體包括課題立項(xiàng)階段、課題研究階段、課題結(jié)項(xiàng)階段、課題申報(bào)階段產(chǎn)生的立項(xiàng)文件、研究文件、結(jié)題文件、采購合同等科研課題檔案以及論文、著作、專利、軟件、數(shù)據(jù)集、研究報(bào)告等科研成果檔案、科技成果轉(zhuǎn)化檔案以及開展科研活動(dòng)的主體如科研人員、管理人員、科研團(tuán)隊(duì)形成的檔案資源。針對(duì)科研檔案的屬性也作了細(xì)分。科研檔案包含了一般檔案具有的屬性如與人員相關(guān)的責(zé)任者等屬性，與組織機(jī)構(gòu)相關(guān)的團(tuán)隊(duì)名稱、研究方向等，與來源相關(guān)的檔號(hào)等，與支持信息相關(guān)的題名、主題詞等。科研課題檔案在繼承了科研檔案屬性的基礎(chǔ)上還增加看課題編號(hào)、課題來源以及課題級(jí)別等特殊屬性。在開展知識(shí)圖譜構(gòu)建中會(huì)將各類檔案的一般屬性和特殊屬性統(tǒng)籌考慮。

科研檔案知識(shí)圖譜模型構(gòu)建主要是基于科研檔案實(shí)體及語義關(guān)系兩個(gè)構(gòu)建要素，借助粒度原理、圍繞語義網(wǎng)標(biāo)準(zhǔn)設(shè)計(jì)知識(shí)組織的邏輯和物理結(jié)構(gòu)，實(shí)現(xiàn)科研檔案知識(shí)的獲取、關(guān)聯(lián)、復(fù)用、發(fā)現(xiàn)和增值等需求。在本研究中，將實(shí)體作為科研檔案資源中最小粒度的單元。為保證數(shù)據(jù)的規(guī)范性與系統(tǒng)性，將結(jié)合《中國檔案主題詞表》（第二版）、EAD（Encoded Archival Description，編碼檔案著錄，參考CERIF 及Nanopublication 模型，定義檔案實(shí)體，如檔案、科研課題、機(jī)構(gòu)、團(tuán)隊(duì)、人員等。在后續(xù)研究中，將對(duì)科研檔案語料定義句的句法-語義剖析，借助語義技術(shù)進(jìn)行實(shí)體識(shí)別，提取關(guān)鍵詞進(jìn)一步充實(shí)科研檔案的實(shí)體。科研檔案的語義關(guān)系是在科研檔案的采集、管理以及利用過程中各知識(shí)單元間的顯性與隱性聯(lián)系。如科研檔案實(shí)體分類與子類的層次關(guān)系，是is_a 或is part of 的關(guān)系；科研課題檔案中課題立項(xiàng)檔案、課題研究檔案、課題結(jié)項(xiàng)檔案、課題申報(bào)檔案、課題推廣檔案的產(chǎn)生時(shí)間存在先后順序，因此它們之間的關(guān)系可定義為prior-next 關(guān)系。科研檔案的語義關(guān)系還包含機(jī)構(gòu)與檔案、科研人員與科研成果的隸屬關(guān)系、科研人員間的合作關(guān)系、科研成果間的引用關(guān)系、科研人員間的合作關(guān)系等。通過對(duì)科研檔案實(shí)體的獲取、序化以及關(guān)聯(lián)，設(shè)計(jì)并建立科研檔案知識(shí)圖譜描述框架，進(jìn)一步規(guī)范描述和精細(xì)揭示各實(shí)體間的語義關(guān)聯(lián)關(guān)系，為科研檔案領(lǐng)域本體的匯聚和融合奠定重要基礎(chǔ)。

科研檔案知識(shí)圖譜概念模型指在科研檔案知識(shí)領(lǐng)域內(nèi)具體或抽象的事物及其關(guān)系的規(guī)范。本體構(gòu)建的基礎(chǔ)是概念模型。在科研檔案概念模型構(gòu)建時(shí)，應(yīng)遵循本體獨(dú)立性與共享性原則。獨(dú)立性即本體類別不依賴領(lǐng)域而獨(dú)立存在。共享性指本體具有可復(fù)用性。在構(gòu)建過程中，要充分理解構(gòu)建目的，并借鑒已有模型，盡可能減少類別間的冗余和重疊，最小化類別數(shù)。借鑒國際檔案理事會(huì)（ICA）檔案著錄ISAAR、ISDF、ISDIAH 標(biāo)準(zhǔn)，國際圖書館協(xié)會(huì)聯(lián)合會(huì)（IFLA）著錄標(biāo)準(zhǔn)以及RIC-CM 文件著錄概念模型，本研究的科研檔案本體概念模型將科研檔案及檔案自身屬性，結(jié)合科研機(jī)構(gòu)、科研人員開展項(xiàng)目研究，產(chǎn)出研究成果，形成檔案并管理與利用的過程融合在一起進(jìn)行構(gòu)建。

2.2.2 模型設(shè)計(jì)

在前期研究中［19］，作者參考CERIF 定義核心實(shí)體、成果實(shí)體、二級(jí)實(shí)體以及鏈接實(shí)體的思路，在科研檔案本體構(gòu)建中，需定義檔案為最基本的實(shí)體，將科研活動(dòng)產(chǎn)生的科研成果單獨(dú)設(shè)為一個(gè)實(shí)體，后續(xù)將設(shè)置二級(jí)實(shí)體以及實(shí)體屬性對(duì)科研成果進(jìn)行詳細(xì)描述。在開展科研檔案管理過程中，管理人員主要負(fù)責(zé)檔案的收集、整理和管理工作，而科研人員主要負(fù)責(zé)開展科研活動(dòng)、產(chǎn)出科研成果等，兩類人員分工差異性較大，故將人員實(shí)體細(xì)分為科研人員和管理人員兩類；依據(jù)研究對(duì)象的特殊性，將CERIF 中項(xiàng)目實(shí)體細(xì)化為本研究的科研項(xiàng)目。參照Nanopublication 模型功能性的特色設(shè)置，科研檔案不同于其他類型的文件，對(duì)于立檔時(shí)間、查詢時(shí)間以及保管期限有不同的設(shè)置方式與控制措施，如從立檔時(shí)間反映科研項(xiàng)目材料歸檔及時(shí)性，通過監(jiān)控檔案的查詢時(shí)間狀況可側(cè)面映證某領(lǐng)域研究的活躍度，從保管期限來推斷科研檔案的價(jià)值性等，故將“時(shí)間”作為模型一項(xiàng)功能性實(shí)體。另外，隨著信息化的發(fā)展以及檔案資源共享與利用率的提升，檔案數(shù)據(jù)來源越來越豐富，包含實(shí)體檔案館共享資源以及各業(yè)務(wù)系統(tǒng)推送資源等，因此，將“來源”也作為一項(xiàng)實(shí)體納入檔案概念模型中，作為檔案管理的功能性的標(biāo)識(shí)。由此，本文設(shè)計(jì)的檔案概念模型的實(shí)體主要有：檔案（Archives）、科研機(jī)構(gòu)（Organization）、科研團(tuán)隊(duì)（Research team）、科研人員（Faculty Member）、管理人員（Administrator）、科研項(xiàng)目（Research Project）、科研成果（Achievement）；按照檔案的特性，將來源（Origination）和時(shí)間（Date）也作為實(shí)體進(jìn)行設(shè)計(jì)。結(jié)合科研活動(dòng)的過程，在科研檔案的概念模型中，通過產(chǎn)出將科研項(xiàng)目、科研人員、科研成果建立關(guān)聯(lián)，通過ead：Creation 將科研機(jī)構(gòu)、科研項(xiàng)目、檔案關(guān)聯(lián)等。基于科研檔案語義詞典進(jìn)一步規(guī)范知識(shí)圖譜實(shí)體與關(guān)系，與外部知識(shí)庫（如Wiki data）進(jìn)行連接，豐富檔案資源的關(guān)聯(lián)關(guān)系（見圖3）。

圖3 科研檔案知識(shí)圖譜模型設(shè)計(jì)

在科研檔案知識(shí)圖譜模型構(gòu)建過程中，采用專家咨詢的方法，邀請(qǐng)知識(shí)構(gòu)建領(lǐng)域?qū)＜? 名、檔案管理專家2 名對(duì)科研檔案知識(shí)圖譜模式的結(jié)構(gòu)合理性和可擴(kuò)展性兩方面開展了質(zhì)量評(píng)估。知識(shí)圖譜概念模型的構(gòu)建是動(dòng)態(tài)循環(huán)的。在進(jìn)行科研檔案知識(shí)圖譜模型時(shí)利用Protégé 構(gòu)建科研檔案本體，結(jié)合知識(shí)抽取階段實(shí)體識(shí)別、關(guān)系抽取以及屬性抽取的實(shí)例數(shù)據(jù)，篩選高頻詞統(tǒng)計(jì)以及語義關(guān)系抽取結(jié)果，實(shí)現(xiàn)科研檔案知識(shí)圖譜語義層面的關(guān)聯(lián)。

2.2.3 模型構(gòu)建

科研檔案本體模型的構(gòu)建應(yīng)完整定義其形式化要素：科研檔案資源中的類（classes）、對(duì)象屬性（object properties）、數(shù)據(jù)屬性（data properties）以及檔案資源大類或?qū)傩蚤g的層級(jí)（hierarchy（ies）），以及檔案資源的類和屬性等的使用規(guī)則（rules）。對(duì)于科研檔案本體，主要遵循ISO 30300 系列以及ISAD（G）、ISAAR（CPF）等檔案著錄的相關(guān)法規(guī)標(biāo)準(zhǔn)。

科研檔案的本體共定義了7 個(gè)一級(jí)核心類。其中復(fù)用一個(gè)VIVO 本體：科研機(jī)構(gòu)（VIVO：Organization）；復(fù)用一個(gè)SWRC 本體：科研項(xiàng)目（SWRC：Research Project）；復(fù)用了2 個(gè)EAD 本體：來源（EAD：Origination）、時(shí)間（EAD：Date）；參考DBpedia 等知識(shí)庫，自定義檔案（Archives）、人員（Person）、科研成果（Achievement）3 個(gè)類。科研檔案所涉及的關(guān)系層次復(fù)雜，內(nèi)容繁多。按核心擴(kuò)展法，檔案類（Archives）作為研究主體，分為科研項(xiàng)目檔案（Project Archives）、綜合文書檔案（Official Documents）、財(cái)務(wù)檔案（Financial Archives）、人事檔案（Personnel Archives）4 個(gè)子類。本文重點(diǎn)針對(duì)科研課題檔案（Project Archives）展開研究，按照課題研究過程可分為立項(xiàng)檔案（Project Establishment Archives）、研究檔案（Project Research Archives）、結(jié)項(xiàng)檔案（Project Completion Archives）、成果檔案（Project Achievement Archives）以及成果轉(zhuǎn)化檔案（Project Achievement Conversion Archives）5 個(gè) 子類。立項(xiàng)檔案（Project Establishment Archives）按內(nèi)容又分為立項(xiàng)任務(wù)書（Project Assignments）、立項(xiàng)合同書（Project Contracts）和實(shí)施方案（Project Implementation Plan）3 個(gè) 子類（見圖4）。通過Protégé 處理后的核心類別展示見圖5。

圖4 科研課題檔案分類

圖5 科研檔案核心類定義

通過部分繼承EAD、VIVO 本體模型，共定義了8 個(gè)一級(jí)核心對(duì)象屬性：復(fù)用兩個(gè)EAD 本體：檔案生成（EAD：Creation）來描述由科研項(xiàng)目中產(chǎn)生的材料生成檔案；復(fù)用EAD：Subject 描述來源和時(shí)間與檔案、科研項(xiàng)目的關(guān)系。復(fù)用了VIVO：Current Member Of 來描述科研人員、管理人員與科研機(jī)構(gòu)間的隸屬關(guān)系。復(fù)用了SWRC：works At Project 描述科研人員與科研項(xiàng)目的關(guān)系。根據(jù)科研檔案資源的特殊性，自定義4 個(gè)一級(jí)對(duì)象屬性：人員合作（Has Cooperation With）來描述科研人員間的合作關(guān)系；自定義產(chǎn)出成果（Output Achievements），并定義了3 個(gè)子類：團(tuán)隊(duì)產(chǎn)出（Team Achievements）、個(gè)人產(chǎn)出（Person Achievements）、項(xiàng)目產(chǎn)出（Project Achievements）；自定義擁有管理權(quán)限（Has Management），下設(shè)兩個(gè)子類：項(xiàng)目管理（Has Project Management）、人員管理（Has Staff Management）；自定義檔案使用權(quán)限（Has Archives Authority），下設(shè)兩個(gè)子類：查閱檔案權(quán)限（Access Permission）、下載檔案權(quán)限（Download Authority），在這兩個(gè)子類下設(shè)置全機(jī)構(gòu)、部門及責(zé)任者共六個(gè)子類來描述檔案管理的權(quán)限：即可查閱/下載全部機(jī)構(gòu)檔案；可查閱/下載本部門檔案；僅可查閱/下載本責(zé)任者檔案。還可針對(duì)科研檔案其他對(duì)象屬性的取值做更多更詳細(xì)的約束定義，以增強(qiáng)科研檔案資源的語義性和邏輯性。

數(shù)據(jù)屬性用于描述類的基本信息，本研究主要針對(duì)科研檔案進(jìn)行了數(shù)據(jù)屬性的描述，取值為XML Schema 數(shù)據(jù)類型值或者RDF Archives。通過部分繼承EAD、AGRIDATA、VIVO 本體模型，復(fù)用并自定義了21 個(gè)一級(jí)數(shù)據(jù)屬性，其中復(fù)用了5 個(gè)EAD 本體，包括責(zé)任者（EAD：Author）、層級(jí)（EAD：Level）、主題（EAD：Subject）、正題名（EAD：Title proper）、副題名（EAD：Subtitle），主要描述檔案外部屬性。復(fù)用AGRIDATA：post 描述科研人員職稱屬性；復(fù)用VIVO：has Research Area 描述機(jī)構(gòu)、團(tuán)隊(duì)及個(gè)人的研究范圍；自定義了檔號(hào)（Archives ID），另外自定義的一級(jí)對(duì)象屬性包括：關(guān)于時(shí)間的屬性：立檔時(shí)間（Setting Time）、查詢時(shí)間（Query Time）、保管期限（Retention Period）；關(guān)于來源（EAD：Origination）的屬性：檔案館代號(hào)（Code of Archives）和數(shù)據(jù)庫地址（Database Address）。關(guān)于學(xué)生的屬性：導(dǎo)師姓名（Tutor's Name）、論文題目（Thesis Title）；關(guān)于科研團(tuán)隊(duì)的屬性：團(tuán)隊(duì)首席（Team Leader）、團(tuán)隊(duì)成員（Team Member）；關(guān)于科研課題檔案的屬性：課題編號(hào)（Project Number）、課題來源（Project Source）、課題級(jí)別（Project Level）、課題經(jīng)費(fèi)（Project Funds）（見圖6）。

圖6 科研檔案對(duì)象屬性與數(shù)據(jù)屬性定義

2.3 科研檔案知識(shí)圖譜數(shù)據(jù)層構(gòu)建

本研究數(shù)據(jù)層的實(shí)例數(shù)據(jù)來源于某研究所2013—2019 年期間125 項(xiàng)國家級(jí)科研項(xiàng)目生成的科研檔案。其他數(shù)據(jù)源如CN-DBpedia、維基百科以及DOI、ISSN、ISBN、ORCID 等唯一標(biāo)識(shí)符用于科研檔案知識(shí)圖譜構(gòu)建中的實(shí)體去重以及實(shí)體對(duì)齊等過程。

2.3.1 科研檔案知識(shí)抽取

前一節(jié)通過構(gòu)建科研檔案知識(shí)圖譜模式層，定義了檔案實(shí)體的分類和層級(jí)關(guān)系，應(yīng)用編輯工具Protégé、建模語言O(shè)WL 建立了計(jì)算機(jī)可理解的科研檔案知識(shí)圖譜語義模型。在科研檔案資源分類以及屬性定義的基礎(chǔ)上，開展科研檔案的知識(shí)抽取，包括實(shí)體識(shí)別、關(guān)系抽取兩大部分。其中,實(shí)體識(shí)別主要是通過數(shù)據(jù)解析從科研檔案資源中辨別和析出已定義實(shí)體的實(shí)例數(shù)據(jù),關(guān)系的抽取是要分析兩個(gè)實(shí)體之間是否存在關(guān)聯(lián)以及分析實(shí)體之間關(guān)聯(lián)關(guān)系的屬性。根據(jù)科研檔案資源的數(shù)據(jù)結(jié)構(gòu)和特點(diǎn)，為提高科研檔案資源知識(shí)抽取的性能，可引入科技類相關(guān)字典，結(jié)合詞性特征等要素，建立基于科研檔案的知識(shí)抽取規(guī)則。目前常用的知識(shí)抽取模型有CRF 模型、BiLSTM 模型等［20］。

基于科研檔案特點(diǎn)，結(jié)合科研檔案語義詞典，在科研檔案知識(shí)圖譜數(shù)據(jù)層構(gòu)建中通過知識(shí)抽取的實(shí)體識(shí)別、關(guān)系抽取等技術(shù)可獲得科研檔案資源語義層面的關(guān)鍵詞或高頻詞，如研究任務(wù)（Research Mission）、實(shí)施方案（Implementation Plan）、考核指標(biāo)（Target）、經(jīng)費(fèi)預(yù)算（Budget）等實(shí)體。由于數(shù)據(jù)資源的不同，在知識(shí)抽取時(shí)獲得的實(shí)體也會(huì)有變化，這4 個(gè)實(shí)體僅為知識(shí)抽取的通用實(shí)體，在具體到某個(gè)科研檔案的抽取時(shí)，需要根據(jù)數(shù)據(jù)特點(diǎn)進(jìn)一步細(xì)化實(shí)體。

2.3.2 科研檔案知識(shí)融合與推理

檔案管理長久以來重藏輕用的意識(shí)限制了檔案資源中真正有價(jià)值的信息流動(dòng)和傳播。語義技術(shù)能促進(jìn)檔案數(shù)據(jù)的關(guān)聯(lián)與利用。現(xiàn)有的科研檔案資源多樣化，包括檔案元數(shù)據(jù)以及從各類業(yè)務(wù)系統(tǒng)中采集的電子文件、圖片等數(shù)據(jù)，且檔案資源間存在著明顯的異構(gòu)性，需借鑒DOI、ISSN、ISBN、ORCID等標(biāo)準(zhǔn)進(jìn)一步完善科研檔案數(shù)據(jù)格式，并將現(xiàn)有知識(shí)組織系統(tǒng)通過語義轉(zhuǎn)換等方式，發(fā)布RDF 序列化格式，構(gòu)建語義鏈接，最大限度地與檔案領(lǐng)域知識(shí)或其他外部知識(shí)庫（如CN-Dbpedia、Wiki data 等）相關(guān)聯(lián)，增強(qiáng)檔案資源語義性，形成高質(zhì)量的科研檔案知識(shí)圖譜。通過前面章節(jié)科研知識(shí)圖譜模式層構(gòu)建，定義并抽取了科研檔案知識(shí)層面的實(shí)體、關(guān)系、屬性以及實(shí)例數(shù)據(jù)。由于科研檔案知識(shí)圖譜要連接外部標(biāo)準(zhǔn)的知識(shí)庫或知識(shí)圖譜（如Wiki data 等），進(jìn)一步豐富語義資源，增強(qiáng)數(shù)據(jù)關(guān)聯(lián)性，提高科研檔案數(shù)據(jù)內(nèi)在邏輯性和表達(dá)能力，需開展知識(shí)融合工作。本研究主要采用實(shí)體對(duì)齊相關(guān)技術(shù)，判斷科研檔案各類異構(gòu)數(shù)據(jù)源中的實(shí)體是否指向同一對(duì)象，對(duì)同一指稱的實(shí)體進(jìn)行唯一標(biāo)識(shí)標(biāo)注，并進(jìn)行實(shí)體合并。

科研檔案知識(shí)推理是根據(jù)已構(gòu)建的數(shù)據(jù)模型和檔案數(shù)據(jù)，依據(jù)一定的推理規(guī)則，獲取滿足語義的新的檔案知識(shí)。目前知識(shí)庫的推理分為基于符號(hào)和基于統(tǒng)計(jì)的推理兩類。基于符號(hào)的推理在人工智能研究方向主要是通過一階謂詞邏輯、命題邏輯或者缺省邏輯等，利用已知的知識(shí)圖譜（如Freebase 等），使用已建立的規(guī)則推斷實(shí)體之間的新關(guān)系，或者針對(duì)科研檔案知識(shí)圖譜進(jìn)行邏輯沖突檢測(cè)。基于統(tǒng)計(jì)的方法一般是通過統(tǒng)計(jì)規(guī)則，利用關(guān)系機(jī)器學(xué)習(xí)的技術(shù)，從科研檔案知識(shí)圖譜中學(xué)習(xí)新的實(shí)體關(guān)系。

通過科研檔案知識(shí)圖譜模式層及數(shù)據(jù)層的構(gòu)建，可針對(duì)科研檔案資源中的實(shí)體開展語義關(guān)聯(lián)。在以某類課題為主體進(jìn)行查詢時(shí)，科研檔案知識(shí)圖譜能夠鏈接到與該科研項(xiàng)目有關(guān)的所有檔案信息，包括該項(xiàng)目任務(wù)書、結(jié)題報(bào)告、管理人員信息、研究成員信息、項(xiàng)目成果等等數(shù)據(jù)。這些數(shù)據(jù)再關(guān)聯(lián)到其他相關(guān)信息，如此連接則可實(shí)現(xiàn)所有科研檔案資源的聚合。圖7 為“農(nóng)產(chǎn)品質(zhì)量安全采集作業(yè)場(chǎng)景下的語音識(shí)別魯棒性研究”這一科研項(xiàng)目檔案的知識(shí)圖譜示例圖。該項(xiàng)目產(chǎn)出了檔案的子類科研課題檔案中的研究報(bào)告（農(nóng)產(chǎn)品質(zhì)量安全采集語音識(shí)別）等檔案材料、產(chǎn)出了著作、論文、專利等科研成果；該項(xiàng)目的管理機(jī)構(gòu)、管理人員以及研究人員都可從圖譜中獲得。從研究報(bào)告中抽取的高頻詞經(jīng)篩選后識(shí)別“隱馬爾可夫模型”“HTK”與該項(xiàng)目產(chǎn)生了關(guān)聯(lián)，進(jìn)一步豐富了語義關(guān)系（見圖7）。

圖7 科研檔案知識(shí)圖譜示意圖

2.4 應(yīng)用展望

隨著語義網(wǎng)、大數(shù)據(jù)及人工智能等技術(shù)的快速發(fā)展，為科研檔案的精細(xì)化管理與智能化服務(wù)應(yīng)用提供了契機(jī)。面向檔案資源碎片化加工與語義化組織的需求，傳統(tǒng)檔案管理模式亟需變革。基于知識(shí)圖譜驅(qū)動(dòng)的新型科研檔案管理系統(tǒng)可大大提升檔案深層語義關(guān)聯(lián)與信息挖掘能力。基于本研究構(gòu)建的科研檔案知識(shí)圖譜語義框架模型，將為科研檔案的數(shù)字化、碎片化、精細(xì)化地加工、揭示、組織和關(guān)聯(lián)，以及科研檔案知識(shí)圖譜數(shù)據(jù)層實(shí)例的填充和聚合提供標(biāo)準(zhǔn)規(guī)范，可有效整合縱向垂直、橫向跨檔案、科研、人事系統(tǒng)以及跨領(lǐng)域之間的資源，推進(jìn)科研檔案語義化知識(shí)組織。基于科研檔案知識(shí)圖譜形成科研機(jī)構(gòu)知識(shí)全景圖，并研發(fā)科研檔案管理智能關(guān)聯(lián)與發(fā)現(xiàn)，科研人員個(gè)人檔案館、科研熱點(diǎn)領(lǐng)域分析等功能，實(shí)現(xiàn)檔案知識(shí)增值，創(chuàng)新檔案知識(shí)管理服務(wù)模式，滿足科研機(jī)構(gòu)對(duì)知識(shí)的深層次需求，增強(qiáng)我國科技核心競(jìng)爭(zhēng)力。

3 總結(jié)

本文收集與整理了科研檔案各方面的數(shù)據(jù)信息，基于已有的檔案本體系統(tǒng)和標(biāo)準(zhǔn)，繼承VIVO、SWRC 等現(xiàn)有較為通用的本體模型，初步形成了科研檔案知識(shí)圖譜框架，利用Protégé 構(gòu)建了一個(gè)計(jì)算機(jī)可理解與計(jì)算的科研檔案本體，支持以科研檔案為中心的知識(shí)單元的集成、關(guān)聯(lián)和融合，豐富了科研檔案的語義關(guān)系，為科研檔案的精細(xì)化加工與智能化查詢提供了思路。在下一步研究中，將進(jìn)一步充實(shí)和完善科研檔案本體，基于文本挖掘、自然語言理解等技術(shù)實(shí)現(xiàn)知識(shí)單元語義標(biāo)注，構(gòu)建RDF 三元組，建立科研檔案與人事、科研、財(cái)務(wù)等外部系統(tǒng)中的數(shù)據(jù)映射關(guān)聯(lián)，對(duì)知識(shí)單元進(jìn)行歸類合并與挖掘推理，形成科研機(jī)構(gòu)知識(shí)全景圖，實(shí)現(xiàn)科研檔案知識(shí)智能關(guān)聯(lián)與檢索，推動(dòng)科研檔案智能管理與應(yīng)用，促進(jìn)科學(xué)研究創(chuàng)新與發(fā)展。