999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科研檔案管理知識(shí)圖譜構(gòu)建研究

2020-06-29 02:42:54趙瑞雪李思經(jīng)鮮國建寇遠(yuǎn)濤
科技管理研究 2020年11期
關(guān)鍵詞:語義檔案管理資源

雷 潔,趙瑞雪,3,李思經(jīng),鮮國建,3,寇遠(yuǎn)濤,3

(1.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與發(fā)展研究所,北京 100081;3.農(nóng)業(yè)部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)

科研檔案日益成為國家基礎(chǔ)性戰(zhàn)略資源,科研檔案管理工作內(nèi)容也更加豐富、需求更加多樣,地位和作用日益重要。隨著科學(xué)技術(shù)以及社會(huì)生產(chǎn)力的發(fā)展與變化,檔案管理方式與流程、檔案利用思想等在不同時(shí)期有不同的表現(xiàn)。我國檔案管理的發(fā)展可分為3 個(gè)階段:檔案實(shí)體管理、檔案信息管理和檔案知識(shí)管理階段。2016 年國家檔案局發(fā)布的“十三五”規(guī)劃綱要中[1],闡明了當(dāng)前檔案管理面臨的主要挑戰(zhàn):電子政務(wù)系統(tǒng)的建設(shè)極大地促進(jìn)了電子檔案資源的形成;檔案的信息化與網(wǎng)絡(luò)化成為主要的發(fā)展趨勢(shì);大數(shù)據(jù)等技術(shù)的發(fā)展給檔案數(shù)據(jù)安全與存儲(chǔ)、隱私保護(hù)等帶來挑戰(zhàn)。掌握科研檔案的管理現(xiàn)狀、發(fā)現(xiàn)目前科研檔案管理中存在的問題與需求,對(duì)開展科研檔案管理研究具有重要影響。隨著數(shù)字檔案急劇增加,大數(shù)據(jù)、云計(jì)算、語義網(wǎng)等信息技術(shù)正在推動(dòng)檔案管理方法的創(chuàng)新。傳統(tǒng)的檔案收集、管理與利用過程隨著信息技術(shù)的快速發(fā)展和廣泛應(yīng)用發(fā)生了改變。但在現(xiàn)有的檔案系統(tǒng)內(nèi)資源的加工粒度依然按照傳統(tǒng)的“卷”和“件”進(jìn)行,標(biāo)引按照檔案著錄格式開展,檔案數(shù)據(jù)關(guān)聯(lián)度與利用率都較低,對(duì)檔案資源的管理依舊處于“僅保存”狀態(tài)。如何充分發(fā)掘科研檔案資源這座“沉睡的寶藏”,改變傳統(tǒng)的科研檔案管理模式,實(shí)現(xiàn)檔案資源以及檔案與外部知識(shí)庫之間知識(shí)關(guān)聯(lián)、集成與共享,構(gòu)建一個(gè)語義化、智能化的科研檔案管理系統(tǒng)是目前科研檔案管理迫切需要解決的問題。

1 相關(guān)研究

隨著語義技術(shù)的發(fā)展,檔案管理逐漸向關(guān)聯(lián)數(shù)據(jù)、語義組織方向發(fā)展,檔案管理語義知識(shí)組織標(biāo)準(zhǔn)化日益重要與緊迫。檔案語義知識(shí)組織標(biāo)準(zhǔn)化涉及知識(shí)組織系統(tǒng)、本體、語義網(wǎng)(關(guān)聯(lián)數(shù)據(jù))等標(biāo)準(zhǔn)化。語義網(wǎng)是一種數(shù)據(jù)組織方式,能夠在數(shù)據(jù)之間建立鏈接,從而形成關(guān)聯(lián)數(shù)據(jù)[2],而知識(shí)圖譜技術(shù)則是實(shí)現(xiàn)語義網(wǎng)絡(luò)連接與展示的基礎(chǔ)和橋梁。知識(shí)圖譜(Knowledge Graph)由谷歌在2012 年提出,旨在實(shí)現(xiàn)更智能的搜索引擎。目前知識(shí)圖譜在智能問答、情報(bào)分析等應(yīng)用中也發(fā)揮了重要作用[3]。通用知識(shí)圖譜一般面向多領(lǐng)域資源,突出知識(shí)的廣度。如國外公開可獲取的知識(shí)庫資源Freebase 由美國Metaweb 公司開發(fā),旨在創(chuàng)建一個(gè)全球資源允許人與機(jī)器更有效地訪問公共信息[4]。在DBpedia 知識(shí)庫中,用戶可基于語義查詢維基百科資源的關(guān)系和屬性,還包括指向其他相關(guān)數(shù)據(jù)集的鏈接[5]。FABIAN[6]從維基百科、Word Net、Geo Names 中提取數(shù)據(jù),到2019 年已經(jīng)擁有超過1 000 萬個(gè)實(shí)體。CN-DBpedia 是由復(fù)旦大學(xué)研發(fā)的結(jié)構(gòu)化百科,主要從中文百科類網(wǎng)站的純文本頁面中提取信息,形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),包含900 萬+的百科實(shí)體以及6 700 萬+的三元組關(guān)系,目前提供Dump 數(shù)據(jù)下載[7]。上海交通大學(xué)發(fā)布的百科數(shù)據(jù)的zhishi.me 融合百度百科、互動(dòng)百科、維基百科,抽取結(jié)構(gòu)化數(shù)據(jù),提供SPARQL 查詢,以HTML 的形式給出反饋結(jié)果[8]。另外還有百度的知心、搜狗的搜立方,等等。這些知識(shí)圖譜具有語義領(lǐng)域覆蓋面廣、規(guī)模大、結(jié)構(gòu)良好等特點(diǎn)。垂直領(lǐng)域知識(shí)圖譜針對(duì)具體領(lǐng)域資源,注重知識(shí)的深度和完備性,對(duì)知識(shí)的展示粒度更細(xì)。Linked Life Data是生物醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜,涵蓋了醫(yī)學(xué)領(lǐng)域幾乎所有的重要對(duì)象。全球地理領(lǐng)域Geo Names 免費(fèi)數(shù)據(jù)庫由美國國家測(cè)繪等部門收集數(shù)據(jù),地名數(shù)據(jù)覆蓋性強(qiáng),包含近200 種語言的1 100 多萬個(gè)地名[9]。

我國在20 世紀(jì)90 年代初開始針對(duì)檔案的電子形式資源進(jìn)行研究,提出多位一體的電子數(shù)據(jù)管理模式和多重管控的思想[10]。在信息技術(shù)廣泛運(yùn)用的背景下提出了文件管理流程重組,有利于文檔一體化管理[11]。許多學(xué)者就我國電子文件管理國家戰(zhàn)略開展了深入的研究[12-14]。國外在語義關(guān)聯(lián)方面的研究主要集中在基于已有元數(shù)據(jù)如EAD、Dublin Core 等,探討元數(shù)據(jù)語義互操作以及映射關(guān)系。在各個(gè)領(lǐng)域開展了語義技術(shù)的應(yīng)用研究,如從語義網(wǎng)的角度出發(fā),探討了圖書館、檔案館以及博物館之間的數(shù)據(jù)關(guān)聯(lián)[15]。還有研究采用了本體技術(shù)構(gòu)建知識(shí)庫模式應(yīng)用于電子政務(wù),對(duì)數(shù)據(jù)和服務(wù)的描述進(jìn)行了改進(jìn)[16]。在目前的國內(nèi)外關(guān)于檔案的語義化研究中,國外更加注重元數(shù)據(jù)的語義融合以及泛在化的檔案資源與圖書等資源的整合。國內(nèi)研究更多聚焦在檔案資源體系語義互操作與檔案系統(tǒng)資源挖掘、檔案數(shù)據(jù)整合與集成等。從檔案管理前端出發(fā),關(guān)注檔案采集、加工與管理等過程中語義技術(shù)的應(yīng)用較少。本研究利用知識(shí)圖譜開展科研檔案資源管理研究,通過構(gòu)建一種計(jì)算機(jī)可識(shí)別、具有較強(qiáng)操作性以及富含語義關(guān)系的科研檔案知識(shí)圖譜模型,以揭示、組織和關(guān)聯(lián)科研檔案資源。通過科研檔案知識(shí)圖譜數(shù)據(jù)層實(shí)例的填充和聚合,基于知識(shí)抽取與知識(shí)融合等技術(shù),實(shí)現(xiàn)科研檔案的碎片化與精細(xì)化加工。基于知識(shí)圖譜的科研檔案管理實(shí)現(xiàn)科研檔案資源知識(shí)關(guān)聯(lián)以及科研檔案資源更廣的集成、共享與利用。

2 科研檔案知識(shí)圖譜構(gòu)建

2.1 總體構(gòu)建思路

在科研檔案管理需求分析基礎(chǔ)上,明確科研檔案知識(shí)圖譜功能并確定數(shù)據(jù)源。結(jié)合科研檔案特點(diǎn),設(shè)計(jì)科研檔案管理知識(shí)圖譜構(gòu)建框架,選取構(gòu)建語言、構(gòu)建工具以及構(gòu)建過程,進(jìn)行圖譜模式層構(gòu)建,包括定義科研檔案知識(shí)圖譜所包含的實(shí)體類型及類的屬性、實(shí)體類之間的語義關(guān)系等。之后,根據(jù)構(gòu)建的科研知識(shí)圖譜模式,匹配檔案數(shù)據(jù)特點(diǎn),選取合適的命名實(shí)體識(shí)別和語義關(guān)系抽取方法對(duì)檔案數(shù)據(jù)開展知識(shí)抽取,構(gòu)建科研檔案知識(shí)圖譜數(shù)據(jù)層。通過實(shí)體消歧、實(shí)體對(duì)齊等過程進(jìn)行知識(shí)融合,并與科研檔案知識(shí)圖譜模式互相映射。經(jīng)過知識(shí)融合過程,科研檔案數(shù)據(jù)資源形成標(biāo)準(zhǔn)的數(shù)據(jù)表示,經(jīng)過一定的質(zhì)量評(píng)估,最終根據(jù)科研檔案圖譜構(gòu)建目的選取適合方式進(jìn)行知識(shí)存儲(chǔ),完成科研檔案知識(shí)的繪制和管理(見圖1)。

圖1 科研檔案知識(shí)圖譜構(gòu)建思路

2.2 科研檔案知識(shí)圖譜模式層構(gòu)建

構(gòu)建科研知識(shí)圖譜模式的目的主要有兩方面:一是對(duì)科研檔案知識(shí)抽取結(jié)果進(jìn)行明確且規(guī)范、客觀的描述,使其可以被計(jì)算機(jī)理解和處理;二是將抽取的實(shí)體、關(guān)系進(jìn)行有效地組織、管理,以便于后期科研檔案管理模式擴(kuò)展。科研檔案知識(shí)圖譜的構(gòu)建過程可分為兩個(gè)階段:一是描述體系設(shè)計(jì);二是知識(shí)圖譜模型構(gòu)建(見圖2)。

圖2 科研檔案知識(shí)圖譜具體構(gòu)建過程

描述體系設(shè)計(jì)過程,面向科研機(jī)構(gòu)檔案管理智能化、精細(xì)化與關(guān)聯(lián)化的需求,制定采集策略與范圍遴選檔案資源,對(duì)科研檔案核心要素進(jìn)行分析,參考CERIF、Nanopublication 等模型框架[17-18],進(jìn)行科研檔案語義描述體系設(shè)計(jì)。

知識(shí)圖譜模型構(gòu)建過程,利用本體編輯工具Protégé,使用資源描述框架RDF 和WEB 本體表示語言O(shè)WL,繼承利用EAD、DCMI、VIVO、SWRC、VIVO、Schema.org 等現(xiàn)有較為通用的本體模型,結(jié)合科研檔案語義描述體系,構(gòu)建科研檔案的知識(shí)圖譜模型,形成檔案資源之間以及檔案資源與外部知識(shí)庫的語義關(guān)聯(lián),為檔案資源精細(xì)化加工與智能組織提供語義框架支持。

2.2.1 描述體系設(shè)計(jì)

當(dāng)前,科研檔案主要涉及與科研活動(dòng)相關(guān)以通知類規(guī)定類為主的綜合政務(wù)文件,與科研項(xiàng)目相關(guān)的科研項(xiàng)目材料,科研活動(dòng)中形成的科研成果文件,與科研人員相關(guān)的人事檔案以及與科研項(xiàng)目經(jīng)費(fèi)相關(guān)的財(cái)務(wù)檔案等。在科研檔案形成過程中,數(shù)據(jù)處理的相關(guān)工作變得更加復(fù)雜。本研究對(duì)象的界定是機(jī)構(gòu)在開展科學(xué)研究活動(dòng)中形成的具有保存價(jià)值的文字、圖表、數(shù)據(jù)、聲像等各種載體的文件材料。具體包括課題立項(xiàng)階段、課題研究階段、課題結(jié)項(xiàng)階段、課題申報(bào)階段產(chǎn)生的立項(xiàng)文件、研究文件、結(jié)題文件、采購合同等科研課題檔案以及論文、著作、專利、軟件、數(shù)據(jù)集、研究報(bào)告等科研成果檔案、科技成果轉(zhuǎn)化檔案以及開展科研活動(dòng)的主體如科研人員、管理人員、科研團(tuán)隊(duì)形成的檔案資源。針對(duì)科研檔案的屬性也作了細(xì)分。科研檔案包含了一般檔案具有的屬性如與人員相關(guān)的責(zé)任者等屬性,與組織機(jī)構(gòu)相關(guān)的團(tuán)隊(duì)名稱、研究方向等,與來源相關(guān)的檔號(hào)等,與支持信息相關(guān)的題名、主題詞等。科研課題檔案在繼承了科研檔案屬性的基礎(chǔ)上還增加看課題編號(hào)、課題來源以及課題級(jí)別等特殊屬性。在開展知識(shí)圖譜構(gòu)建中會(huì)將各類檔案的一般屬性和特殊屬性統(tǒng)籌考慮。

科研檔案知識(shí)圖譜模型構(gòu)建主要是基于科研檔案實(shí)體及語義關(guān)系兩個(gè)構(gòu)建要素,借助粒度原理、圍繞語義網(wǎng)標(biāo)準(zhǔn)設(shè)計(jì)知識(shí)組織的邏輯和物理結(jié)構(gòu),實(shí)現(xiàn)科研檔案知識(shí)的獲取、關(guān)聯(lián)、復(fù)用、發(fā)現(xiàn)和增值等需求。在本研究中,將實(shí)體作為科研檔案資源中最小粒度的單元。為保證數(shù)據(jù)的規(guī)范性與系統(tǒng)性,將結(jié)合《中國檔案主題詞表》(第二版)、EAD(Encoded Archival Description,編碼檔案著錄,參考CERIF 及Nanopublication 模型,定義檔案實(shí)體,如檔案、科研課題、機(jī)構(gòu)、團(tuán)隊(duì)、人員等。在后續(xù)研究中,將對(duì)科研檔案語料定義句的句法-語義剖析,借助語義技術(shù)進(jìn)行實(shí)體識(shí)別,提取關(guān)鍵詞進(jìn)一步充實(shí)科研檔案的實(shí)體。科研檔案的語義關(guān)系是在科研檔案的采集、管理以及利用過程中各知識(shí)單元間的顯性與隱性聯(lián)系。如科研檔案實(shí)體分類與子類的層次關(guān)系,是is_a 或is part of 的關(guān)系;科研課題檔案中課題立項(xiàng)檔案、課題研究檔案、課題結(jié)項(xiàng)檔案、課題申報(bào)檔案、課題推廣檔案的產(chǎn)生時(shí)間存在先后順序,因此它們之間的關(guān)系可定義為prior-next 關(guān)系。科研檔案的語義關(guān)系還包含機(jī)構(gòu)與檔案、科研人員與科研成果的隸屬關(guān)系、科研人員間的合作關(guān)系、科研成果間的引用關(guān)系、科研人員間的合作關(guān)系等。通過對(duì)科研檔案實(shí)體的獲取、序化以及關(guān)聯(lián),設(shè)計(jì)并建立科研檔案知識(shí)圖譜描述框架,進(jìn)一步規(guī)范描述和精細(xì)揭示各實(shí)體間的語義關(guān)聯(lián)關(guān)系,為科研檔案領(lǐng)域本體的匯聚和融合奠定重要基礎(chǔ)。

科研檔案知識(shí)圖譜概念模型指在科研檔案知識(shí)領(lǐng)域內(nèi)具體或抽象的事物及其關(guān)系的規(guī)范。本體構(gòu)建的基礎(chǔ)是概念模型。在科研檔案概念模型構(gòu)建時(shí),應(yīng)遵循本體獨(dú)立性與共享性原則。獨(dú)立性即本體類別不依賴領(lǐng)域而獨(dú)立存在。共享性指本體具有可復(fù)用性。在構(gòu)建過程中,要充分理解構(gòu)建目的,并借鑒已有模型,盡可能減少類別間的冗余和重疊,最小化類別數(shù)。借鑒國際檔案理事會(huì)(ICA)檔案著錄ISAAR、ISDF、ISDIAH 標(biāo)準(zhǔn),國際圖書館協(xié)會(huì)聯(lián)合會(huì)(IFLA)著錄標(biāo)準(zhǔn)以及RIC-CM 文件著錄概念模型,本研究的科研檔案本體概念模型將科研檔案及檔案自身屬性,結(jié)合科研機(jī)構(gòu)、科研人員開展項(xiàng)目研究,產(chǎn)出研究成果,形成檔案并管理與利用的過程融合在一起進(jìn)行構(gòu)建。

2.2.2 模型設(shè)計(jì)

在前期研究中[19],作者參考CERIF 定義核心實(shí)體、成果實(shí)體、二級(jí)實(shí)體以及鏈接實(shí)體的思路,在科研檔案本體構(gòu)建中,需定義檔案為最基本的實(shí)體,將科研活動(dòng)產(chǎn)生的科研成果單獨(dú)設(shè)為一個(gè)實(shí)體,后續(xù)將設(shè)置二級(jí)實(shí)體以及實(shí)體屬性對(duì)科研成果進(jìn)行詳細(xì)描述。在開展科研檔案管理過程中,管理人員主要負(fù)責(zé)檔案的收集、整理和管理工作,而科研人員主要負(fù)責(zé)開展科研活動(dòng)、產(chǎn)出科研成果等,兩類人員分工差異性較大,故將人員實(shí)體細(xì)分為科研人員和管理人員兩類;依據(jù)研究對(duì)象的特殊性,將CERIF 中項(xiàng)目實(shí)體細(xì)化為本研究的科研項(xiàng)目。參照Nanopublication 模型功能性的特色設(shè)置,科研檔案不同于其他類型的文件,對(duì)于立檔時(shí)間、查詢時(shí)間以及保管期限有不同的設(shè)置方式與控制措施,如從立檔時(shí)間反映科研項(xiàng)目材料歸檔及時(shí)性,通過監(jiān)控檔案的查詢時(shí)間狀況可側(cè)面映證某領(lǐng)域研究的活躍度,從保管期限來推斷科研檔案的價(jià)值性等,故將“時(shí)間”作為模型一項(xiàng)功能性實(shí)體。另外,隨著信息化的發(fā)展以及檔案資源共享與利用率的提升,檔案數(shù)據(jù)來源越來越豐富,包含實(shí)體檔案館共享資源以及各業(yè)務(wù)系統(tǒng)推送資源等,因此,將“來源”也作為一項(xiàng)實(shí)體納入檔案概念模型中,作為檔案管理的功能性的標(biāo)識(shí)。由此,本文設(shè)計(jì)的檔案概念模型的實(shí)體主要有:檔案(Archives)、科研機(jī)構(gòu)(Organization)、科研團(tuán)隊(duì)(Research team)、科研人員(Faculty Member)、管理人員(Administrator)、科研項(xiàng)目(Research Project)、科研成果(Achievement);按照檔案的特性,將來源(Origination)和時(shí)間(Date)也作為實(shí)體進(jìn)行設(shè)計(jì)。結(jié)合科研活動(dòng)的過程,在科研檔案的概念模型中,通過產(chǎn)出將科研項(xiàng)目、科研人員、科研成果建立關(guān)聯(lián),通過ead:Creation 將科研機(jī)構(gòu)、科研項(xiàng)目、檔案關(guān)聯(lián)等。基于科研檔案語義詞典進(jìn)一步規(guī)范知識(shí)圖譜實(shí)體與關(guān)系,與外部知識(shí)庫(如Wiki data)進(jìn)行連接,豐富檔案資源的關(guān)聯(lián)關(guān)系(見圖3)。

圖3 科研檔案知識(shí)圖譜模型設(shè)計(jì)

在科研檔案知識(shí)圖譜模型構(gòu)建過程中,采用專家咨詢的方法,邀請(qǐng)知識(shí)構(gòu)建領(lǐng)域?qū)<? 名、檔案管理專家2 名對(duì)科研檔案知識(shí)圖譜模式的結(jié)構(gòu)合理性和可擴(kuò)展性兩方面開展了質(zhì)量評(píng)估。知識(shí)圖譜概念模型的構(gòu)建是動(dòng)態(tài)循環(huán)的。在進(jìn)行科研檔案知識(shí)圖譜模型時(shí)利用Protégé 構(gòu)建科研檔案本體,結(jié)合知識(shí)抽取階段實(shí)體識(shí)別、關(guān)系抽取以及屬性抽取的實(shí)例數(shù)據(jù),篩選高頻詞統(tǒng)計(jì)以及語義關(guān)系抽取結(jié)果,實(shí)現(xiàn)科研檔案知識(shí)圖譜語義層面的關(guān)聯(lián)。

2.2.3 模型構(gòu)建

科研檔案本體模型的構(gòu)建應(yīng)完整定義其形式化要素:科研檔案資源中的類(classes)、對(duì)象屬性(object properties)、數(shù)據(jù)屬性(data properties)以及檔案資源大類或?qū)傩蚤g的層級(jí)(hierarchy(ies)),以及檔案資源的類和屬性等的使用規(guī)則(rules)。對(duì)于科研檔案本體,主要遵循ISO 30300 系列以及ISAD(G)、ISAAR(CPF)等檔案著錄的相關(guān)法規(guī)標(biāo)準(zhǔn)。

科研檔案的本體共定義了7 個(gè)一級(jí)核心類。其中復(fù)用一個(gè)VIVO 本體:科研機(jī)構(gòu)(VIVO:Organization);復(fù)用一個(gè)SWRC 本體:科研項(xiàng)目(SWRC:Research Project);復(fù)用了2 個(gè)EAD 本體:來源(EAD:Origination)、時(shí)間(EAD:Date);參考DBpedia 等知識(shí)庫,自定義檔案(Archives)、人員(Person)、科研成果(Achievement)3 個(gè)類。科研檔案所涉及的關(guān)系層次復(fù)雜,內(nèi)容繁多。按核心擴(kuò)展法,檔案類(Archives)作為研究主體,分為科研項(xiàng)目檔案(Project Archives)、綜合文書檔案(Official Documents)、財(cái)務(wù)檔案(Financial Archives)、人事檔案(Personnel Archives)4 個(gè)子類。本文重點(diǎn)針對(duì)科研課題檔案(Project Archives)展開研究,按照課題研究過程可分為立項(xiàng)檔案(Project Establishment Archives)、研究檔案(Project Research Archives)、結(jié)項(xiàng)檔案(Project Completion Archives)、成果檔案(Project Achievement Archives)以及成果轉(zhuǎn)化檔案(Project Achievement Conversion Archives)5 個(gè) 子類。立項(xiàng)檔案(Project Establishment Archives)按內(nèi)容又分為立項(xiàng)任務(wù)書(Project Assignments)、立項(xiàng)合同書(Project Contracts)和實(shí)施方案(Project Implementation Plan)3 個(gè) 子 類(見 圖4)。通 過Protégé 處理后的核心類別展示見圖5。

圖4 科研課題檔案分類

圖5 科研檔案核心類定義

通過部分繼承EAD、VIVO 本體模型,共定義了8 個(gè)一級(jí)核心對(duì)象屬性:復(fù)用兩個(gè)EAD 本體:檔案生成(EAD:Creation)來描述由科研項(xiàng)目中產(chǎn)生的材料生成檔案;復(fù)用EAD:Subject 描述來源和時(shí)間與檔案、科研項(xiàng)目的關(guān)系。復(fù)用了VIVO:Current Member Of 來描述科研人員、管理人員與科研機(jī)構(gòu)間的隸屬關(guān)系。復(fù)用了SWRC:works At Project 描述科研人員與科研項(xiàng)目的關(guān)系。根據(jù)科研檔案資源的特殊性,自定義4 個(gè)一級(jí)對(duì)象屬性:人員合作(Has Cooperation With)來描述科研人員間的合作關(guān)系;自定義產(chǎn)出成果(Output Achievements),并定義了3 個(gè)子類:團(tuán)隊(duì)產(chǎn)出(Team Achievements)、個(gè)人產(chǎn)出(Person Achievements)、項(xiàng)目產(chǎn)出(Project Achievements);自定義擁有管理權(quán)限(Has Management),下設(shè)兩個(gè)子類:項(xiàng)目管理(Has Project Management)、人員管理(Has Staff Management);自定義檔案使用權(quán)限(Has Archives Authority),下設(shè)兩個(gè)子類:查閱檔案權(quán)限(Access Permission)、下載檔案權(quán)限(Download Authority),在這兩個(gè)子類下設(shè)置全機(jī)構(gòu)、部門及責(zé)任者共六個(gè)子類來描述檔案管理的權(quán)限:即可查閱/下載全部機(jī)構(gòu)檔案;可查閱/下載本部門檔案;僅可查閱/下載本責(zé)任者檔案。還可針對(duì)科研檔案其他對(duì)象屬性的取值做更多更詳細(xì)的約束定義,以增強(qiáng)科研檔案資源的語義性和邏輯性。

數(shù)據(jù)屬性用于描述類的基本信息,本研究主要針對(duì)科研檔案進(jìn)行了數(shù)據(jù)屬性的描述,取值為XML Schema 數(shù)據(jù)類型值或者RDF Archives。通過部分繼承EAD、AGRIDATA、VIVO 本體模型,復(fù)用并自定義了21 個(gè)一級(jí)數(shù)據(jù)屬性,其中復(fù)用了5 個(gè)EAD 本體,包括責(zé)任者(EAD:Author)、層級(jí)(EAD:Level)、主題(EAD:Subject)、正題名(EAD:Title proper)、副題名(EAD:Subtitle),主要描述檔案外部屬性。復(fù)用AGRIDATA:post 描述科研人員職稱屬性;復(fù)用VIVO:has Research Area 描述機(jī)構(gòu)、團(tuán)隊(duì)及個(gè)人的研究范圍;自定義了檔號(hào)(Archives ID),另外自定義的一級(jí)對(duì)象屬性包括:關(guān)于時(shí)間的屬性:立檔時(shí)間(Setting Time)、查詢時(shí)間(Query Time)、保管期限(Retention Period);關(guān)于來源(EAD:Origination)的屬性:檔案館代號(hào)(Code of Archives)和數(shù)據(jù)庫地址(Database Address)。關(guān)于學(xué)生的屬性:導(dǎo)師姓名(Tutor's Name)、論文題目(Thesis Title);關(guān)于科研團(tuán)隊(duì)的屬性:團(tuán)隊(duì)首席(Team Leader)、團(tuán)隊(duì)成員(Team Member);關(guān)于科研課題檔案的屬性:課題編號(hào)(Project Number)、課題來源(Project Source)、課題級(jí)別(Project Level)、課題經(jīng)費(fèi)(Project Funds)(見圖6)。

圖6 科研檔案對(duì)象屬性與數(shù)據(jù)屬性定義

2.3 科研檔案知識(shí)圖譜數(shù)據(jù)層構(gòu)建

本研究數(shù)據(jù)層的實(shí)例數(shù)據(jù)來源于某研究所2013—2019 年期間125 項(xiàng)國家級(jí)科研項(xiàng)目生成的科研檔案。其他數(shù)據(jù)源如CN-DBpedia、維基百科以及DOI、ISSN、ISBN、ORCID 等唯一標(biāo)識(shí)符用于科研檔案知識(shí)圖譜構(gòu)建中的實(shí)體去重以及實(shí)體對(duì)齊等過程。

2.3.1 科研檔案知識(shí)抽取

前一節(jié)通過構(gòu)建科研檔案知識(shí)圖譜模式層,定義了檔案實(shí)體的分類和層級(jí)關(guān)系,應(yīng)用編輯工具Protégé、建模語言O(shè)WL 建立了計(jì)算機(jī)可理解的科研檔案知識(shí)圖譜語義模型。在科研檔案資源分類以及屬性定義的基礎(chǔ)上,開展科研檔案的知識(shí)抽取,包括實(shí)體識(shí)別、關(guān)系抽取兩大部分。其中,實(shí)體識(shí)別主要是通過數(shù)據(jù)解析從科研檔案資源中辨別和析出已定義實(shí)體的實(shí)例數(shù)據(jù),關(guān)系的抽取是要分析兩個(gè)實(shí)體之間是否存在關(guān)聯(lián)以及分析實(shí)體之間關(guān)聯(lián)關(guān)系的屬性。根據(jù)科研檔案資源的數(shù)據(jù)結(jié)構(gòu)和特點(diǎn),為提高科研檔案資源知識(shí)抽取的性能,可引入科技類相關(guān)字典,結(jié)合詞性特征等要素,建立基于科研檔案的知識(shí)抽取規(guī)則。目前常用的知識(shí)抽取模型有CRF 模型、BiLSTM 模型等[20]。

基于科研檔案特點(diǎn),結(jié)合科研檔案語義詞典,在科研檔案知識(shí)圖譜數(shù)據(jù)層構(gòu)建中通過知識(shí)抽取的實(shí)體識(shí)別、關(guān)系抽取等技術(shù)可獲得科研檔案資源語義層面的關(guān)鍵詞或高頻詞,如研究任務(wù)(Research Mission)、實(shí)施方案(Implementation Plan)、考核指標(biāo)(Target)、經(jīng)費(fèi)預(yù)算(Budget)等實(shí)體。由于數(shù)據(jù)資源的不同,在知識(shí)抽取時(shí)獲得的實(shí)體也會(huì)有變化,這4 個(gè)實(shí)體僅為知識(shí)抽取的通用實(shí)體,在具體到某個(gè)科研檔案的抽取時(shí),需要根據(jù)數(shù)據(jù)特點(diǎn)進(jìn)一步細(xì)化實(shí)體。

2.3.2 科研檔案知識(shí)融合與推理

檔案管理長久以來重藏輕用的意識(shí)限制了檔案資源中真正有價(jià)值的信息流動(dòng)和傳播。語義技術(shù)能促進(jìn)檔案數(shù)據(jù)的關(guān)聯(lián)與利用。現(xiàn)有的科研檔案資源多樣化,包括檔案元數(shù)據(jù)以及從各類業(yè)務(wù)系統(tǒng)中采集的電子文件、圖片等數(shù)據(jù),且檔案資源間存在著明顯的異構(gòu)性,需借鑒DOI、ISSN、ISBN、ORCID等標(biāo)準(zhǔn)進(jìn)一步完善科研檔案數(shù)據(jù)格式,并將現(xiàn)有知識(shí)組織系統(tǒng)通過語義轉(zhuǎn)換等方式,發(fā)布RDF 序列化格式,構(gòu)建語義鏈接,最大限度地與檔案領(lǐng)域知識(shí)或其他外部知識(shí)庫(如CN-Dbpedia、Wiki data 等)相關(guān)聯(lián),增強(qiáng)檔案資源語義性,形成高質(zhì)量的科研檔案知識(shí)圖譜。通過前面章節(jié)科研知識(shí)圖譜模式層構(gòu)建,定義并抽取了科研檔案知識(shí)層面的實(shí)體、關(guān)系、屬性以及實(shí)例數(shù)據(jù)。由于科研檔案知識(shí)圖譜要連接外部標(biāo)準(zhǔn)的知識(shí)庫或知識(shí)圖譜(如Wiki data 等),進(jìn)一步豐富語義資源,增強(qiáng)數(shù)據(jù)關(guān)聯(lián)性,提高科研檔案數(shù)據(jù)內(nèi)在邏輯性和表達(dá)能力,需開展知識(shí)融合工作。本研究主要采用實(shí)體對(duì)齊相關(guān)技術(shù),判斷科研檔案各類異構(gòu)數(shù)據(jù)源中的實(shí)體是否指向同一對(duì)象,對(duì)同一指稱的實(shí)體進(jìn)行唯一標(biāo)識(shí)標(biāo)注,并進(jìn)行實(shí)體合并。

科研檔案知識(shí)推理是根據(jù)已構(gòu)建的數(shù)據(jù)模型和檔案數(shù)據(jù),依據(jù)一定的推理規(guī)則,獲取滿足語義的新的檔案知識(shí)。目前知識(shí)庫的推理分為基于符號(hào)和基于統(tǒng)計(jì)的推理兩類。基于符號(hào)的推理在人工智能研究方向主要是通過一階謂詞邏輯、命題邏輯或者缺省邏輯等,利用已知的知識(shí)圖譜(如Freebase 等),使用已建立的規(guī)則推斷實(shí)體之間的新關(guān)系,或者針對(duì)科研檔案知識(shí)圖譜進(jìn)行邏輯沖突檢測(cè)。基于統(tǒng)計(jì)的方法一般是通過統(tǒng)計(jì)規(guī)則,利用關(guān)系機(jī)器學(xué)習(xí)的技術(shù),從科研檔案知識(shí)圖譜中學(xué)習(xí)新的實(shí)體關(guān)系。

通過科研檔案知識(shí)圖譜模式層及數(shù)據(jù)層的構(gòu)建,可針對(duì)科研檔案資源中的實(shí)體開展語義關(guān)聯(lián)。在以某類課題為主體進(jìn)行查詢時(shí),科研檔案知識(shí)圖譜能夠鏈接到與該科研項(xiàng)目有關(guān)的所有檔案信息,包括該項(xiàng)目任務(wù)書、結(jié)題報(bào)告、管理人員信息、研究成員信息、項(xiàng)目成果等等數(shù)據(jù)。這些數(shù)據(jù)再關(guān)聯(lián)到其他相關(guān)信息,如此連接則可實(shí)現(xiàn)所有科研檔案資源的聚合。圖7 為“農(nóng)產(chǎn)品質(zhì)量安全采集作業(yè)場(chǎng)景下的語音識(shí)別魯棒性研究”這一科研項(xiàng)目檔案的知識(shí)圖譜示例圖。該項(xiàng)目產(chǎn)出了檔案的子類科研課題檔案中的研究報(bào)告(農(nóng)產(chǎn)品質(zhì)量安全采集語音識(shí)別)等檔案材料、產(chǎn)出了著作、論文、專利等科研成果;該項(xiàng)目的管理機(jī)構(gòu)、管理人員以及研究人員都可從圖譜中獲得。從研究報(bào)告中抽取的高頻詞經(jīng)篩選后識(shí)別“隱馬爾可夫模型”“HTK”與該項(xiàng)目產(chǎn)生了關(guān)聯(lián),進(jìn)一步豐富了語義關(guān)系(見圖7)。

圖7 科研檔案知識(shí)圖譜示意圖

2.4 應(yīng)用展望

隨著語義網(wǎng)、大數(shù)據(jù)及人工智能等技術(shù)的快速發(fā)展,為科研檔案的精細(xì)化管理與智能化服務(wù)應(yīng)用提供了契機(jī)。面向檔案資源碎片化加工與語義化組織的需求,傳統(tǒng)檔案管理模式亟需變革。基于知識(shí)圖譜驅(qū)動(dòng)的新型科研檔案管理系統(tǒng)可大大提升檔案深層語義關(guān)聯(lián)與信息挖掘能力。基于本研究構(gòu)建的科研檔案知識(shí)圖譜語義框架模型,將為科研檔案的數(shù)字化、碎片化、精細(xì)化地加工、揭示、組織和關(guān)聯(lián),以及科研檔案知識(shí)圖譜數(shù)據(jù)層實(shí)例的填充和聚合提供標(biāo)準(zhǔn)規(guī)范,可有效整合縱向垂直、橫向跨檔案、科研、人事系統(tǒng)以及跨領(lǐng)域之間的資源,推進(jìn)科研檔案語義化知識(shí)組織。基于科研檔案知識(shí)圖譜形成科研機(jī)構(gòu)知識(shí)全景圖,并研發(fā)科研檔案管理智能關(guān)聯(lián)與發(fā)現(xiàn),科研人員個(gè)人檔案館、科研熱點(diǎn)領(lǐng)域分析等功能,實(shí)現(xiàn)檔案知識(shí)增值,創(chuàng)新檔案知識(shí)管理服務(wù)模式,滿足科研機(jī)構(gòu)對(duì)知識(shí)的深層次需求,增強(qiáng)我國科技核心競(jìng)爭(zhēng)力。

3 總結(jié)

本文收集與整理了科研檔案各方面的數(shù)據(jù)信息,基于已有的檔案本體系統(tǒng)和標(biāo)準(zhǔn),繼承VIVO、SWRC 等現(xiàn)有較為通用的本體模型,初步形成了科研檔案知識(shí)圖譜框架,利用Protégé 構(gòu)建了一個(gè)計(jì)算機(jī)可理解與計(jì)算的科研檔案本體,支持以科研檔案為中心的知識(shí)單元的集成、關(guān)聯(lián)和融合,豐富了科研檔案的語義關(guān)系,為科研檔案的精細(xì)化加工與智能化查詢提供了思路。在下一步研究中,將進(jìn)一步充實(shí)和完善科研檔案本體,基于文本挖掘、自然語言理解等技術(shù)實(shí)現(xiàn)知識(shí)單元語義標(biāo)注,構(gòu)建RDF 三元組,建立科研檔案與人事、科研、財(cái)務(wù)等外部系統(tǒng)中的數(shù)據(jù)映射關(guān)聯(lián),對(duì)知識(shí)單元進(jìn)行歸類合并與挖掘推理,形成科研機(jī)構(gòu)知識(shí)全景圖,實(shí)現(xiàn)科研檔案知識(shí)智能關(guān)聯(lián)與檢索,推動(dòng)科研檔案智能管理與應(yīng)用,促進(jìn)科學(xué)研究創(chuàng)新與發(fā)展。

猜你喜歡
語義檔案管理資源
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
語言與語義
檔案管理中的電子檔案管理
資源回收
檔案管理與企業(yè)內(nèi)部控制關(guān)系的思考
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
健康檔案管理的“云”前景
主站蜘蛛池模板: 成人国产精品一级毛片天堂| 囯产av无码片毛片一级| 69视频国产| 久久综合亚洲鲁鲁九月天| 999在线免费视频| 欧美日韩国产一级| 成人夜夜嗨| 成年女人a毛片免费视频| 亚洲av无码久久无遮挡| 亚洲视频四区| 日韩 欧美 小说 综合网 另类| 国产一区免费在线观看| 国产呦视频免费视频在线观看| 熟妇丰满人妻av无码区| 国产精品一线天| 高清无码手机在线观看| 欧美另类精品一区二区三区 | 亚洲综合香蕉| 国产屁屁影院| 免费高清毛片| 日韩在线观看网站| 中文字幕av一区二区三区欲色| 在线综合亚洲欧美网站| 亚洲成AV人手机在线观看网站| 伊人天堂网| 被公侵犯人妻少妇一区二区三区 | 高潮毛片无遮挡高清视频播放| 久久精品亚洲中文字幕乱码| 国产永久无码观看在线| 亚洲最大福利视频网| 精品国产中文一级毛片在线看| 午夜啪啪福利| 国产69精品久久久久孕妇大杂乱| 久久公开视频| 国产手机在线ΑⅤ片无码观看| 在线观看精品自拍视频| 亚洲精品成人福利在线电影| 伊人精品视频免费在线| 亚洲国产精品一区二区第一页免 | 国产精品无码一二三视频| 国产精女同一区二区三区久| 久久精品视频亚洲| 亚洲二区视频| 波多野结衣一区二区三区88| 激情五月婷婷综合网| 亚洲天堂首页| 美女无遮挡被啪啪到高潮免费| 国产成人综合日韩精品无码首页 | 凹凸精品免费精品视频| 色成人综合| 国产精品亚洲αv天堂无码| 丁香婷婷激情网| a毛片免费在线观看| 一级在线毛片| 99视频在线免费看| 久久久久久久蜜桃| 99国产在线视频| 九九热在线视频| 亚洲乱码精品久久久久..| 最新国产你懂的在线网址| 亚洲中文无码av永久伊人| 亚洲欧美日韩动漫| 9久久伊人精品综合| 国产亚洲欧美在线人成aaaa| 日本影院一区| 中文字幕在线看| 国内精品伊人久久久久7777人| 色综合久久久久8天国| 高潮爽到爆的喷水女主播视频 | 欧美色亚洲| 亚洲视频四区| 亚洲一级毛片免费观看| 中国一级毛片免费观看| 欧美中日韩在线| 久久99热66这里只有精品一| 亚洲婷婷六月| 国产精品久久久久久久伊一| 色精品视频| 日本人妻丰满熟妇区| 国产香蕉国产精品偷在线观看| 成人在线不卡| 国产你懂得|