康雨培,李重陽,周 杰(華中師范大學信息管理學院)
科技報告作為重要的戰略新興資源,蘊涵著極大的科研價值,它詳細地記錄了科研活動的整個流程,以及失敗的教訓,因而獨具特色。在知識全球化背景下,具有開放和共享特色的科技報告的階段性成果更需要與科技和經濟進行快速、深度融合,對科技報告的集中管理與合理使用成為各國學術界的共識。國家科技報告服務系統(http://www.nstrs.cn/)于2014年3月正式上線,標志著我國科技報告管理工作取得重大進展。[1]
然而目前的科技報告資源組織粒度較大,用戶只能按照來源、學科、地域、類型這四種粗粒度的分類方式進行瀏覽或檢索。與之形成鮮明對比的是,期刊論文等則允許用戶按照作者、機構等多種方式來獲取資源。究其原因在于:粗粒度的資源組織與集成方式只做到了對科技報告的簡單分類,而沒有建立科技報告與這些科研實體間的關聯網絡??蒲袑嶓w是科研活動中的重要組成部分,包括科研主體(科研人員、科研機構)、科研活動、科研條件(科研方法)、科研產出(科研成果)等,[2]而一份科技報告的形成過程中涉及許多科研實體,對這些科研實體間的關系進行探討,對于科研管理者和用戶來說,都具有重大意義。
科技報告的生成涉及多個科研實體,主要包括科研人員、科研機構和科研項目等,本研究主要探討這幾者間的關聯。① 基于科研人員建立的關聯,有助于科學家共同體或群體了解彼此的工作,進行借鑒和學習;可以更好地保障作者的知識產權;可以有效避免重復立項和重復申請的現象。② 基于科研機構進行關聯,除了加強科技報告資源的統一管理外,更有助于管理人員、專業人員和社會公眾方便準確地獲取相關資源。③ 基于科技項目建立關聯,一方面有助于科研人員了解整個科研過程,另一方面有利于科研管理部門加強對科研項目的過程管理和實時監測。此外,在科研項目的實施過程中可能會召開會議,因此一些事件資源也是關聯的一部分。分析這些實體間的聯系,并向用戶提供服務,應該成為科技報告制度建設的重要議題之一。
關聯數據(Linked Data)[3]作為萬維網推薦的最佳的語義網實現方式,為實現科技報告相關實體間的關聯提供了有效途徑。近幾年,一種關聯數據的最新實踐——書目框架格式(BibliographicFrameworkInitiative,BIBFRAME),[4]得到學界的普遍關注。BIBFRAME也指由美國國會圖書館于2011年5月發起的倡議行動,該行動旨在創建一套能夠全球統一使用,涵蓋所有文獻類型,并支持圖書館于其他信息系統進行內容整合的編目規則。[5]BIBFRAME書目框架既克服了MARC將圖書資源局限在圖書館系統內部的不足,又適用于所有的文獻類型,同時使圖書館資源成為語義Web的一部分,因此具有強大的生命力。[6]
BIBFRAME是一個書目數據描述框架,更加側重于資源外部特征,因此,本研究試圖將基于關聯數據的BIBFRAME書目框架應用于科技報告資源的描述與著錄,在此基礎上構建一個基于科技報告資源外部特征的關聯整合框架。一方面,將知識單元從文獻單元拓展至實體單元,實現科技報告資源的多粒度語義揭示;另一方面,通過多維度、多層次的互聯關系實現科技報告資源與其他實體資源的深度聚合,最終助力知識發現和科研創新。
本研究與“科技報告資源的組織和整合”及關聯數據領域“BIBFRAME”兩個主題相關。
科技報告在二戰期間得到發展,因其能夠反映國家科技創新能力與科研實力,故而成為國家重要戰略資源。為了實現科技報告資源的高效共享與有效利用,前人在標準建設和技術實踐方面做了大量工作。美國國家技術情報服務局(National Technical and Information Service,NTIS)制定了科技報告信息質量標準[7]、信息處理標準[8]等一系列標準,以期更好地實現科技報告的共享和利用。此外,NTIS還專門針對科技報告的學科主題編制了CAST(Clearinghouse Announcements in Science and Technology) 分 類表[9]等。我國學者也強調要統一科技報告資源描述、揭示識別和信息組織的加工標準,包括元數據規范、著錄規則、標引規則、分類范疇等,以促進我國科技報告體系的建設。[10]2014年5月,中國科學技術信息研究所等機構正式發布了一系列標準規范,包括《科學技術報告編寫規則 (GB/T 7713.3-2014)》[11]、《科技報告元數據規范(GB/T 30535-2014)》[12]等,為科技報告相關工作提供了指導。除了標準建設方面的工作,NTIS還開通了國家科技報告數據庫(National TechnicalReportsLibrary,NTRL),為全球范圍內的用戶提供科技報告查詢服務。[13]我國除了國家科技報告服務系統外,還專門建設了國家科技計劃項目科技報告呈交系統(http://program.most.gov.cn/)來規范科技報告的撰寫、呈交和審核工作。然而已有的工作更側重于對科技報告資源的管理,在深層次的整合與利用方面存在諸多不足之處,也未能充分揭示針對同一科研問題的多份科技報告之間的關聯,未能充分揭示科技報告與科研實體(如科研人員、科研機構、科研項目)的內在關聯[14]等。雖然科研關系網絡作為科學知識網絡的重要擴展,一直是學者們的研究熱點,但目前的科研關系網絡主要集中在引文關系網絡[15]、科學合作網絡[16,17]和主題共現網絡[18]這幾個方面,并且都是單維度的。科技報告領域資源涉及的實體關系網絡是一個同時包含文獻單元和實體單元的多維度的網狀組織結構,從多維視角來構建科研關系網絡的探討還很少,[19]專門針對科技報告資源的科研關系網絡構建則更少。
關聯數據作為一種旨在提高網絡數據機器可讀性的技術框架,借助網絡環境下數據的引用和解引(reference/dereference)機制來建立數據間的關聯,實現數據的分享與重用,[20]則為彌補上述不足提供了可能性。目前已有關聯數據在科技數據服務方面的一些研究和實踐,如Linked Life Data,包含100億條RDF語句,用戶可以通過單獨的SPARQL端點訪問25個公共生物醫學數據庫。[21]Linked Sensor Data,將大量氣象傳感數據上傳至Linked Open Data(LOD)云,通過構建RDF數據,實現與LOD上其他數據集的關聯。[22]沈志宏等以中國科學引文數據庫和中國生態系統研究網絡通量數據為例,探討了科學數據發布流程和關鍵問題。[23]鮮國建將農業科學敘詞表向關聯數據進行了轉化,并建立了書目資源主體類和科技文獻主體類(期刊文摘類、會議論文、文集匯編文摘類、作者類)及核心屬性的關聯數據等。[24]在專門的科技報告領域,也有少數學者進行了研究與嘗試。賴院根[25]針對科技報告整合模式提出了元數據整合、關聯整合和知識整合3種管理體系,其中,在關聯整合中提出了基于科技報告文獻外部特征進行關聯整合的3種方式,在知識整合中,提出了基于領域本體的著錄標引、主題聚類、知識單元鏈接3種方式。該研究雖然包含了關聯數據的基本思想,但并未深入探討其實現細節。李成龍[26]研究了科技報告中粒度關聯數據的創建與發布,他將一篇科技報告作為根節點(即最粗粒度),將科技報告中某一具體知識點作為葉節點(即最細粒度),介于根節點和葉節點之間的節點即中粒度(比如前置部分、正文部分、結尾部分等),并對其進行自動標引和語義描述,從而實現關聯。夏立新[14]提出了基于關聯數據的科技報告語義組織與共享框架,將框架分為原始數據層、語義描述層、語義關聯層和語義服務層,在語義描述時復用了不同類別的規范詞匯或本體,如DC、BIBO、SWRC、FOAF等,在充分利用已有本體或詞表的基礎上,更好地整合了科技報告各類資源等。但是專門探討科技報告資源中涉及的各類實體間的關聯整合的較少。
隨著語義網和關聯數據的不斷發展,MARC已經成為圖書館數據開放利用的最大障礙,圖書館界急需一種新的書目數據格式,BIBFRAME應運而生。BIBFRAME因其面向語義網的技術架構和本體模型,可以使圖書館數據成為萬維網甚至是語義網的一部分,自被提出至現在,學者對其展開了激烈討論。[27-30]而BIBFRAME自身也在不斷得到完善和發展。2015年10月,美國國會圖書館發布了BIBFRAME 2.0草案,宣布將原始的作品、實例、規范、注釋四個核心類變為作品、實例、單件3個核心類;取消規范核心類,規范控制不再依賴于規范檢索點;取消注釋核心類,可以復用成熟關聯詞表數據;新增單件核心類,可以跨越書目和館藏格式;核心類的變化使得信息揭示更加靈活、輕便、準確。[31]目前,國內關于BIBFRAME的研究僅限于理論介紹[32-35]方面,僅上海圖書館開展了基于BIBFRAME的家譜本體設計,并取得了實質性實踐成果。[36,37]
書目框架BIBFRAME作為下一代取代MARC的書目數據格式標準,能夠為“人類文化記憶機構”(如圖書館、檔案館、博物館等)共同使用,具有較好的包容性、可擴展性和開放性,其詞匯也可以反映科技報告資源的文獻特征;同時,它也是一個基于關聯數據的書目數據模型,包含人、機構等概念,適用于科技報告資源內容相關實體的描述,滿足規范控制的需求。因此,利用BIBFRAME書目框架對科技報告資源進行描述和組織,將科技報告之間、科技報告與其他實體資源之間進行關聯,能夠提高科技報告資源的利用程度,為改善國內科技資源缺乏統籌協調,呈現低效、重復、分散、封閉、碎片化的局面而提供建議與指導。
BIBFRAME應用于科技報告資源相關實體間的關聯構建方面,在理論上和技術上均具有可行性。在理論方面,基于BIBFRAME的科技報告描述可以將其中蘊含的知識內容與物理載體形式區分開來,并可以很好地識別信息實體,揭示和利用實體間的關聯的核心思想也與科技報告領域資源實體關系不謀而合。在技術方面,BIBFRAME采用關聯數據的規則來組織、展示和分享數據,可實現資源的識別和定位。BIBFRAME采用知識本體對數據建模,其框架模型用OWL本體詞表發布,同時提供RDF文件以供下載。本體的核心概念是類與屬性,屬性可以表示類與類之間的關系??萍紙蟾骖I域核心概念如人員、項目、機構等可以用類表示,而對象屬性則可以刻畫它們之間的聯系。在整個詞表體系下,科技報告相關數據成為類的實例,進而成為嚴格規范的語義單元,數據之間的關系可以用規范謂詞來表達,可以被機器理解與處理,從而具備了語義。
這里提出科技報告資源描述與組織框架的主要目的有兩個:一是實現對科技報告資源的語義化描述與組織;二是實現相關科研實體間的關聯構建,并在此基礎上提供服務。因此本框架主要涉及的流程是元數據的抽取、元數據與BIBFRAME詞表的映射、關聯數據的發布和最終的語義服務4個層次步驟 (見圖 1)。
整個描述與組織框架面臨的資源主要是存儲在數據庫中的科技報告,而管理這些資源的基本手段是利用元數據對其進行描述與組織。元數據是人為設計的、用來描述各種資源的規范標準,如書目元數據MARC、DC等。由于資源種類的不斷增多,同一機構的不同類資源、不同機構同類型資源間都有可能采用不同的元數據標準。我國科技報告元數據規范包括13個核心元素,27個元素修飾詞,根據國家科技報告服務系統收錄信息對其進行抽取,并歸納為描述性元數據(題目、交替題名、關鍵詞、摘要、報告類型、頁碼、科技報告編號、語種、報告密級、提交日期)、作者元數據(作者、作者單位)、項目元數據(項目/課題名稱、項目/課題承擔單位)、館藏元數據(館藏號、館藏機構)和機構元數據五大類,此處可以將機構定義為作者、館藏、項目/課題對象的屬性即可。普通的元數據標準雖然提供了資源描述的語義基礎,但是不能完全解決語義異構問題以及資源對象之間存在的復雜的關聯關系,[38]因此需要將其與BIBFRAME等元數據進行映射。

圖1 科技報告資源描述與組織框架示意圖
BIBFRAME書目框架是圖書館領域一個最新的元數據本體模型,包含許多不同的實體類和屬性,并由專門的書目框架術語詞表進行定義。科技報告作為一種文獻資源,其元數據規范在很大程度上和書目元數據規范是共通的,如都有題目、責任者、主題、館藏、語種、格式等描述項,因此可以將書目框架模型作為基礎,將科技報告元數據與書目框架元數據詞表建立映射。需要指出的是,這里的映射包含元數據項目本身的映射,也包括關系的映射,如人員是科技報告的作者或責任者,那么BIBFRAME中將會有bf:agent和bf:contributor等屬性與其對應。對于無法利用書目框架建立映射的項目,考慮采用復用其他詞表的方法來解決。在整個關聯網絡中,還存在人員、機構等其他科學數據,主要利用現有本體詞表或者現有詞表的擴展進行描述。
通過元數據映射和關系映射,框架可以描述元數據信息和揭示它們之間的顯性語義關系,但無法揭示深層次的語義關系;而且元數據本體多是基于領域的,無法揭示資源與其他領域資源的關系。而關聯數據作為信息庫對外發布并提供數據訪問服務的形式,可以很好地解決這個問題。關聯數據借助HTTP URI的方式表示和存取“資源”,[33]此處“資源”既可以是信息資源,也可以是非信息資源,如果是前者,則通過傳統的Web方式獲取,后者則需要鏈接到一個以RDF/XML編碼的數據文件,該編碼文件包含了該“非信息資源”的元數據描述及其與其他實體對象的關系描述。借助關聯數據可以在不同領域本體間建立關聯,從而將科技報告與科技報告、科技報告與其他實體資源關聯起來,更進一步地講,還可以將科技報告與其他知識組織系統(如DBpedia等)關聯起來,從而使科技報告資源成為整個語義網的一部分。
在服務層/應用層需要實現的是對關聯數據的統一瀏覽和檢索以及其他語義互操作。關聯數據層實現科技報告語義數據的構建與關聯,而服務層則要實現關聯數據的Web發布與查詢。在選擇合適的發布方式時,需要考慮待發布數據的數據量、存儲方式、更新頻率等因素。根據上述因素選擇發布靜態RDF文檔,或基于關系型數據庫的發布方式,或基于API封裝的發布方式等??萍紙蟾骊P聯數據的查詢目前有很多不同的RDF查詢語言,應用最廣泛的是SPARQL查詢語言。更進一層的是,可以提供界面更加友好的問答式檢索,并允許用戶以自然語言的方式表達需求并獲取結果。
書目框架BIBFRAME的核心數據模型為Work—Instance—Item,即作品—實例—單件。按照BIBFRAME的定義,作品—實例—單件之間的實體關系模型是1:n:n的關系,即1個作品對應多個實例,1個實例對應多個單件。同樣地,將一件科技報告作為一個“作品”,那么該科技報告的不同版本(電子版、紙質版等)可以看成是不同的“實例”,每一次出版的情況,包括出版時間、地點等都有相關描述。國家科技報告服務系統的上線,以及我國科技報告呈繳開發系統的使用,表明未來科技報告的管理和服務將日趨網絡化、電子化。因此,本文將書目框架模型進行適當的調整,在只考慮科技報告電子版的情況下,構建了科技報告書目結構模型(見圖2)。

圖2 科技報告書目結構模型
以獲2013年度國家科學技術進步獎的《超強化旋浮銅冶煉和無氧化還原精煉工藝研發及產業化應用》報告為例,該報告有不同的收藏機構,包括中國國家科技報告服務系統、山東科技報告服務系統和國家科技圖書文獻中心等。對于某些國際合作科技項目來說,收藏者還包括其他國家或者國際機構等。而館藏信息正是“單件”的顯著特征,因此將這些不同館藏地的電子版科技報告作為其“單件”。在單純考慮電子版的情況下,將BIBFRAME核心模型簡化為1:1:n的關系,即一件科技報告對應一個實例(電子版),一個實例對應多個單件(存儲在國家科技報告服務系統、地方科技報告服務系統等的版本)。
知識本體包含每一個術語的明確定義及其關系,術語包括類(Class)和屬性(Property),類是同一類實體對象的抽象,屬性是對類的各種特征的抽象,對象屬性(Object Property)用于表示類與類之間的關系,數值屬性(Data Property)用于表示實體的內在屬性。BIBFRAME書目框架模型作為本體詞表發布,命名空間為http://bibframe.org/vocab/,前綴為bf。BIBFRAME書目框架除了定義核心類外,一些與資源相關的其他資源也被定義為資源類bf:Resource的子類。科技報告作為描述科研活動過程、進展與結果的科技文獻,作為非正式出版物,與圖書、期刊論文、檔案等有著明顯的區別,因而將BIBFRAME引入科技報告元數據規范中需要考慮容納現有的數據項,基于現有數據結構來厘清數據之間的關系,根據元數據元素來決定需要哪些屬性。科技報告文獻資源中包含資源相關的特征如題名、作者、語種等均可以在書目框架中找到對應的屬性來表達科技報告的特征。對于無法找到對應的屬性來描述的項目,則復用已有本體中的屬性,如報告密級。本體是建立在元數據方案之上的,科技報告文獻資源核心元數據與BIBFRAME詞表映射關系見下表。

表 科技報告核心元數據與BIBFRAME2.0詞匯映射關系
我國目前的科技報告依據保密等級分為公開、限制、機密和絕密四個級別,而書目數據中并沒有合適字段來進行描述,因此借用其他描述詞匯dc:access-Rights來進行描述。屬性bf:date下有許多子屬性,包括bf:originDate、bf:legalDate、bf:copyrightDate等,每個屬性都代表不同的日期,可見BIBFRAME詞匯語義的豐富性和靈活性,選取bf:originDate來對完成日期進行描述等。元數據與BIBFRAME 2.0詞表的映射不僅實現了從元數據向元數據本體的轉化,更將文獻資源與實體資源之間的關系包含在其中。
在書目框架中,很多在元數據記錄中取值范圍為字符串的屬性被作為實體對象屬性來處理,如作者項bf:agent,其屬性類別為Object Property,這說明作者是一個類,據此可以聯系科技報告與科研人員,揭示實體間的關聯。而有些元數據項既可以選擇為數值屬性(Data Property),也可以選擇為對象屬性(Object Property),根據實際情況選擇是否實現與其他類的聯系。
科技報告元數據與BIBFRAME詞表映射,解決了科技報告文獻資源的語義描述問題,對于整個關聯網絡中的其他資源,如人員、機構、項目、會議等,BIBFRAME 2.0中也定義了相關實體類來對其進行描述。BIBFRAME 2.0中的Agent類其上位類是FOAF本體中的 Agent類。FOAF (Friend of Friend)[39]本體是一個面向社會網絡關系的領域本體,其中foaf:Agent類下有foaf:Person、foaf:Group、foaf:Organization三個子類,屬性包括 foaf:gender、foaf:birthday、foaf:topic_interests等。BIBFRAME 2.0中,bf:Agent類即來源于foaf:Agent類,包括bf:Person、bf:Organization、bf:Family、bf:Meeting和bf:Jurisdiction五類。對于項目資源,復用foaf:Project,如上表中所示。此外,科學研究會議會產生一些事件等,不少應用乃至本體中都有“事件”實體,比如BIBFRME中的Event類,很多時候復用“事件本體”。Event[40]本體由倫敦瑪麗皇后大學的數字音樂中心開發,將圍繞事件的實體分為6類,事件/子事件、代理、因子、產品、時間、空間,其中“代理”是指起作用者,即人或計算機,“因子”指除了代理外的其他參與因素。事件本體只提供一個簡單的框架,對象與類都沒有細化,由于其簡單性和可用性,事件本體已經在廣泛語境下被證明有用。事件本體使用4個命名空間,除本身(http://purl.org/NET/c4dm/event.owl#)外,復用人物、時間、地理3個本體。因此會議事件既可以用Event本體來表示,也可以用Agent類中的bf:Meeting來表示。
科技報告資源關聯整合網絡作為包含文獻資源與其他實體資源的網絡,文獻資源之間更多依賴主題特征建立關聯,比如內容上存在引用與被引用或部分與整體的關系等,而文獻資源與其他實體資源之間的關聯多依賴于外部特征?;谙嚓P本體的設計,作者構建了科技報告領域語義關聯模型,該模型并不試圖容納揭示相關資源間的全部關聯,而是形式化描述各種類與類間的關聯(見圖3)。

圖3 科技報告領域資源關聯示意圖
圖3中科技報告文獻資源用橢圓表示,其他實體資源用矩形表示,用帶箭頭的有向線條表示屬性,類及屬性的適用對象和期望值可從圖中的有向線條及其起止點看出。一個科研項目可能會產生多份科技報告,因此科技報告之間會存在bf:references與bf:referencedBy(引用與被引用)、bf:partOf和bf:hasPart(部分與整體)、bf:continues和bf:continuedBy(前后連續關系)等互逆關系,不同科技報告之間還可以借助bf:subject(主題)建立關聯。此外,科技報告與科研人員之間通過bf:agent和bf:contributor等建立關聯;科技報告與機構之間借助bf:heldBy和bf:provisionActivity等建立關聯;項目/課題通過foaf:currentProject建立與科研人員之間的關聯,借助bf:eventContentOf和bf:event-Content建立與科技報告間的關聯。此外科技報告與會議事件、機構與事件等也存在關聯。科技報告領域各種資源間的聯系是復雜多樣的,BIBFRAME詞匯也是極其豐富的,也可以復用其他已有本體,根據實際資源關聯整合情況進行擴展。
實證研究部分主要是對框架中的關鍵步驟,即元數據抽取、映射和關聯數據發布進行了實現。本研究選擇國家科技報告服務系統中國家科技重大專項“高檔數字機床與基礎制造技術”的134篇科技報告為研究對象,下載其題名、關鍵詞、作者等元數據記錄,其元數據與上表中類與屬性相對應,并保存在關系型數據庫中。通過其他數據庫,補充并完善科技報告中所含人員(姓名、工作單位等)、科研項目(項目名稱、參與人員、承擔單位等)和科研機構(機構名稱、通訊地址等)相關信息。根據實際情況和現有數據,本實驗選取的實體內容包括報告(Paper)、人員(Person)、項目(Project)和承擔機構(Organization)四類。為每個實體分配一個URI,形式為
本研究在充分考察科技報告領域資源特征、相關實體及聯系的基礎上,指出了BIBFRAME應用于科技報告資源關聯整合的可行性,并據此提出了一個基于外部特征的科技報告資源描述與組織框架?;谡麄€框架,本文首先提出改進的科技報告書目概念模型,接著將科技報告的元數據與BIBFRAME詞表進行映射,實現科技報告資源的描述與著錄,并利用BIBFRAME相關屬性實現了科技報告領域相關實體間的關系描述。
書目框架作為基于關聯數據技術的本體模型,既可以揭示科技報告文獻資源的特征,也可以揭示圍繞科技報告的各種實體,如科技人員、科研機構和科技項目之間的關聯關系,能夠有效提高科技報告利用率和加強對科技活動的監測和管理等,提升了科技報告領域的服務和管理水平。然而,目前書目框架項目尚在進行之中,一些細節問題并未得到解決或者正處于討論階段,因此基于BIBFRAME書目框架的科技報告資源關聯整合研究主要以書目框架的核心模型為基礎,之后可能需要進一步完善和修訂,并要考慮書目框架和其他已成熟本體的關系,深入考慮基于內容特征的科技報告資源與其他科技資源的關聯整合和知識發現,是BIBFRAME書目框架需要解決的問題,也是本課題后續的研究方向。