吳曉彤 劉玉博
(山東農業大學圖書館,山東 泰安 271018)
關聯數據是一種鏈接各類數據信息的技術規范,可以實現機構知識庫內部、外部的數據集的互連[4]。因此,將關聯數據作為一種關鍵技術應用于機構知識庫的服務中,探索基于關聯數據的高校機構知識庫服務新模式,提高機構知識庫的知識發現和資源共享能力,將是機構知識庫未來的發展趨勢。
針對基于關聯數據的機構知識庫的構建研究,從2019—2021年[5-9],學者們開始從關聯模式、體系架構以及服務模式等方面構建基于關聯數據的機構知識庫。一些學者結合本單位的實際,探討了機構知識庫中關聯數據的構建模式,或是將關聯數據與資源描述的標準相結合提出了一種圖書館機構知識庫的構建策略。
這些研究為關聯數據技術在我國機構知識庫中的應用提供了有價值的參考,并衍生出一條新的知識發現服務模式,對我國機構知識庫的建設具有一定的理論指導意義。然而國內基于關聯數據的機構知識庫研究主要存在兩個特點:(1)由于關聯數據方式和系統模型的多樣化,多數研究需要對多個分布式異構系統中的不同本體模型進行映射;(2)國內研究多數是在針對自身的情況下采取特定的服務模式,或是針對某個關鍵的技術進行說明,而在構建通用的機構知識庫服務模式方面的研究較少。
綜上所述,我國目前尚未形成通用的機構知識庫服務模式及關聯數據方法,但由于通用模式的開放性和標準化程度更高,是未來機構知識庫發展的主流。因此,筆者旨在探索一種較為通用的基于關聯數據的高校機構知識庫服務模式和體系架構,充分利用機構知識庫海量的數字化信息資源及其與整個互聯網中學術資源的多維度關聯,為我國高校機構知識庫的建設和服務提供參考。
將關聯數據技術應用在機構知識庫中,首先,需要對機構知識庫中的數字化資源進行語義描述。即選擇合適的語義關聯模型,根據機構知識庫中資源實體之間的關聯和映射關系,由機構知識庫中的資源主體本身擴展到其他任何一個存在該資源主體的數據源或屬性中。由于本文旨在探索一種通用的基于關聯數據的機構知識庫服務模式,因此選擇數字圖書館領域資源,通常采用RDFS和OWL結構進行機構知識庫本體類的實現,并使用DC元數據對原生數字資源進行語義信息的描述。
就高校機構知識庫而言,其包含的數字資源主要包括兩部分:本校圖書館涵蓋的數字資源和高校人員的原生數字資源。因此,根據國家圖書館制定的信息資源名稱規范表,機構知識庫的數字資源可以細化為以下6類:
(1)科技成果(Technological Achievements):本機構人員發表或參與發表的學術期刊論文、會議論文、學位論文、報紙、專著、專利、軟著、標準、研究報告、預印本等科技成果;
(2)教學資源(Teaching resources):用于日常教學的演示課件、教材、音視頻、網絡教學資源等資料;
以天津市和平區、河西區、河東區、南開區、河北區、紅橋區6個區的養老機構作為調研對象,每區隨機抽取8家養老機構,共發放問卷48份,回收有效問卷46份,有效回收率95.8%。
(3)科研項目(Research project):指校級、市級、省級、國家級的橫向或縱向項目,且確保項目至少有兩名本機構人員主持或參與;
(4)科 技 獎 勵(Science and Technology Awards):本機構作為獲獎單位或獲獎者為本機構人員的市級以上學術獎勵;
(5)新品種(New Breed):由本機構人員選育的、審(認)定機構通過的作物、植物等品種;
(6)責任者(Scholar):主要為較為長期的從屬于本單位的專家學者、科研團隊或者機構,相對較為穩定。
對于這些數字化資源實體,語義描述需要對資源實體的一些核心概念進行確定,即定義對象的類和屬性,并根據實體間的關系對它們進行關聯,例如科技成果與責任者之間可以通過作者這一屬性進行一對多、多對一、多對多的關聯。根據這些對象類與屬性間的關系,通過復用業界標準詞匯,進行各資源之間的語義關聯(見圖1)。
接下來,筆者對關聯圖進行分析解釋。SKOS是一種以RDFS的設計方式描述知識組織的語言;FOAF是一種描述實體及實體之間關系的XML/RDF詞匯表,通過FOAF對學者信息和機構信息進行描述,并通過機構知識庫屬性ir:相似研究方向(similar research direction)在學者之間建立關聯;vCard用于擴展機構相關屬性,通過此復用詞將學者和機構兩者關聯起來;而機構知識庫中的科技文獻、教學資源、科技獎勵、新品種和科研項目分別通過屬性ir:作者(author)、ir:提供者(contributor)、ir:獲獎者(acquire)和復用詞foaf:項目(presideproject)與學者信息關聯;科技文獻和科研項目之間通過ir:成果(outcome)屬性進行關聯。

圖1 高校機構知識庫資源的語義關聯圖
在外部數字化資源的語義關聯方面,對于一些網絡檢索平臺,例如,谷歌、百度、維基百科等返回的查詢結果(如XML、JSON格式等),關聯數據技術可以對其數據集的API進行抓取和擴展,并轉化為相對應的RDF格式,方便機器進行進一步的結果處理,在此過程中還能夠通過RDF數據集關聯外部的相關數據源。
綜上所述,在關聯數據的環境下,機構知識庫內部的數字化資源語義關聯程度能夠更加緊密,同時也能夠實現將機構知識庫成員的檢索結果關聯到外部數據源,從而實現機構知識庫內部、外部不同數據集之間的銜接,形成更為開放的、跨機構的、高關聯的原生數字資源網絡。
基于關聯數據的高校機構知識庫構建的主要目的是通過對原生數字資源的語義化描述和語義關聯,實現資源與機構知識庫內、外部相關數據源的關聯,提高機構知識庫的知識發現和資源共享能力,為用戶提供更為高效便捷的服務模式。因此,可以從數據層、關聯層和應用層三個層面設計該模型(見圖2)。
其中,機構知識庫各類原生數字資源需要存儲在數據層中,機構知識庫需要對這些資源進行類型與格式的歸類,并根據DC元數據規范,對每條數據進行語義描述和存儲。為了保證機構知識庫數字化資源的完整性,收集和存儲數據的覆蓋范圍也并不限于本機構,對于其他科研機構、高校等一些合作機構的資源,數據層也可以共享。

圖2 基于關聯數據的機構知識庫服務模型
在關聯層,機構知識庫可以對數據層處理后的數字化資源進行統一的語義描述,應用RDF建立起機構知識庫內部資源間的關聯以及內部與外部資源間的關聯,通過各資源之間的鏈接,將獨立的數據資源整合、排序,形成一個全面完整的知識發現網絡,進一步提高機構知識庫數字化資源的開放性,為應用層中用戶對原生數字資源的獲取提供支持。
應用層在機構知識庫數據資源充分關聯與整合的前提下,主要為用戶提供語義檢索、數據瀏覽、知識服務和個性化服務四項內容。在這一層級,機構知識庫可以根據用戶的檢索需求,高效準確地為用戶推送相關資源,為用戶提供一個原生數字資源更為豐富的空間,增強用戶資源獲取的體驗感和對機構知識庫的認同感。
本文提出了一種較為通用的基于關聯數據的高校機構知識庫服務模式,分析了關聯數據應用的關鍵技術,包括原生數字資源的語義描述與關聯,在此基礎上構建了服務模型,并詳細論述了模型的構建方法和具體功能。
基于關聯數據的高校機構知識庫服務模式可以有效解決“信息孤島”的問題,能夠提高知識庫知識發現能力,加強機構知識庫資源的集成和共享,為我國高校機構知識庫的建設提供參考。