,, ,
為用戶提供便捷的服務,使館藏得到高效利用是大數據時代圖書館亟待解決的問題。在網絡環境下,圖書館不僅要快速、全面搜集知識信息,還要建立起知識之間的關聯,實現館藏資源的語義深度挖掘,從而實現個性化知識服務[1]。作為語義網實現的有效技術,關聯數據一直是研究的重點,在現有因特網基礎上,將自然、社會和精神世界映射到數據網絡中,通過資源描述,使網絡的內容富含語義、互聯互通。知識組織的核心目標是尋求有效語義描述,但在館藏資源語義特征的揭示及關聯研究上,傳統信息組織方法存在一定的缺陷,面向用戶需求的智能化服務由于館藏資源描述的語義缺失而難以應用到知識服務的最前沿去,而是一直停留在理論研究層面。在數字形態的館藏資源中,關聯數據的應用為多層次深度語義描述、應用資源提供了有效的示范。劉飛[2]等人通過對國外關聯數據研究文獻的計量學分析,認為資源定位、元數據、本體和語義是國外近年來研究的熱點,研究內容和關鍵詞、主題詞的范圍正在逐漸擴展。但是國外研究也存在某些問題,如核心團隊過于集中,在科技快速發展的同時,經典文獻、理論和方法沒有得到完善。蘇春萍[3]等人則根據現有醫學圖書館信息資源整合訴求,應用關聯數據理論和SOA技術,給出一種資源整合模型,能有效消除數據源異構缺陷,整合了醫學圖書館關聯數據的生成系統,簡化了醫學圖書館關聯數據的創建和維護流程。
然而,目前在關聯數據方面的研究多處在淺層次開發應用階段,如有效的發布機制、關聯開放數據的建立、深層次描述與關聯還處在缺失狀態,應用服務推廣也迫在眉睫[4]。
早在20世紀80年代末,國外學者就將本體理論與技術應用到信息資源融合研究中。在資源融合中使用本體方法是對異構信息資源語義化標注,建立標準元數據知識存儲庫,實現語義檢索的過程。本體的本質是知識組織工具,這使數字資源語義化標注和互操作成為可能,在一定范圍消除了數字資源語義異構問題,但局限在于其一定是領域相關,是針對某一個領域或知識庫內的資源融合。對于多個領域間或知識庫間的融合,則必須通過數據映射和關聯加以實現。
作為語義網的實現方式之一,關聯數據的優勢已經展現出來,得到了各界和圖書館界的廣泛關注[5]。面對海量數字資源和增強資源全球互操作性的要求,2010年成立了圖書館關聯數據孵化組織。該組織期望各圖書館通過制定共同標準進行數字館藏資源的描述,并發布統一標準的關聯數據,從而能更好地推動圖書館事業的發展。瑞典國家圖書館開放聯合書目為關聯數據,實現了書目數據互聯;美國國會圖書館共享和重用了書目數據,語義化描述標題表后,在Web上以關聯數據的形式發布;2010年德國國家圖書館公開其關聯數據為權威數據;法國國家圖書館語義描述主題編目后,將其以開放式關聯數據發布;2010年匈牙利國家圖書館將數字圖書館、OPAC以及相應的數據以關聯數據的形式發布;OCLC將來自14家圖書館中格式不同的權威文檔進行關聯之后,提供給VIAF項目,使圖書館規范文檔的利用率得到有效提高。
網絡技術和計算機技術不斷發展,圖書館館藏資源逐漸向數字資源演化,館藏范圍越來越廣,館藏結構也不再拘泥于傳統的紙質文獻等格式。新技術在促使圖書館發展的同時,也沖擊了其傳統的服務模式[6-7]。
館藏資源種類繁多,內容豐富,分屬不同數據庫,具有不同的組織形式、描述格式和存儲格式,很容易出現數據異構現象。知識庫資源之間也可能產生重復,知識的相關性不明晰。為了幫助用戶獲得更全面和準確的信息,有必要集成圖書館的數字資源,對館藏資源進行更深層次的融合。
一直以來圖書館研究領域關注的重點是館藏資源在數字化進程中的組織和序化,語義網的興起及相關信息技術的出現使該研究進入了新的時代。近年來,館藏資源的語義關聯研究有了眾多成果。
從用戶的角度看,個性化需求因用戶層次不同而有所差異。在館藏資源語義融合過程中,最關鍵的是語義關聯系統的構建,相關研究分為新型知識組織概念體系的構建和傳統詞表的語義化改造兩個方面。
迄今為止,有數種關于文本的知識表示方法。文本挖掘是從海量的文本數據中提取出潛在、用戶可用的隱藏知識以及可用信息。隨著研究的不斷推進,學者們基于本體論開始進行信息資源的語義揭示。在詞表的語義化方面,相關研究機構改造了原有的概念組織系統并提出相應的數據描述模型。
組織和序化館藏數字資源的目標是使用戶的個性化需求得到滿足,所以研究的趨勢就是設計出符合用戶習慣的知識組織體系。利用現有知識組織系統把數字化館藏資源科學有效地序化,并在此基礎上對館藏資源的語義信息進行有效的揭示,最終構建起語義關聯,推動館藏資源的深層次應用。關聯數據技術的提出,推動了館藏資源的語義關聯和全面共享。作為新興的技術,關聯數據技術越來越受到關注,但是圖書館資源關聯數據的語義化研究尚處在起步階段,研究成果較少,研究團隊也較為分散。上海圖書館集合數字圖書館背景和語義網技術深入研究探討了關聯數據理念,國家科學圖書館在數字圖書館中利用LOD方法揭示資源與知識內容關聯。
關聯的識別和發現算法在館藏資源語義描述的實現、語義關系的挖掘和關聯網絡的構建過程中極其重要。這方面的研究成果集中在發現機制的探討和算法研究上,研究涉及的資源類型多樣化,包括數據、文本及多媒體信息。
在數據融合空間的構建中,數據間的關聯發現是研究重點,計算語義相關度的傳統方法存在語義揭示缺乏的問題。針對這一問題,相關學者進行了語義關聯計算方法的改進,主要是借助語義樹構建和描述上下文權重。還有研究者基于知識模型提出了簡單的語義發現規則。在研究文本語義關聯中,熱點是關聯和知識發現非相關文獻的隱含內容。一部分學者認為該方法不能客觀反映中間文獻的主題關聯度,因而提出為文獻聚類加權的改進方法。在語義關聯發現算法方面,占據重要位置的是層次聚類方法,而且由于館藏資源對象的向量空間維度很高,在語義關聯發現中擅長處理高維數據的算法也得到了充分的應用。
目前國內在資源知識組織方面的研究主要集中在基礎知識、知識表示以及關鍵技術和方法等領域,理論研究逐步發展,但是缺乏與實踐應用的結合。基于語義的知識組織缺乏系統的創新,沒有考慮到用戶實際的個性化需求。基于知識組織的服務平臺大部分是以館藏文獻為單位的粗粒度、淺層服務模式,與用戶實際所需的細粒度知識服務存在著一定的差距。從組織和序化館藏資源的角度來看,語義深層次序化與關聯的研究空間較大,可以從兩方面入手深入研究:一是以文獻為單位組織和整合物理形態,二是從知識元視角討論網絡資源的語義描述和融合。
本文基于關聯數據構建了數字圖書館館藏資源語義化融合模式的整體結構(圖1)。

圖1 基于關聯數據的館藏資源語義化融合模型(LDRSPM)框架
由圖1可見,該模式共分為3個層次。一是本體融合層。在圖書館中,館藏資源根據類型和來源的不同,所采用的元數據描述規范通常也有所不同。即使是處于同一所圖書館,其中的元數據規范也是多樣化的,不同圖書館之間的元數據更是千差萬別。在圖書館數字資源中,元數據是語義基礎,但其帶來的異構性問題無法得到解決,有必要基于本體機制對元數據進行描述,轉換元數據為同一語義的RDF格式,實現元數據的語義化互操作。二是資源融合層。在該層依據關聯數據的原則,采用本體化的元數據模型,對館藏資源進行語義化描述,借助語義融合的本體把具有語義的RDF鏈接顯性地揭示出來,將具有各種隱性關系的相關資源連接起來,實現圖書館不同制式單元語義融合。三是數據應用層。該層主要是瀏覽和查詢關聯數據化資源,在明確查詢結果的基礎上對其他相關信息進行深度鏈接,從而查詢到更多的知識單元。
在構建本體時,一般采用多本體法或混合法。前者相對靈活,后者則較易實現元數據之間的語義互操作。根據兩種方法的特點,本文構建出核心元數據本體,保證元數據本體的共享和靈活。根據特定資源添加相應的屬性和概念,從而實現本體間的互聯。本文選用的核心元數據本體為DC元數據,構建本體采用的編輯器為Protg本體編輯器,編輯時使用手工編輯方式。首先,在構建核心元數據本體時,基于粒度劃分數據資源,分為文檔和文檔集合;其次,將文檔進一步細分為合集文檔和單一文檔。由于融合的資源類型廣泛,在對館藏資源外的資源進行語義描述時,要對基于現有本體復用,擴展其屬性。在對相關知識組織資源進行融合時,采用的描述語言是SKOS語言,其具體描述概念和相互之間的關系本文就不一一列舉了。
在構建本體模型的基礎上,語義化描述所有資源,使各類資源的數據格式統一為RDF數據。在關聯數據發布時,選擇RDF三元存儲器,完成不同知識單元間的資源融合。首先,進行數據的采集。數據來源于圖書館文獻資源數據庫,在數據采集時,選用標準格式數據。在批量導出元數據信息時,選擇“NoteFirst”格式以便于后期的格式轉換。其次,進行RDF元數據的構建。根據數據類型屬性對數據采用手工轉換的方式進行RDF數據集的生成,并根據不同的本體對不同的數據進行描述,分別生成對應的RDF數據集。第三,構建元數據。它是語義關聯其他相關本體的,因此按照數據類型屬性的屬性值關聯不同數據集間的數據,形成關聯數據化的圖書館館藏資源。第四,發布關聯數據。數據源的存在形式、更新頻率以及數據量決定關聯數據的發布,本文利用RDF三元組存儲器方式進行發布,其過程如圖2所示。第五,通過關聯數據訪問目標資源。LDRSPM采用SPARQL查詢終端,該界面支持基于語義的查詢,不僅可以無縫切換圖書館的不同數據集,還可以鏈接圖書館的外部數據。但是該界面的缺點是用戶要很熟悉SPARQL,加大了普通用戶的查詢難度。

圖2 RDF三元組存儲器發布關聯數據示意圖
從融合的角度和檢索的效果兩方面,對LDRSPM模型和典型的資源整合系統CALIS OPAC和中國知網(CNKI)進行比較(表1和表2)。
從表1和2可以看到,應用本體和關聯數據聯動融合的LDRSPM模型具有以下顯著特征。一是在廣度方面,LDRSPM可檢索到多種類型的資源,而OPAC和CNKI只能對某幾種特定的資源進行檢索;二是在深度方面,LDRSPM提供資源之間的無痕鏈接,可明確資源之間的語義相關性,有利于資源的開發和利用;三是控制詞能實現語義概念搜索,在搜索過程中實現對詞匯的自動配對,既可擴展搜索范圍,又可以維持檢索的精準率,而OPAC和CNKI只能機械地進行字符串檢索,準確率和召回率都明顯不如LDRSPM。但LDRSPM對控詞依賴程度大,對于控制詞表里沒有收錄的詞,則無法實現檢索。

表1 LDRSPM模型和OPAC與CNKI的功能、屬性比較

表2 LDRSPM模型和OPAC與CNKI的檢索效果比較
在圖書館的數字化進程中,館藏資源融合的深度和廣度不夠,語義異構問題也有待進一步解決。本文在討論關聯數據和館藏資源融合現狀的基礎上,基于關聯數據探討了數字圖書館藏資源的語義化融合過程,力爭實現元數據的語義互操作和格式、類型不同的元數據之間的融合,從而給用戶提供更加便利和完善的知識服務,使圖書館資源價值最大化。