基于關聯數據的信息資源整合

2014-12-25 02:15:54田寧

圖書館學刊 2014年1期

田寧

（天津農學院圖書館，天津 300384）

在信息“爆炸”的時代，用戶想從海量信息里準確而全面地獲得自己所需要的信息越來越困難。因此信息服務機構應整合一切信息資源，為用戶提供更深層次的、一體化的符合用戶需求的信息資源服務。從我國的實際情況來看，傳統的以文獻為主的信息資源整合是比較成功的。但是隨著數字化的發展和互聯網的廣泛使用，對信息資源的整合提出了新的要求，關聯數據的適時應用為信息資源的深度整合提供了解決方法。

1 關聯數據

關聯數據的概念來自于W3C，Tim Berners-Lee于2006年首次提出關聯數據的基本思想及4條原則，隨后逐漸發展，并得到了信息機構、政府部門、企業等多方面的重視和關注，成為推動語義網發展的重要力量[1]。關聯數據通過網絡把以前沒有關聯的相關數據聯接起來，關聯數據的最終目標是使用關聯數據就像是用一個單一的全球數據庫Web。關聯數據技術作為一種新的語義發布工具是目前數字資源揭示和利用的一項重要技術，其在整合孤立的數據、提供開放的元數據服務、實現語義互操作和實現數據的Web服務等方面具有廣闊的應用前景。

關聯數據是一種在網絡中發布、分享、聯接結構化數據的方法，它主要建立在3種技術的基礎上：用統一資源標識符（Uniform Resource Identifier，URI）來指代任何資源；用RDF三段式來描述和聯接任何資源，RDF三段式，即事物——特性——值，其中的任何一部分都可以集中很多信息，都可以回答檢索問題[2]；用HTTP來描述資源或者檢索對資源的描述。

信息機構應用關聯數據主要是利用關聯數據整合分布式異構數據源的能力，把信息機構在發展過程中積累的大量的異構數據源整合成采用相同存儲方式的業務數據，以便于用戶訪問。利用關聯數據擴展資源也是圖書館界應用關聯數據的主要方式之一，如通過關聯數據擴展其目錄檢索界面、瀏覽更多更新結果和展示更多館藏信息等；利用關聯數據實現數據融合與語義檢索服務；利用關聯數據在學術研究和學術交流中發揮更大的作用；跨機構的關聯數據的開放與應用；關聯數據有助于實現一次寫入、多次使用的目的。圖書館為了多種目的需要重復使用書目數據，關聯數據這時便發揮了作用。圖書館關聯數據是結構化的，可以提供快速的再利用，有助于在更大范圍內提供開放擴展服務，實現圖書館與教學系統之間的集成。

2 基于關聯數據的信息資源整合

信息機構都有著豐富的信息資源，但不同的信息機構以及同一信息機構內部的各種信息資源采用的標準和遵循的協議很有可能不太一致，導致全國各個信息機構以及各信息機構內部的信息資源不能實現充分的整合和一站式的檢索。對于信息機構來說，不僅浪費了勞力來進行重復建設，而且形成了大量的冗余數據；同時對于用戶來說，既增加了信息查找的難度，也降低了信息資源的利用率。關聯數據的適時提出和應用為解決這些問題提供了新的思路，因此需要對信息機構進行基于關聯數據的信息資源整合，來減少冗余數據、提高信息資源利用率并創建面向用戶的友好的統一查詢視圖，以便用戶可以方便快捷地獲取信息資源。

2.1 基于關聯數據的信息資源整合內容

信息資源整合是根據一定的需要，對各個相對獨立的信息資源系統中的數據對象、功能結構進行融合、類聚和重組，重新結合為一個新的有機整體，形成一個效能更好、效率更高的信息資源體系，從而保證信息資源得到更好的利用[3]。筆者所述的信息資源整合是基于新興的關聯數據技術的信息資源整合，指的是傳統資源與各類數字資源的整合。將不同類型、不同載體的信息資源及其服務、系統進行有機結合，將現有的大量異構系統及龐大的信息資源重新組織和整合起來，形成一個統一提供服務和便于讀者利用的整合環境，信息資源的整合就是要按照信息資源之間的內在知識關聯進行優化、重組，形成系統化、智能化的資源集合體，提供更加便捷的信息服務。整合后的信息資源服務優勢在于它賦予了用戶強大的信息資源檢索和獲取能力。與傳統信息資源整合不同，此整合包括一切與用戶需求相關的信息資源，是理想狀態的不受資源的載體、形式、類型、系統和機構的限制的整合。

基于關聯數據的信息資源整合分為縱向信息資源整合和橫向信息資源整合，見圖1。

圖1 需要整合的信息資源

縱向整合是整合每個信息機構內部的所有信息資源，即全部館藏資源所包含的信息，包括紙質文獻資源（如圖書、期刊、報紙等）、數字文獻資源（電子圖書、電子期刊、數據庫、各種光盤等）、網絡資源、各種信息系統等。根據劃分的依據不同這些資源還可以劃分為實體資源和虛擬資源等。不論按哪種劃分方式這些資源不僅有些部分是重合的，而且涉及的數據平臺和使用方法等還各不相同，所以需要經過搜集整理排序，去冗存精整合成格式統一的信息資源。

橫向整合是將各個信息機構（例如圖書館、情報研究所、檔案館、博物館等）的所有信息資源聯合起來進行整合。我國有許多相同（級別不同）或不同的信息機構，每個信息機構都承擔著一定的社會職能，在公共文化服務體系中有重要的地位，其所擁有的館藏資源有很多相同和不同之處，隨著數字信息技術的發展和網絡環境的形成以及人民群眾對精神文化的要求越來越高，實際環境要求這些信息機構應合作起來為用戶提供更好的可共享的信息服務。但是這些信息機構擁有的信息資源格式和技術各異且壁壘重重，要達到上述要求就需要通過關聯數據將其信息資源完美地整合在一起。

2.2 基于關聯數據的信息資源整合過程

信息資源整合是一個復雜的過程，具體分為以下幾個步驟，見圖2。

圖2 基于關聯數據的信息資源整合過程

第一步就是對信息機構的全部館藏資源進行數字化整合（許多信息機構已經把一部分或者大部分的館藏資源數據化了），即將各類資料文獻轉化為有序的數字化資源，通過對印刷型文獻資料、音視頻資料進行數字化加工，轉化為數字格式的資源，以數字化方式存儲。這一步是對所有館藏資料進行縱向信息資源整合的過程。

第二步就是把所有的數字資源創建成關聯數據形式。數字化后的信息資源主要包括元數據和對象數據兩種。把這兩種數據通過規范形式的描述轉換成為RDF（資源描述框架）記錄，在這個描述信息里需要建立這個內容對象的內部結構和內容，還需要建立與其他內容對象的關聯描述。

第三步是把創建的關聯數據通過網絡發布出去。關聯數據完全建立在已有的Web技術基礎上，把轉換的RDF記錄在Web上發布出去是以4個基本原則為基礎的，可采用以下兩種方法：支持HTTP的內容協商機制，能根據客戶端信息請求的類型決定返回的是HTML的表示形式還是RDF的表示形式；或者支持采用帶“#”號（hash）的URL方式定位到RDF中具體的數據資源[4]。

第四步是構建關聯數據之間的關聯關系。關聯關系的構建包括內部關聯關系的構建和外部關聯關系的構建。在形成RDF記錄時，這個記錄里就已經建立了與其他內容對象的關聯描述，這個關聯描述就是內部關聯關系的構建。關聯數據瀏覽器支持用戶通過RDF鏈接在數據源之間進行瀏覽，將獲取的RDF數據進行影射解析、提取、合并等處理后，形成虛擬的或者是實際的RDF數據庫，可以通過RDF API或者SPARQL語言訪問，這個數據庫則是外部關聯關系的構建。

第二三四這3個步驟是構建關聯數據的過程，同時也是進行橫向信息資源整合的過程，這個過程理論上是應該可以把所有信息機構的信息資源整合在一起的。

第五步構建可以瀏覽關聯數據的統一視圖。關聯數據是可以提供多個分布式異構數據源的整合的關聯的訪問，將來自不同數據源的同一對象進行集成，返回關于該對象的所有相關信息的統一視圖。目前關聯數據瀏覽器主要有Tabulator、Marble、Disco、LinkSailor等。但是這些瀏覽器在關聯數據的導航和檢索結果顯示方面還不太符合用戶的使用習慣。考慮到面向用戶的友好性方面，應該按照實體對象的類型，提供方便直觀的以實體為中心的關聯數據瀏覽器服務，以顯示關聯數據技術的優勢。

第六步是維護關聯數據的鏈接。隨著關聯數據網絡的不斷擴展和關聯數據的開放性特征，關聯數據源很可能會有所變動，這樣數據源之間的關聯就可能會產生斷鏈，而基于關聯數據的應用隨之也會發生錯誤。因此需要定時掃描和修補關聯數據的URL鏈接，包括及時修補斷鏈、刪除已消失的鏈接并建立新的鏈接。

如果所有的信息機構都能把本機構的信息資源發布成關聯數據的形式，那么用戶就可以利用關聯數據技術通過網絡檢索到所有信息機構的數據，從而獲得更多更齊全更豐富的信息資源。這不僅提高了信息機構的資源利用率，而且用戶通過關聯數據還可以檢索到非信息機構的信息資源，并可以通過關聯數據再鏈接回原信息機構，這樣就進一步拓寬了用戶獲取資料的全面性。

[1]徐華.關聯數據在國外信息機構中的應用及其借鑒意義[J].信息機構學研究：應用版，2011（8）：87-89.

[2]美國肯特州立大學曾蕾教授為我院帶來圖書館學學科前沿講座[EB/OL].[2011-06-10].http：//simyjs.whu.edu.cn/detail.asp?newsid=3934.

[3] 胡昌平.面向用戶的信息資源整合與服務[M].武漢：武漢大學出版社，2007：27.

[4] 關聯數據發布技術的發展趨勢分析[EB/OL].[2012-09-01].http：//lunwen.1kejian.com/MBA/104968.html.