摘 要:為避免重復建設造成浪費,促進資源共享,提高圖書館的個性化服務水平,同一區域的數字圖書館有必要進行數據資源整合。因此提出了基于元數據的同一區域不同圖書館的數字資源整合方案。
關鍵詞:圖書館;資源整合;元數據
中圖分類號:G250.76 文獻標識碼:A 文章編號:1674-7712 (2013) 24-0000-02
由于具有資源豐富、使用方便等特點,數字圖書館的應用也越來越廣泛。在數字圖書館的發展過程中,各單位都構建了自己的信息平臺,形成多個異構的系統,彼此之間無法實現信息交流;而在同一地區不同的單位都在建設數字圖書館,重復建設造成的浪費也十分嚴重。因此,如何將這些異構的數據資源進行整合,屏蔽系統之間的差異,實現一定區域數據資源的共享已成為資源建設中的難點與熱點。[1]
一、區域數字圖書館數據整合的意義
數據整合就是對異構資源系統中的異質、異類的數據資源實現邏輯上或物理上的集中,對資源實現去重、歸類、排序,提供統一的表示和操作,以實現多種異構資源的互操作,實現資源共享。通過對同一區域不同數字圖書館的數據整合可以消除日益嚴重的“信息孤島”現象。在信息化建設中,各單位在各個階段要滿足的需求是不同的。在建設過程中,大多數系統并沒有制定統一的標準,當然也很難實現標準的統一,從而出現彼此隔離的“信息孤島”,系統之間無法互訪。通過數據資源整合,可以在物理或者邏輯上消除異構性。用戶通過一次檢索,可以實現對多個數據庫的時間操作。
實現數據資源整合也是提高服務質量的迫切需要。網絡環境下,用戶需求出現了多元化、便捷化、個性化、知識化等特點,這些都要求信息服務機構提供高質量的服務。數據整合是提供高質量服務的基礎,沒有數據整合也就沒有高質量的服務。在數據整合的基礎上,可以提供更為人性化、個性化的信息服務可以做海量信息的數據挖掘,為用戶做決策分析。所以數據整合效果的好壞也直接影響信息服務的質量。
為避免重復建設造成浪費,促進資源共享,提高圖書館的個性化服務水平,同一區域的數字圖書館有必要進行數據資源整合。因此提出了基于數據倉庫的同一區域不同圖書館的數字資源整合方案。
二、中心元數據選擇
基于數據倉庫方式的資源整合,核心是對元數據的聚合。通過對所有電子資源實現統一元數據倉儲管理,將分散到各個異構數據庫里的資源進行物理的集中。在集中過程中,對元數據進行清洗、去重等操作,通過對集中的元數據檢索實現對原文的定位。原文可以物理集中,也可以分散存儲。這里以數據倉庫技術為例,討論以元數據為中心的區域數字圖書館的數據資源的整合。
我們選擇中心元數據采用DC元數據標準。DC元數據在電子文獻資源描述方面具有自己的優點:第一是簡單易用。DC元數據只有15個數據元素,比Mark格式簡單很多。這對于描述電子文獻資源非常便利。DC元數據的15個元素通俗易懂,不論是圖情專家,還是一般的用戶都能掌握;第二是它具有通用性。DC元數據描述的領域廣泛,不是針對某一個學科或者領域,可根據實際情況制定本領域的DC元數據標準。DC元數據標準可描述的資源類型多樣,可以對紙本圖書描述,也可以對電子文獻資源描述;第三是它具有可重復性。DC元數據的15個元素可以選擇和重復;第四可根據需要引入修飾詞。根據描述資源的要求不同可以選擇是否引進修飾詞。如果要求高可用修飾詞對資源作進一步描述;第五是它具有很強的兼容性,目前已逐步被大家認可,得到國際上的廣泛承認。[2]
三、區域數字圖書館資源整合流程
(一)中心元數據倉儲數據的獲取
統一的元數據倉儲的建立,對于數據倉庫的成功運行具有非常重要的作用,可以說元數據倉儲是整個系統的靈魂。我們將分散在各地的異構系統,通過位于中心的中心元數據倉儲有機的聯系起來。在這個模式中,由于中心元數據倉儲很像計算機拓普圖中的HUB,我們稱之為DCHUB。只有將其它系統的元數據匯聚到DCHUB之后,才能為用戶提供統一的、集成的服務。由于中心元數據庫采用DC標準,而區域內的其它系統可能采用其它的標準,即使采用的標準一樣,也會可能存在如下問題:(1)資源標識不一致,有的同名不同義,有的同義不同名;(2)資源描述詳略不一;(3)資源描述格式不一致,有的采用的是格式化語言,有的采用的是半格式化語言。因此DCHUB中的元數據可以通過數據源監視器從各數據源中提取,同時數據庫監視器也生成元數據;還可以將其它方式獲得的元數據通過元數據管理器錄入到元數據倉儲中。[3]
(二)元數據處理方式
從多個異構系統中抽取的和用其它方式獲取的元數據,還不能直接存儲到中心元數據倉儲中。先將它們放入臨時數據庫中,實現各異構系統元數據的互操作,進行元數據邏輯或物理的集成。
需要對被整合的元數據進行轉換(Transform)、清洗(Cleaning)、裝載(Loading)等處理。
轉換:利用轉換技術將不同結構的數字資源規范化,消除異構數字資源之間的不一致性,為來自不同系統的數字資源之間的比較、整合以及統一存儲奠定基礎。主要分以下幾個步驟:一是定義不同類型資源各自相對統一的元數據結構;
二是對不同類型資源的元數據進行映射;三是確定關聯關系,包括書目數據和目次數據的掛接、書目數據和規范數據的掛接,書目數據和數字化數據的掛接等;四是將所有的元數據分別按定義的映射關系進行元數據轉換。
清洗:主要是解決信息冗余的去重以及錯誤和不完整信息的修正、剔除問題。對于元數據的查重策略,以在本庫內進行為主。另外,將轉換過程中因不符合統一的元數據結構、字段定義而無法轉換的元數據作為錯誤數據單獨提取,并通過人工進行判斷。
裝載:是將清洗后的數字資源按一定的規則加載至數據倉庫,形成數據倉庫的物理存儲結構和邏輯存儲結構。在裝載之前,需要將每種數據源轉換后的元數據進行統一歸并,對字段的顯示名稱及格式進行統一整理,最終導出為特定格式的數據,再進行裝載。[4]
(三)全文獲取
數據整合的最終目的是讓用戶能通過一站式檢索獲取異構數據庫中的全文數據。數據倉庫將利用專門的工具從源數據庫中抽取數據加載到目標數據庫,而這個過程是數據倉庫建設中最關鍵和最困難的部分。在數據的抽取和加載時,抽取和加載工具需要檢驗,排除數據中可能的錯誤,要對數據進行綜合的整理、加工和重新組織。經過上述過程,數據才載入到目標數據庫中。[5]總之,要將不同的數據格式轉換為統一的數據格式;還要按照制定的更新規則,更新數據倉庫中的數據;更要保證數據抽取的質量。
四、結束語
通過元數據實現區域內異構數據資源的整合后,可以實現快速、便捷的“一站式服務”。通過一次檢索而實現對資源的統一訪問,可以在整合后的平臺上為用戶提供更個性化的服務;也可以在整合的平臺上對數據進行深加工,為用戶提供優質服務;還可以促進信息共享,減少不必要的重復建設。實現數據的整合是信息社會發展的必然,是實現信息共享的前提,是提供優質化服務的基礎。當然基于數據倉庫的數據整合也存在這些問題:(1)更新周期的問題。為使元數據倉儲中的數據能盡量和原始數據庫中的數據保持一致,元數據倉儲的建設者希望更新周期要短、更新頻率要快,但這無疑給元數據的貢獻者增加了很多難題;(2)數據一致性問題。在實際操作中數據庫建設者經常會對所建設的數據庫進行變動,很難保證數次提交數據的一致性,如:會增加或刪除部分字段,會變更元數據提交的格式等。但總的來說,幾種數據整合方案里以元數據為核心的數據倉庫的數據整合是最優秀的整合方案。我們需在工作實踐中建立元數據倉儲建設機制,確保可持續發展;更需要加強元數據互操作研究,不斷提高元數據整合水平。
參考文獻:
[1]謝中會,徐捷.基于元數據的信息系統集成的設計[J].電腦知識與技術:學術交流,2007(03).
[2]徐立臻,劉安,董逸生.數據倉庫系統中的元數據管理[J].計算機工程與應用,2002(24).
[3]畢強,朱亞玲.元數據標準及其互操作研究[J].情報理論與實踐,2007(05).
[4]王宗杰,等.基于元數據的分布異構數據集成研究[J].微計算機信,2007(27).
[5]郭和偉,等.數據倉庫中的數據抽取分析及應用[J].微機發展,2003(01).
[作者簡介]林英(1985),女,本科,助理館員。