齊月佟大威(黑龍江省圖書館,黑龍江哈爾濱150090)
?
數字圖書館館藏資源聚合模式比較研究*
齊月佟大威
(黑龍江省圖書館,黑龍江哈爾濱150090)
[摘要]近些年館藏數字資源深度聚合成為國內外的研究重點。對比可以發現,國外的研究主要集中在框架構建和語義互聯技術方面,我國則在理論探討方面取得了很大的進展。介紹了當前基于本體、關聯數據、計量分析的3種實現數字圖書館館藏資源聚合的主流模式,通過不同資源聚合模式之間的對比,找出其中的發展趨勢,期待能為該領域的深入研究提供一些借鑒和參考。
[關鍵詞]數字文獻資源深度聚合比較分析館藏資源
[分類號]G250.76
*本文系黑龍江省藝術科學規劃課題共建項目“圖書館微信公眾平臺信息資源推送研究”(編號:2015D008)成果。
隨著我國高校數字圖書館的快速發展,資源的數量龐大,如何高效地利用這些資源是很多學者都在研究的問題。為了解決限制館藏資源獲取和共享的一些困難,國內的很多學者都對館藏資源的深度聚合進行了比較深入的探索,深度聚合后的圖書館資源能夠更好地為客戶服務,這樣大大提高了圖書館有限的資源的利用率。對于常見的館藏資源,在數字化文獻方面,主要是針對一些期刊、論文、報紙、專利信息、圖書和行業標準,大都是一次文獻信息資源,館藏資源聚合的目的就是希望將這些資源的一些內部關聯打通,使得檢索時能一起獲得。因此,對館藏資源進行簡單重組和歸類并不是使用者需要達到的目的,在能夠快速滿足用戶搜索的基礎上,提供更好的個性化知識聚合才是需要解決的問題。筆者通過對國內主流的資源聚合模式進行分析,對比他們的特點,最終總結出該領域的發展趨勢,以期對我國數字圖書館相關的研究可以起到一定的推動作用。
1.1國外研究現狀
通過對大量的國外相關文獻進行總結和歸類,可以知道目前西方發達國家在數字資源開發利用方面已經有了很大的進展,研究水平比國內領先很多,他們在計算機、數學、生物、教育和信息等相關方面比較集中,而這些領域都是應用型比較強的領域。同時相較理論研究他們更重視實踐研究。在相關研究成果的利用方面,他們將原本在圖書館學的研究成果應用到了其他的學科,亦取得了不錯的效果。
1.2國內研究現狀
國內能夠獨立進行數字資源聚合研究的高校比較少,這與我國在相關領域的研究起步較晚有關,但也取得了一些成績。設立了圖書館學相關專業的高校,在研究方面主要依托國家自然科學基金的資助,在關于館藏數字資源聚合研究方面主要集中在理論上的研究,對于在其他學科內的應用則比較少。
1.3研究現狀評述
從國內外相關文獻可以看出相關學者的研究重點有很大的差異。國外比較注重應用,偏向于將理論和實際結合起來,對理論的拓展應用水平比較高。國內的學者則注重理論上的深入研究,希望找到一個切入點,從理論上對館藏資源聚合進行透徹研究。國內在資源整合、聚合方面的研究多從模型的構建和可行性開始。國外的研究條件相對好很多,從理論的整體性上入手,構建基于實際應用的模型,從而方便研究成果的推廣。
館藏資源傳統聚合模式只對文獻的一些非常明顯的本質特征進行整理,對于資源的內容就無能為力,無法涉足其中。鑒于傳統聚合模式的缺陷,館藏資源深度聚合需要對資源從內容上進行語義聚合,將“聯系”上升到知識層面的“關聯”,這樣就可以對各類文獻資源從多個內在的維度進行揭示。目前主流的聚合模式主要分為基于本體的深度聚合模式、基于關聯數據的深度聚合模式和基于計量分析的復合聚合模式。
2.1基于本體的深度聚合模式
本體在知識資源方面的作用就是基于館藏資源,在此基礎上建立一個反映資源知識結構的本體概念模型,從而可以根據語言對館藏資源進行標注,這樣各種資源就被集合成了一個網絡,有助于實現檢索。通過對數量巨大的本體進行構建,組建一個知識的集合體,這樣就能將知識進行恰當地表示和組織,同時也可以描述眾多的文獻資料,最終將題目聚合到一起,這樣提供出來的知識就能夠有清晰的結構。
數字圖書館是一個大的本體,在為用戶構建個性化搜索服務時,要將搜索技術和查詢技術有效地結合到一起,最終得出用戶需要的結果并呈現出來。當用戶需要對館藏資源進行檢索的時候,相關的命令一旦發出,那么信息的采集就要同步進行,基于對用戶的建設興趣模型和相關的查詢要求都傳到了服務器中,搜索需要將數據的本體進行匹配,最終將處理后的結果呈現在用戶面前。在這種聚合模式下,用戶的檢索要求由服務器進行分析和處理,最終得出一個最符合用戶需求的結果。其中,基于本體的深度聚合模式的工作流程如圖1所示。

圖1 基于本體的數字圖書館館藏資源聚合模式工作流程
2.2基于關聯數據的深度聚合模式
在基于關聯數據的深度聚合模式中,作為核心的關聯數據是被國際互聯網協會所認可和推廣的規范,這種模式中講述的關聯數據是一種可以用語義來描述而形成的一種數據,它表達的是各種事物互相之間的一種關系,這些關系可以基于一個標準關聯在一起。關聯數據可以將意思分散和結構不同的數據,通過重新發布或鏈接關聯起來,這樣的機制可以將實際的知識和抽象概念聯系在一起,對于目前網絡信息的粗粒度與語義性缺失有很大的作用,可以將數據平臺進行極大的拓展。
關聯數據主要作用在數據層,通過一些復雜的鏈接機制使得數據的整體結構能被分類描述,這樣有助于計算機精確地將相關數據串接到一起,最終為館藏資源的聚合打下一個基礎。這種基于關聯數據的聚合模式,有一個很大的優點就是可以將來自不同數據源的同一個對象進行整合,這樣從處理對象上降低了難度,有助于資源的聚合。作為圖書館將擁有很大的主動權,一方面可以把自身資源進行開放與其他資源產生聯系,另一方面自身的資源也可以在這種聚合模式下聯系到其他的信息資源。
2.3基于計量分析的聚合模式
作為資源聚合模式的本體不能重復使用,并且元數據在對語義關系的表達方面非常弱,這都限制了這兩種方式的發展,因此考慮將計量分析方法引入館藏資源的聚合模式的研究當中。基于計量分析的方法來構建聚合模式模型,通過計量學分析可以構建相關的語義之間的聯系,結合語義網語言對現有資源之間的關系進行替換,這樣就編織了一個用來表示圖書館館藏資源的元數據關系網。
基于計量分析的聚合模式的語義之間的關系很深,計算機處理的程度也同樣比較大。在基于本體的聚合模式中,計算機并不需要進行很大程度的處理,館藏資源語義化分析過程中在一些領域舍棄了部分關系,這樣可以提高計算機的處理效率。我們知道,計算機自動化處理有助于技術的商業化推廣,在基于計量分析的聚合模式下,這種分析方法更能夠促使館藏資源滿足社會的需求。
2.4三種聚合模式的比較分析
縱觀我國目前的研究現狀,基于本體的館藏資源深度聚合的主要方式是構建不同類型的本體知識庫,這樣從知識的整個層面和本身的語義上對相關的文獻知識進行描述,最終達到對資源深度聚合的目的。相關的本體構建模型包含理論整合層、應用拓展層和知識檢索層3個層次。這種基于本體的館藏資源聚合模式,從一開始就需要構建龐大的本體,工程量是非常大的。這個構建過程一旦完成了,就能對所處理的知識進行全方位的解讀,最終完成對圖書館館藏各種異構系統的互操作,精準地分析用戶的需求,提高知識共享、利用的效率。
在利用關聯數據來作為資源深度聚合模式的研究中,它和傳統聚合模式的不同就是這種聚合模式更加靈活,而且操作起來比較簡單。用戶在使用過程中直接專注于信息本身,那些將外部和圖書館內部資源整合到一起的任務則由圖書館來完成。為達到通過關聯數據聚合館藏資源的這一目的,先要將圖書館的所有資源、信息體系完成關聯化改造,具體方法是依據關聯數據的邏輯原則,并采用先進的網絡技術,將館藏的實體和虛擬資源的主題詞表、分類表、格式文件等流程體系和各種描述元數據都轉化為關聯數據,納入Web,而且允許外界查看和搜索。這項工作較為復雜,包括設定通用資源標識符、設立詞匯集、建立資源描述框架等工作,也包括關聯數據的應用方法和技術手段等問題。
從信息計量學的角度出發,基于計量分析的館藏資源聚合模式在對檢索的語義關系深度上有很大的優勢,由于這種方法大大加快了計算機在運行時的自動處理速度,因此在推廣方面都有比較好的實用性。在館藏資源的相關語義化分析中,這種模式不但使數據的利用率得到提高,在促進相關領域的交叉研究方面也有很大的優勢。
從當前的情況來看,在傳統聚合模式下的館藏資源已經不能滿足現在的技術要求了,對于用戶對不同知識的個性化要求也難以實現。因此,對于館藏資源的深度聚合顯得非常必要。分析目前的館藏資源在深度聚合模式方面的研究,可以得到一些新的變化。新的研究方向是結合大數據分析對資源進行深度聚合以及對聚合的結果能夠個性化地提供可視化表達。
3.1利用大數據技術對館藏資源深度聚合
基于大數據分析的館藏資源的聚合,目前還沒有很明確的定義,對其進行界定也存在爭議。但當前社會處在一個大數據的時代已經無可置疑,數據也不再是單單描述文獻信息屬性。在這種情況下,一些往常需要進行簡單處理的對象就變成了基礎資源,這對擁有海量數據的館藏資源在聚合上遇到的挑戰就會成倍增加。圖書館的館藏資源非常豐富,在結構上有些很典型,有些非常不規則。但對這些海量數據的處理,無論在傳統還是現在比較先進的聚合方式下,如果沒有大數據處理方式的支持,這些數據在調用、存儲和使用上都會存在困難。因此需要對館藏資源進行語義化處理并建立相應的數據庫,將這些數據在統一的標準下進行儲存。而在對這些館藏資源進行細致挖掘的過程中,涉及的信息量也會急劇增加,這樣保障這個過程所需要的支撐條件就很艱巨。大數據分析是對資源的全面分析,這樣才能使得最終的結果和實際相吻合。而且目前的大數據處理方式,都需要借助云計算的輔助,這樣才能做到對館藏資源的深度聚合,徹底地對現有數據進行深度分析,最終能夠為用戶提供更好的新知識發現服務。
3.2館藏資源聚合結果的可視化
計算機圖形學和圖像處理技術的發展給館藏資源聚合的研究帶來了機遇和發展,在圖形化的操作方式下,聚合的結果能夠以圖像的形式顯示出來,這將挖掘出更多的隱性信息。可視化的表示方法有助于用戶對結果進行理解和吸收。可視化動態展示可以讓用戶更輕松地對結果進行了解,各種結果以動態畫面展示出來,并且對于動態的數據也能夠實時更新。這樣,用戶可以用一定的方式直接調節結果的可視化過程,比如改變輸入的數據,調整輸出的方法,這些操作都能在一定程度上滿足用戶個性化的需求。
數字圖書館館藏資源的聚合,實現了在數字資源之間聯系的深度揭示,對知識體之間的聯系能更好地分析和利用,從而達到優化檢索結果的目的。筆者對目前3種主流的圖書館館藏資源聚合模式進行介紹和對比分析,探尋數字圖書館館藏資源聚合的未來發展趨勢,并指出在大數據和數據可視化技術迅速發展的今天,基于大數據的數據資源聚合以及資源聚合結果的可視化呈現將是其重要發展趨勢,這些技術將大大提高用戶使用館藏資源的效率,進一步推動數字圖書館知識組織和知識服務水平的提高。
參考文獻:
[1]楊瑞仙,李露琪.國內外數字文獻資源深度聚合研究現狀的比較分析[J].圖書情報知識,2014(6):68-74.
[2]朱萍.館藏數字資源整合方案研究[D].鄭州:鄭州大學,2005.
[3]王博.中美圖書館信息資源數字化環境比較分析[D].鄭州大學,2006.
[4]趙蓉英,王嵩,董克.國內館藏資源聚合模式研究綜述[J].圖書情報工作,2014(18):138-143.
[5]游毅,成全.試論基于關聯數據的館藏資源聚合模式[J].情報理論與實踐,2013(1):109-114.
[6]邱均平,王菲菲.基于共現與耦合的館藏文獻資源深度聚合研究探析[J].中國圖書館學報,2013(3):25-33.
[7]何超,張玉峰.基于本體的館藏數字資源語義聚合與可視化研究[J].情報理論與實踐,2013(10):73-76,39.
[8]李勁,程秀峰,宋紅文.基于語義的館藏資源深度聚合方法研究[J].情報科學,2013(11):100-103.
[9]賀德方,曾建勛.基于語義的館藏資源深度聚合研究[J].中國圖書館學報,2012(4):79-87.
齊月女,1981年生。本科學歷,副研究館員。研究方向:地方文獻及征集。
佟大威男,1981年生。本科學歷,館員。研究方向:數字圖書館。
收稿日期:(2015-05-04;責編:姚雪梅。)