鄭麗珺
(赤峰學院圖書館,內蒙古 赤峰 024000)
在大數據時代,圖書館對數字資源進行整理、轉化、搜集與輸出是其核心業務之一,應用大數據技術和網絡平臺對館藏資源進行跨媒體的整合,能夠滿足讀者日益增加的資源需求,促進圖書館知識服務由單一的檢索向復合式跨媒體方向延伸發展。實際上,早在上個世紀90年代,美國等西方國家就嘗試過將不同類型和載體的資源進行整合共享,提出“互助異構”的概念,建設起大數據的資源交換平臺,增強了館藏數據資源的統一性[1]。結合大數據時代的環境,圖書館對館藏資源進行跨媒體建設成為一種必然趨勢,通過搭建集成資源檢索、資源整合與資源輸出為一體的數據平臺,能夠為讀者提供一站式的知識服務,提高圖書館館藏資源的使用效率,優化圖書館的知識服務質量。
從館藏資源跨媒體知識服務的流程來看,圖書館的知識服務可分為3大模塊,即跨媒體本體模塊、跨媒體檢索技術模塊與用戶檢索模塊。
圖書館館藏資源跨媒體建設需要規范語義數據庫,使來自不同平臺和數據庫的資源能夠被挖掘和利用,這也是實現館藏資源跨媒體構建的基礎。具體來說,跨媒體本體模塊旨在規范資源本體的信息,并經過數據轉換技術組建起跨媒體跨平臺的數據庫,資源本體作為跨媒體知識服務的物質基礎,規范的本體語義能夠為跨媒體的資源庫構建提供全局的視圖,從資源本體方面格式化并規范化數據模型。
在圖書館進行館藏資源的跨媒體知識服務過程中,檢索技術起關鍵作用,檢索技術模塊是圖書館進行高質量知識服務的保障,也是館藏資源跨媒體構建的基本載體[2]。一般來說,大數據時代應用于跨媒體檢索方面的技術更側重于數據間的關聯與整合,重在挖掘數據間的隱藏知識和內在關聯規律,目的在于保障資源檢索成果的全面性和完整性。對比傳統的單一檢索算法,跨媒體的檢索技術模塊將不同數據庫間館藏資源進行有效整合,例如美國國家圖書館實現了資源庫的跨媒體鏈接,將50 個州和華盛頓哥倫比亞特區的數字資源庫、專題庫、法院檔案等整合起來,形成了集成的檢索系統,實現了跨媒體檢索的有效輸出。
用戶檢索模塊是圖書館知識服務的終端模塊,跨媒體的館藏資源建設與知識服務的成效需要經過用戶檢索模塊的檢驗。用戶檢索模塊主要包括3個功能。第一,用戶請求功能。用戶通過輸入關鍵詞,向圖書館檢索平臺發送請求,圖書館在制定的檢索算法運轉下,實現跨媒體檢索和本體映射;第二,檢索成果輸出。即圖書館完成跨媒體檢索后,將與關鍵詞存在關聯的結果呈現出來,輸出給讀者;第三,相關資源推薦?;诳缑襟w館藏資源的知識服務優勢在于能夠根據讀者的需求,將其他數據庫中與之相關的內容進行推送,縱向深化面向讀者的知識服務[3],優化讀者的檢索體驗。
大數據時代圖書館館藏資源的跨媒體知識服務系統的構建要以數據關聯為重點,統一不同資源庫中知識數據的語義描述,揭示數據間的內在聯系,并依據資源的關聯實現聚合,為規范資源互通平臺提供基礎與保障。筆者從資源提供層與規范層、知識粒度層、語義描述層與關聯實現層等維度,構建了圖書館館藏資源的跨媒體知識服務系統,突出館藏資源跨媒體整合的語義統一性處理規范[4]。

圖1 大數據時代圖書館館藏資源的跨媒體知識服務系統的構建示意圖
資源提供層是圖書館跨媒體知識服務的基礎,主要指館藏資源和其他形式知識庫的資源供給,是實現跨媒體語義關聯與數據聚合的第一步,也是滿足用戶多元化知識需求的源泉。資源規范層在接收到來自各個平臺的館藏資源后,需要對資源進行規范化和統一化整理,具體來說,在這個層級,圖書館需要利用數字資源統一描述技術對跨媒體的數據來源進行統一表達格式的處理,實現跨媒體異構數據源描述結構的統一。目前,哈佛大學圖書館率先引入了數據資源跨媒體服務的方式,將圖書館大數據通過媒體平臺公之于眾,在資源提供層綜合了廣泛的數據庫,豐富了其知識服務內容與基礎。
在資源規范層對異構知識資源進行規范化語義描述的基礎上,知識粒度層按照知識級別對其進行重要級別排序,并對關鍵內容進行細化處理,在館藏資源本體的作用之下,形成獨立的概念知識單元,可以說,每一個跨媒體館藏知識元繼承了上一級關鍵內容的特性,并對應了下一個知識元的特性。通過知識粒度層對關鍵內容的處理,使跨媒體的規范性資源元數據形成了相互關聯的整體[5]。設計知識粒度層的目的在于簡化復雜的跨媒體館藏資源,提取關鍵數據的特征,提升圖書館基于跨媒體館藏資源的知識服務的靈活性和即時性。
語義描述層是大數據時代圖書館館藏資源的跨媒體知識服務系統構建體系的核心環節,其目的是將跨媒體的館藏資源轉換為可被識別和整合的RDF 文件,形成能夠被計算機運算系統理解的元數據集。在語義描述層,圖書館對資源知識元和相關信息進行RDF形式描述,生成命名圖,并給每一命名圖分配URI,便于跨媒體資源整合平臺的識別。在具體的語義描述過程中,URI的賓語既可以是館藏資源的所屬機構或原始鏈接,也可以是精準到資源的生成者。總之,語義描述層負責RDF 文件的生成與URI 的描述,為館藏資源跨媒體關聯的實現奠定基礎。
在關聯實現層,圖書館利用跨媒體的資源語義描述,將異構的知識數據源進行有規律的關聯和整合,形成一種立體的、語義化的跨媒體館藏資源體系,應用RDF 鏈接機制保障跨媒體知識資源的有效流通與交互,降低不同館藏資源在平臺內共享的難度,以保障圖書館知識服務的延續性。
結合上述對跨媒體館藏資源知識服務系統構建的分析,筆者著重論述海量知識資源的內在聯系,將重點放在跨媒體知識服務過程中知識聚合的環節,這就涉及到跨媒體知識檢索技術方法的創新與應用。因此,筆者對大數據時代圖書館館藏資源跨媒體知識服務的方法進行論述,這對于提高跨媒體資源檢索與整合效率、提高知識服務精準性和針對性具有積極作用。大數據時代圖書館館藏資源跨媒體知識服務的方法主要有館藏資源采集與維護、知識特征提取與語義關聯、跨媒體本體構建與自學習3方面(見圖2)。

圖2 大數據時代圖書館館藏資源跨媒體知識服務的檢索框架
大數據時代,圖書館要強化館藏資源的采集與維護能力,一方面,圖書館可以對傳統紙質資源進行數字化轉化,豐富數據庫館藏;另一方面,圖書館也可以借助代理軟件,抓取捕捉網頁上的知識資源,完善數據庫中知識資源的類別與格式,為跨媒體的知識服務提供豐富全面的資源基礎。跨媒體館藏資源數據庫再進一步對采集來的數據進行分類儲存與統一性處理,便于后續的數據維護,例如數據自動更新、剔除陳舊資源等,從而保障館藏數據資源庫的性能[6]??傊?,在大數據時代,數據信息呈爆炸式增長,圖書館建設跨媒體的館藏資源庫,要著重強調數據的全面采集和維護,加強學科知識的更新與維護力度。
大數據時代圖書館館藏資源跨媒體知識服務的方法還表現在知識特征提取與語義關聯,通過對跨媒體異構知識資源的采集,圖書館要從語義層面進行分析和統計,結合本體庫對元數據進行標注、識別,抽取知識特征與核心概念,發現數據間的聯系,并將其納入語義庫中?;谥R特征的提取與語義關聯,可以有效打破跨媒體帶來的資源整合瓶頸,將知識數據重新進行分配和組合,實現數據資源的增值,消除語義鴻溝,進一步將底層的特征向語義層面上映射,挖掘出知識資源隱含的價值,從而提高語義表述的精確度,提高知識服務的效率。
清華大學圖書館致力于打造大數據時代的數字圖書館知識服務,對館藏數據的知識特征提取與語義關聯方面進行探索和實踐,嘗試從大數據環境中提取關鍵詞,并應用先進的數據挖掘技術,揭示媒體特征的語義關聯分析關鍵詞走向,獲取更深層次更全面的關聯信息。
在圖書館館藏跨媒體知識服務過程中,資源的檢索十分重要,直接影響到知識服務成果輸出,決定了圖書館知識服務的質量。跨媒體的語義檢索涉及到來自不同媒體和數據庫的多樣類型知識資源,因此很容易產生語義的歧義或重復問題,為了提高檢索效率、優化檢索結果,圖書館需要構建起跨媒體的本體體系,讓低層的語義特征能夠向高層進行轉化,并結合參考的本體庫進行完善和校正,然后以提取的語義數據和數據關聯為基礎,自動構建本體知識庫,實現跨媒體本體的自學習功能,進而為跨媒體知識檢索提供全局的視圖??缑襟w本體構建與自學習有利于圖書館可視化知識服務檢索結果,提高知識服務的準確性和有效率,是大數據時代圖書館館藏資源跨媒體知識服務的重要方法。
在大數據環境下,圖書館館藏跨媒體知識服務需要人才、技術和平臺3方面的保障。
英國圖書館與信息學專家認為智慧圖書館員能夠推動圖書館建設的發展,能夠致力于終身學習和服務系統創新。大數據時代賦予了圖書館跨媒體資源整合的重要任務,它的實現需要信息技術的突破和理論的創新,因此,圖書館要推進館藏資源跨媒體語義關聯聚合技術更新換代,主動建立學習型組織,保障跨媒體資源整合的持續開展,深化知識服務的全面改革。通過建立學習型組織,培養圖書館工作人員的終身學習理念,在跨媒體資源整合和語義關聯方面始終發揮主觀能動性,激活圖書館人員的創新能力,發揮其專業素養優勢,推動知識服務的技術創新??傊咚刭|圖書館人員因其專業性強被認為是圖書館的優勢所在,無論在跨媒體館藏資源整合方面還在具體的知識服務過程中,圖書館員都發揮著重要作用,建設學習型圖書館人才隊伍能夠為大數據時代圖書館館藏資源跨媒體知識服務模式的構建提供良好的人才基礎。
在大數據時代圖書館館藏資源跨媒體知識服務過程中,對數據關聯的挖掘和語義描述至關重要,因此,圖書館需要提升潛在語義關聯挖掘技術水平。一般來說,多層次樹結構的語義關聯技術被得到廣泛應用,其優勢在于可以運用本體知識,在修復語義重復節點與集成淺層次節點基礎上,實現元數據上下類關系、同位關系等多種類型數據的多元關聯[7]。總之,樹結構技術能夠充分挖掘數據的規律,提升跨媒體多特征異構資源間的語義關聯知識質量,為大數據時代圖書館館藏資源跨媒體知識服務模式的構建提供充分的技術保障。
經過規范化的語義處理,跨媒體的館藏資源形成了標準化的數據格式,便于圖書館資源存檔、分類、檢索等工作的有序開展。為了實現館藏資源跨媒體的無障礙流通,圖書館知識服務需要建立起廣泛的交流渠道,促進圖書館內部外部的經驗交流,使圖書館的知識服務盡快實現向實踐的轉化??傊?,集成式一體化知識服務平臺能夠縮短資源流通的周期,降低資源獲取的成本,更好地提升讀者用戶的使用體驗。
在大數據時代,開放關聯成為跨媒體館藏資源建設的實現方式,也是新一代語義互聯網的發展趨勢,應用開放的語義關聯能夠實現不同類型不同結構數據之間的規范化處理,進一步挖掘數據間的關聯,建設超文本型、圖像型等多種數字館藏資源一體化管理與服務的數據庫模型,滿足讀者用戶日趨多樣的知識需求,再通過建立廣泛的交流渠道,實現面向讀者用戶的知識服務。目前,在圖書館館藏資源跨媒體建設知識鏈接方面,要著重突出館藏資源質量問題,圖書館應該結合自身資源特色,使跨媒體的知識服務優勢得到彰顯,同時要重視資源標準的統一問題,避免資源流通不暢等狀況。