林雁



摘 要:當前的圖書館云檢索系統存在著各種各樣的問題,例如沒有及時關注用戶的實際需求,還有一個問題就是檢索效率非常低,因此,提出了以Hadoop為支撐數據的智能圖書館云檢索系統。首先集成Hive,HDFS,MapReduce和Hadoop組件,以設計智能圖書館云檢索系統的硬件部分。Hive主要用于圖書館圖書關鍵詞的存儲和分析。MapReduce主要用于資源的實際統計分析和計算。HDFS主要用于存儲相關的操作數據, Hadoop主要用于存儲設備的相關管理。通過多組實驗數據對系統的性能進行了測試,與其他類似的檢索系統相比,效率大大地提高。
關鍵詞:智能圖書館;云檢索系統;系統設計;數據檢索;性能測試
隨著時間的推移,數據量也迅速增加,服務提供商一直在創新技術,還是難以滿足讀者的實際需求。對于圖書館資源,怎樣快速獲取信息,學者已經開始從研究國內外的各種信息。本文利用數據挖掘技術開發出智能圖書館云檢索系統,為及時有效地獲取專業書籍資源提供了有效途徑。
1 智能圖書館云檢索系統
1.1 智能圖書館云檢索系統架構
在構建智能圖書館云檢索系統的過程中,有必要創建一種適用于智能圖書館信息云檢索的分布式檢索體系架構。根據圖書館資源檢索需要,使用開源云計算平臺Hadoop,基于HDFS,MapReduce和Hive的集成,建立智能圖書館云檢索架構。智能圖書館云檢索系統可分為四個部分:訪問層,應用接口層,基本管理層和存儲層。具體結構如圖1所示。
1)訪問層。讀者可以登錄應用界面,并根據各種信息檢索和信息加載提供檢索服務。服務器會將新輸入的圖書實時更新到系統的會員卡信息中。2)應用接口層。它可以根據具體的業務類型提供圖書館資源檢索平臺3)基本管理層。它是智能圖書館云檢索系統云存儲的最關鍵組成部分。數據基礎管理層使用HDFS,MapReduce,Hive等技術實現系統相關設備之間的聯合工作,并向系統外部提供統一的檢索服務。4)存儲層。它是系統組成的核心部分,具有重要的功能,所有的存儲設備都由系統統一管理。使用開源云計算平臺Hadoop來實現云存儲設備的虛擬化管理,以及存儲設備的故障狀態診斷等。
1.2 系統特定組件的分析
Hive主要用于圖書館圖書資源關鍵詞的存儲和分析; MapReduce主要用于圖書館圖書資源的實際統計分析和計算; HDFS主要用于存儲相關操作數據;開源云計算平臺Hadoop主要用于與存儲設備有關的具體管理圖如圖2所示。本文設計的智能圖書館云檢索系統的HDFS架構如圖3所示。1)管理器HDFS體系結構中的控制節點是控制節點,可用于管理名稱空間,集中分配以及復制圖書館書文件的存儲模塊。控制節點將圖書館書文件的元數據存儲到存儲器中,并且書文件的元數據在數據節點中包含書文件信息和數據節點的信息。2)數據節點是庫資源存儲的基本組成部分。他們可以以塊狀形式在本地存儲書籍資源,為書籍資源存儲元數據,并在給定的周期內將所有現有的圖書館資源塊信息傳輸到控制節點。3)客戶主要負責獲取HDFS中的圖書文件。
智能圖書館云檢索系統中的MapReduce架構如圖4所示。MapReduce架構中的作業節點專注于調度作業的運行,架構中的作業節點和任務節點可以相互轉換,執行任務時,它可以分為多個切片。任務節點反映切片數據和映射任務等等。客戶端將圖書館信息檢索查詢的計算任務提交給MapReduce。HDFS可以提供庫信息存儲功能,主要用于為所有操作節點提供所需的資源。
Hive架構在智能圖書館云檢索系統中的具體功能描述如下:1)Hive架構中的解析器主要負責分析和查詢有關的信息,并對不同的資源進行語義查詢,并根據存儲節點中的元素制定相應的計劃。2)圖書庫信息元數據存儲節點存儲層中所有表和分區的信息都能在云檢索系統的HDFS中獲取數據。3)執行者負責執行計劃,執行引擎在系統組件上執行上述計劃。4)節點是接受信息查詢的組件。
3 實驗結果與分析
模擬實驗數據使用多個隨機生成的數據。測試環境為WindowsServer2012R2Intel2XeonTMCPUE5?2650@2.30GHz2.30GHz,具有32.0GB的RAM,該環境由Matlab2014a編程實現。為了驗證智能圖書館云檢索系統的效率,多組實驗數據量為GB量級,時間單位為ms。為了準確表示系統檢索結果,對時間按照10為底取對數,如圖5所示。
從圖5可以表明,使用本文的檢索系統具有更高的數據檢索效率。直接查詢圖書館資源時,檢索時間將隨著數據量的增加而增加,并且總體呈現呈線性趨勢。表1顯示了500GB庫數據的檢索時間匯總結果。從表1可以看出,隨著圖書館檢索范圍的擴大,相應的數據檢索時間將逐漸增加,主要原因是當圖書館資源檢索空間增大時,滿足查詢條件的圖書館資源數據塊也會增加。
當智能圖書庫云檢索系統節點數量減少時,對大小為500GB的圖書庫資源進行檢索的時間統計結果如表2所示。
從表2可以看出,當節點數量增加時,相應的檢索時間將隨之減少,它們之間呈反比的關系。可以推斷,當節點數持續增加時,檢索時間大大縮短,數據檢索效率得到顯著提高。
4 結論
現如今,智能圖書館資源管理方法已逐漸成為熱門,相對于一些大數據的快速查詢,本文提出了一種基于海量圖書庫資源的數據挖掘算法,并將其應用于分布式開源框架Hadoop。通過對多組的實驗分析并驗證了該系統有一定的效果。
參考文獻
[1]陳春陽.基于圖書館微信平臺的館配云平臺圖書數據推送研究[J].出版發行研究,2018(5):44.
[2]鮑玉來,白淑霞,飛龍,等.漢蒙跨語言檢索系統設計與實現[J].情報理論與實踐,2017,40(4):128-132.
[3]劉愛琴,李永清.基于SOM神經網絡的高校圖書館個性化推薦服務系統構建[J].圖書館論壇,2018,38(4):95-102.