張晴峰
(山東青年政治學院圖書館,山東 濟南 250103)
當前計算機技術、物聯網技術的廣泛應用,使得大學圖書館從傳統服務模式逐漸轉變為信息化服務模式,不僅能夠提供有效的圖書資源服務,還能夠打破傳統圖書館運行過程中時間和空間上的限制,為圖書館用戶提供24 小時全天候的圖書館資源信息服務[1]。大學圖書館的主要功能是為高校學生和教師科研、學習等多種活動提供信息服務,大學圖書館也是整個高校當中最大的信息服務中心[2]。Hadoop 是一種近幾年被廣泛應用的分布式基礎結構,在各類平臺的研發和運行當中被大量應用,將該結構應用于實際不僅具有高可靠性、高效率性,同時能夠針對不同平臺用戶,給予其不同需求的服務,充分滿足平臺用戶的應用需要。但目前,Hadoop 分布式結構在大學圖書館服務平臺當中的應用并未涉及[3]。因此,本文基于Hadoop 的應用優勢,開展大學圖書館服務平臺設計研究。
為確保本文設計的基于Hadoop 的大學圖書館服務平臺能夠得到穩定運行,本文結合Hadoop 分布式結構,構建一個大學圖書館服務平臺檢索架構,將其作為基礎,為后續平臺運行提供條件。根據大學圖書館平臺用戶的檢索需要,利用開源組織中具有高可靠性和良好延展性的Hadoop,對各類圖書館資源數據進行分布式存儲。將平臺整體劃分為四個不同層次,分別為平臺用戶訪問層、各類圖書館服務應用層、圖書館基礎資源數據管理層和圖書館資源數據存儲層[4]。圖1 為本文大學圖書館服務平臺架構示意圖。

圖1 本文大學圖書館服務平臺架構示意圖
在該平臺的訪問層,主要針對平臺用戶利用公共應用端口完成賬號登錄,并為后續用戶在平臺中享受各類圖書資源信息服務提供條件。在應用層當中,可通過引入云檢索技術的方式,為平臺引入組件,為不同用戶服務業務提供不同的應用[5]。管理層主要針對平臺在運行的整個過程中產生的各類Hadoop 分布式文件進行管理,確保各類文件能夠在平臺運行時形成協調統一的工作模式,為系統帶來更強的資源檢索功能。存儲層是針對平臺在運行階段產生的各類數據進行統一管理,針對大學圖書館服務中海量數據的存儲需要,可通過NAS 存儲設備實現。NAS 存儲設備由平臺進行統一管理,并采用Hadoop 分布式結構實現對存儲內容的邏輯虛擬化管理,并為平臺在運行時各類設備出現故障問題進行監督,以此確保平臺在出現問題前,對其進行維護,保證平臺用戶信息的安全和平臺的穩定。
結合Hadoop 分布式平臺檢索結構,利用非線性序列,對圖書館資源數據模型進行可視化構建,以此為提取所需的圖書資源提供環境。為圖書資源建立特征提取序列,該模型的表達式如公式(1)所示:

公式(1)中,x'表示為大學圖書館資源頻繁項集特征集合;x表示為某一圖書館資源頻繁項集時間序列;t 表示為大學圖書館服務平臺運行時間;n 表示為時間序列總數;h[z(t+nΔt)]表示為資源數據時間序列的近似特征量;ω 表示為檢索過程中區域劃分閾值。
按照上述公式(1)計算,得出的數據能夠為本文服務平臺對圖書館資源信息檢索提供數據輸入的基礎條件,再結合目標函數當中的約束條件,得出最優檢索數據,并完成對圖書資源頻繁項集特征的采集。利用Q×m 表示為本文平臺在運行過程中,當Q 數值超過m 數值時,則說明此時關聯規則當中具備能夠被再次劃分的資源數據塊;當Q 為進一步提高本文服務平臺的檢索效率,還需要結合模糊聚類算法,對上述提取到的圖書館資源數據特征集合進行分類,將獲取到的圖書館資源數據聚類特征用如公式(2)表示: 公式(2)中,Y(i+1)表示為圖書館資源數據聚類特征集合;U'表示為圖書館資源數據收斂值;Yi、……、Yip表示為頻繁項集特征集合。根據上述公式對上述提取到的圖書館資源數據特征進行分類,并在此基礎上根據平臺用戶不同檢索需要,對檢索結果進行輸出。結合特征分析方法對存儲在平臺數據庫當中的節點進行決策樹分析,并通過引入MapReduce 架構,完成全權責任調度。將利用MapReduce 定義的任務節點作為平臺在運行過程中執行平臺用戶指令的執行節點,將任務劃分為多個不同的切片,再結合任務節點,實現對平臺用戶檢索需求輸入的檢索指令映射和規約驗證。再利用HDFS 所提供的平臺存儲功能,對所有數據節點進行共享,為各類服務任務在運行過程中提供所需的資源數據。同時,通過本文引入的Hadoop 結構,利用其中的解析器可以對用戶提出的各類檢索內容進行分析和查詢,并且在不同的查詢結構以及查詢單位當中找出相對應的語義,并通過平臺當中的元數據存儲節點,對從查詢結構和查詢單元中找出的元數據進行執行計劃生成。同時,在元數據存儲節點上,包含了所有大學圖書館各類分區結構的信息化數據,因此能夠實現對HDFS 中各類數據的讀寫。通過上述聚類實現對圖書館資源數據的分類,并結合Hadoop 對分類結果進行輸出,為平臺用戶提供所需檢索資源。 實驗準備: 本文選擇將某高校圖書館作為依托,分別將本文提出的基于Hadoop 的大學圖書館服務平臺和傳統服務平臺,同時應用到該圖書館,在確保圖書館能夠正常運行的條件下,完成對比實驗。兩種服務平臺的運行環境均采用Windows 2019 R3 Intel 環境,實驗過程中,產生的多組數據均為隨機生成。為實現對兩種不同服務平臺的應用性能比較,本文選擇將檢索效率作為評價指標,將針對不同數量節點的檢索時間作為對比實驗數據。分別設置100 個、200 個、300 個、400 個和500 個不同節點數量,對兩種服務平臺在運行過程中的檢索時間進行記錄。在實驗過程中,設置兩種服務平臺在運行過程中的數據量均為GB 級別,運行時間單位為ms。在兩種服務平臺均完成相應的服務任務后,將實驗結果進行記錄,并將兩種服務平臺在不同節點數量下的檢索時間繪制成如表1 所示的實驗結果對比表。 表1 兩種服務平臺實驗結果對比表 從表1 中的實驗結果得出,在對不同節點數量進行檢索時,本文服務平臺的檢索時間均未超過12 500ms,而傳統服務平臺檢索時間最快僅為55 241 ms。并且,傳統服務平臺在對不同節點數量信息進行檢索時,隨著節點數量的增加,檢索時間呈現出明顯的增漲趨勢,說明平臺的運行受節點數量的影響十分嚴重,節點數量增加,會對傳統服務平臺的運行造成更到的壓力,而本文方法通過引入Hadoop 分布式結構,能夠有效解決這一問題,使檢索時間不會受到節點數量的影響。因此,通過對比實驗證明,本文提出的基于Hadoop 的大學圖書館服務平臺在實際應用中能夠有效提高平臺檢索效率,并利用Hadoop 降低節點數量激增對平臺運行造成的壓力,實現大學圖書館服務平臺的穩定運行。 本文基于大學圖書館用戶需要,結合Hadoop 結構,提出一種全新的服務平臺,并通過對比實驗的方式驗證了該方法的實際應用優勢。將該平臺應用于大學圖書館中能夠實現對海量圖書館資源數據的快速檢索。在后續的研究中,為了確保該平臺的運行穩定,還將引入更加科學的平臺測評體系對其進行運行監督,確保平臺中用戶信息和圖書信息的安全存儲。1.3 圖書館信息資源數據均值聚類及檢索輸出

2 對比實驗

3 結論