基于Hadoop 的大學(xué)圖書館服務(wù)平臺設(shè)計(jì)

2021-08-23 07:15:44張晴峰

科學(xué)技術(shù)創(chuàng)新 2021年23期

張晴峰

（山東青年政治學(xué)院圖書館，山東濟(jì)南 250103）

當(dāng)前計(jì)算機(jī)技術(shù)、物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用，使得大學(xué)圖書館從傳統(tǒng)服務(wù)模式逐漸轉(zhuǎn)變?yōu)樾畔⒒?wù)模式，不僅能夠提供有效的圖書資源服務(wù)，還能夠打破傳統(tǒng)圖書館運(yùn)行過程中時間和空間上的限制，為圖書館用戶提供24 小時全天候的圖書館資源信息服務(wù)[1]。大學(xué)圖書館的主要功能是為高校學(xué)生和教師科研、學(xué)習(xí)等多種活動提供信息服務(wù)，大學(xué)圖書館也是整個高校當(dāng)中最大的信息服務(wù)中心[2]。Hadoop 是一種近幾年被廣泛應(yīng)用的分布式基礎(chǔ)結(jié)構(gòu)，在各類平臺的研發(fā)和運(yùn)行當(dāng)中被大量應(yīng)用，將該結(jié)構(gòu)應(yīng)用于實(shí)際不僅具有高可靠性、高效率性，同時能夠針對不同平臺用戶，給予其不同需求的服務(wù)，充分滿足平臺用戶的應(yīng)用需要。但目前，Hadoop 分布式結(jié)構(gòu)在大學(xué)圖書館服務(wù)平臺當(dāng)中的應(yīng)用并未涉及[3]。因此，本文基于Hadoop 的應(yīng)用優(yōu)勢，開展大學(xué)圖書館服務(wù)平臺設(shè)計(jì)研究。

1 大學(xué)圖書館服務(wù)平臺設(shè)計(jì)

1.1 基于Hadoop 的平臺檢索架構(gòu)設(shè)計(jì)

為確保本文設(shè)計(jì)的基于Hadoop 的大學(xué)圖書館服務(wù)平臺能夠得到穩(wěn)定運(yùn)行，本文結(jié)合Hadoop 分布式結(jié)構(gòu)，構(gòu)建一個大學(xué)圖書館服務(wù)平臺檢索架構(gòu)，將其作為基礎(chǔ)，為后續(xù)平臺運(yùn)行提供條件。根據(jù)大學(xué)圖書館平臺用戶的檢索需要，利用開源組織中具有高可靠性和良好延展性的Hadoop，對各類圖書館資源數(shù)據(jù)進(jìn)行分布式存儲。將平臺整體劃分為四個不同層次，分別為平臺用戶訪問層、各類圖書館服務(wù)應(yīng)用層、圖書館基礎(chǔ)資源數(shù)據(jù)管理層和圖書館資源數(shù)據(jù)存儲層[4]。圖1 為本文大學(xué)圖書館服務(wù)平臺架構(gòu)示意圖。

圖1 本文大學(xué)圖書館服務(wù)平臺架構(gòu)示意圖

在該平臺的訪問層，主要針對平臺用戶利用公共應(yīng)用端口完成賬號登錄，并為后續(xù)用戶在平臺中享受各類圖書資源信息服務(wù)提供條件。在應(yīng)用層當(dāng)中，可通過引入云檢索技術(shù)的方式，為平臺引入組件，為不同用戶服務(wù)業(yè)務(wù)提供不同的應(yīng)用[5]。管理層主要針對平臺在運(yùn)行的整個過程中產(chǎn)生的各類Hadoop 分布式文件進(jìn)行管理，確保各類文件能夠在平臺運(yùn)行時形成協(xié)調(diào)統(tǒng)一的工作模式，為系統(tǒng)帶來更強(qiáng)的資源檢索功能。存儲層是針對平臺在運(yùn)行階段產(chǎn)生的各類數(shù)據(jù)進(jìn)行統(tǒng)一管理，針對大學(xué)圖書館服務(wù)中海量數(shù)據(jù)的存儲需要，可通過NAS 存儲設(shè)備實(shí)現(xiàn)。NAS 存儲設(shè)備由平臺進(jìn)行統(tǒng)一管理，并采用Hadoop 分布式結(jié)構(gòu)實(shí)現(xiàn)對存儲內(nèi)容的邏輯虛擬化管理，并為平臺在運(yùn)行時各類設(shè)備出現(xiàn)故障問題進(jìn)行監(jiān)督，以此確保平臺在出現(xiàn)問題前，對其進(jìn)行維護(hù)，保證平臺用戶信息的安全和平臺的穩(wěn)定。

1.2 大學(xué)圖書館資源數(shù)據(jù)存儲及特征量提取

結(jié)合Hadoop 分布式平臺檢索結(jié)構(gòu)，利用非線性序列，對圖書館資源數(shù)據(jù)模型進(jìn)行可視化構(gòu)建，以此為提取所需的圖書資源提供環(huán)境。為圖書資源建立特征提取序列，該模型的表達(dá)式如公式（1）所示：

公式（1）中，x'表示為大學(xué)圖書館資源頻繁項(xiàng)集特征集合；x表示為某一圖書館資源頻繁項(xiàng)集時間序列；t 表示為大學(xué)圖書館服務(wù)平臺運(yùn)行時間；n 表示為時間序列總數(shù)；h[z（t+nΔt）]表示為資源數(shù)據(jù)時間序列的近似特征量；ω 表示為檢索過程中區(qū)域劃分閾值。

按照上述公式（1）計(jì)算，得出的數(shù)據(jù)能夠?yàn)楸疚姆?wù)平臺對圖書館資源信息檢索提供數(shù)據(jù)輸入的基礎(chǔ)條件，再結(jié)合目標(biāo)函數(shù)當(dāng)中的約束條件，得出最優(yōu)檢索數(shù)據(jù)，并完成對圖書資源頻繁項(xiàng)集特征的采集。利用Q×m 表示為本文平臺在運(yùn)行過程中，當(dāng)Q 數(shù)值超過m 數(shù)值時，則說明此時關(guān)聯(lián)規(guī)則當(dāng)中具備能夠被再次劃分的資源數(shù)據(jù)塊；當(dāng)Q

1.3 圖書館信息資源數(shù)據(jù)均值聚類及檢索輸出

為進(jìn)一步提高本文服務(wù)平臺的檢索效率，還需要結(jié)合模糊聚類算法，對上述提取到的圖書館資源數(shù)據(jù)特征集合進(jìn)行分類，將獲取到的圖書館資源數(shù)據(jù)聚類特征用如公式（2）表示：

公式（2）中，Y（i+1）表示為圖書館資源數(shù)據(jù)聚類特征集合；U'表示為圖書館資源數(shù)據(jù)收斂值；Yi、……、Yip表示為頻繁項(xiàng)集特征集合。根據(jù)上述公式對上述提取到的圖書館資源數(shù)據(jù)特征進(jìn)行分類，并在此基礎(chǔ)上根據(jù)平臺用戶不同檢索需要，對檢索結(jié)果進(jìn)行輸出。結(jié)合特征分析方法對存儲在平臺數(shù)據(jù)庫當(dāng)中的節(jié)點(diǎn)進(jìn)行決策樹分析，并通過引入MapReduce 架構(gòu)，完成全權(quán)責(zé)任調(diào)度。將利用MapReduce 定義的任務(wù)節(jié)點(diǎn)作為平臺在運(yùn)行過程中執(zhí)行平臺用戶指令的執(zhí)行節(jié)點(diǎn)，將任務(wù)劃分為多個不同的切片，再結(jié)合任務(wù)節(jié)點(diǎn)，實(shí)現(xiàn)對平臺用戶檢索需求輸入的檢索指令映射和規(guī)約驗(yàn)證。再利用HDFS 所提供的平臺存儲功能，對所有數(shù)據(jù)節(jié)點(diǎn)進(jìn)行共享，為各類服務(wù)任務(wù)在運(yùn)行過程中提供所需的資源數(shù)據(jù)。同時，通過本文引入的Hadoop 結(jié)構(gòu)，利用其中的解析器可以對用戶提出的各類檢索內(nèi)容進(jìn)行分析和查詢，并且在不同的查詢結(jié)構(gòu)以及查詢單位當(dāng)中找出相對應(yīng)的語義，并通過平臺當(dāng)中的元數(shù)據(jù)存儲節(jié)點(diǎn)，對從查詢結(jié)構(gòu)和查詢單元中找出的元數(shù)據(jù)進(jìn)行執(zhí)行計(jì)劃生成。同時，在元數(shù)據(jù)存儲節(jié)點(diǎn)上，包含了所有大學(xué)圖書館各類分區(qū)結(jié)構(gòu)的信息化數(shù)據(jù)，因此能夠?qū)崿F(xiàn)對HDFS 中各類數(shù)據(jù)的讀寫。通過上述聚類實(shí)現(xiàn)對圖書館資源數(shù)據(jù)的分類，并結(jié)合Hadoop 對分類結(jié)果進(jìn)行輸出，為平臺用戶提供所需檢索資源。

2 對比實(shí)驗(yàn)

實(shí)驗(yàn)準(zhǔn)備：

本文選擇將某高校圖書館作為依托，分別將本文提出的基于Hadoop 的大學(xué)圖書館服務(wù)平臺和傳統(tǒng)服務(wù)平臺，同時應(yīng)用到該圖書館，在確保圖書館能夠正常運(yùn)行的條件下，完成對比實(shí)驗(yàn)。兩種服務(wù)平臺的運(yùn)行環(huán)境均采用Windows 2019 R3 Intel 環(huán)境，實(shí)驗(yàn)過程中，產(chǎn)生的多組數(shù)據(jù)均為隨機(jī)生成。為實(shí)現(xiàn)對兩種不同服務(wù)平臺的應(yīng)用性能比較，本文選擇將檢索效率作為評價(jià)指標(biāo)，將針對不同數(shù)量節(jié)點(diǎn)的檢索時間作為對比實(shí)驗(yàn)數(shù)據(jù)。分別設(shè)置100 個、200 個、300 個、400 個和500 個不同節(jié)點(diǎn)數(shù)量，對兩種服務(wù)平臺在運(yùn)行過程中的檢索時間進(jìn)行記錄。在實(shí)驗(yàn)過程中，設(shè)置兩種服務(wù)平臺在運(yùn)行過程中的數(shù)據(jù)量均為GB 級別，運(yùn)行時間單位為ms。在兩種服務(wù)平臺均完成相應(yīng)的服務(wù)任務(wù)后，將實(shí)驗(yàn)結(jié)果進(jìn)行記錄，并將兩種服務(wù)平臺在不同節(jié)點(diǎn)數(shù)量下的檢索時間繪制成如表1 所示的實(shí)驗(yàn)結(jié)果對比表。

表1 兩種服務(wù)平臺實(shí)驗(yàn)結(jié)果對比表

從表1 中的實(shí)驗(yàn)結(jié)果得出，在對不同節(jié)點(diǎn)數(shù)量進(jìn)行檢索時，本文服務(wù)平臺的檢索時間均未超過12 500ms，而傳統(tǒng)服務(wù)平臺檢索時間最快僅為55 241 ms。并且，傳統(tǒng)服務(wù)平臺在對不同節(jié)點(diǎn)數(shù)量信息進(jìn)行檢索時，隨著節(jié)點(diǎn)數(shù)量的增加，檢索時間呈現(xiàn)出明顯的增漲趨勢，說明平臺的運(yùn)行受節(jié)點(diǎn)數(shù)量的影響十分嚴(yán)重，節(jié)點(diǎn)數(shù)量增加，會對傳統(tǒng)服務(wù)平臺的運(yùn)行造成更到的壓力，而本文方法通過引入Hadoop 分布式結(jié)構(gòu)，能夠有效解決這一問題，使檢索時間不會受到節(jié)點(diǎn)數(shù)量的影響。因此，通過對比實(shí)驗(yàn)證明，本文提出的基于Hadoop 的大學(xué)圖書館服務(wù)平臺在實(shí)際應(yīng)用中能夠有效提高平臺檢索效率，并利用Hadoop 降低節(jié)點(diǎn)數(shù)量激增對平臺運(yùn)行造成的壓力，實(shí)現(xiàn)大學(xué)圖書館服務(wù)平臺的穩(wěn)定運(yùn)行。

3 結(jié)論

本文基于大學(xué)圖書館用戶需要，結(jié)合Hadoop 結(jié)構(gòu)，提出一種全新的服務(wù)平臺，并通過對比實(shí)驗(yàn)的方式驗(yàn)證了該方法的實(shí)際應(yīng)用優(yōu)勢。將該平臺應(yīng)用于大學(xué)圖書館中能夠?qū)崿F(xiàn)對海量圖書館資源數(shù)據(jù)的快速檢索。在后續(xù)的研究中，為了確保該平臺的運(yùn)行穩(wěn)定，還將引入更加科學(xué)的平臺測評體系對其進(jìn)行運(yùn)行監(jiān)督，確保平臺中用戶信息和圖書信息的安全存儲。