張成叔
(1.合肥工業大學計算機與信息學院,安徽合肥 230001;2.安徽財貿職業學院信息工程學院,安徽合肥 230601)
隨著數據信息量的不斷增加,傳統圖書館信息管理模式逐漸向數字化信息管理模式方向轉化,加大了對數據信息管理技術要求[1-2]。多年來,圖書館信息管理主要階段有3 個,分別是傳統管理模式、基于現代化設備的信息管理模式、基于現代化技術的智能管理模式[3]。目前,圖書館信息管理正處于第三個階段,著重發展智能圖書館云檢索系統,選取數據挖掘技術作為研究工具展開應用研究。
網絡技術的快速發展,促進了我國圖書館資源檢索改進發展步伐,借助互聯網平臺,開發了一些資源檢索系統,利用系統完成高效檢索服務操作[4]。目前,系統開發應用比較多的工具包括神經網絡架構技術、云計算技術、模糊綜合計算技術等[5]。實踐應用結果表明,這些工具的應用開發出的檢索系統在很大程度提高了資源檢索效率,但是仍然存在一定提升空間[6]。以500GB 文件檢索為例,設定50 個節點,統計如表1所示為不同技術應用下的資源檢索耗時情況統計結果。

表1 不同技術應用下的資源檢索耗時情況統計結果(單位:ms)
表1 中,3 項系統開發技術的應用在2017 年至2019 年有所進步,但是資源檢索消耗時間縮短幅度較小。隨著圖書館資源數據信息的不斷增加,仍然需要對這些技術進行改進。在檢索算法層面上開展新的突破,此項發展目標可以通過改進算法、更換新的技術開發算法等多條路徑來實現。
大數據挖掘技術屬于數據處理技術,在眾多數據當中,根據設定的數據信息搜索范圍,從中提取潛在信息,通常情況下,這部分潛在的信息是很難發現的,采用其他數據信息檢索方法無法達到該項技術的檢索水平[7]。實際上,數據挖掘是一個循環過程,在沒有達到預期目標之前,會按照設定步驟反復循環執行,直至達到預期目標。目前,該項技術已經在很多領域均有所應用,根據信息挖掘需求設定限制條件,以此獲取較為全面的數據信息。
近年來,我國加大了對圖書館服務水平要求,提出了個性化服務。此項服務工作的開展,需要收集海量數據,對數據進行有效統計分析,從而為用戶提供高質量服務,以此加快服務效率,擴大服務范圍。以往采用的數據統計軟件無法滿足這些應用需求,大數據挖掘技術的出現,打破了此困境,為圖書館個性化服務開辟了新的路徑。通過查閱資料,總結此項技術在圖書館中的幾個重要應用層面:(1)文獻閱讀、文獻參考情況、用戶對文獻資料需求情況等數據信息統計;(2)文獻查閱記錄、查閱人個人信息、資料下載時間、資料檢索耗時等多項指標信息的統計;(3)師生用戶對圖書館資源的反饋,根據師生使用資源情況,為其推薦圖書及文獻資源;(4)支持數據空間分布,圖書文獻資源管理更加清晰[8]。
大數據挖掘技術在圖書館服務中的應用層面足以證明該項技術的強大,是圖書館發展個性化服務不可缺少的工具,如何充分發揮該項技術在圖書館服務應用中的作用,提出可行性較高的應用方案成為了當前重點研究內容。
通常情況下,大數據挖掘技術在系統開發中應用較多,借助互聯網平臺,依據操作功能需求開發系統框架結構,并編寫運行算法,從而實現各項操作功能[9]。圖書館個性化服務的實現,可以嘗試借助此項技術,依據圖書館服務需求,開發一套智能操作系統。信息檢索作為圖書館系統的核心功能,數據管理工作量較大,對操作技術水平要求較高[10]。因此,在探究大數據挖掘技術在圖書館個性化服務中的應用方案,應該重點探究系統檢索功能。
隨著互聯網的迅速發展,推出了云端信息管理,在很大程度上擴大了系統存儲空間,為圖書館檢索系統開發提供了有利條件。因此,創造圖書館云檢索系統是當前圖書館開展圖書資源信息檢索工作的關鍵。
選取Hodoop 和存儲設備作為系統信息存儲單元,用于存儲圖書文獻信息,利用HDFS 等工具開發管理模塊,通過JDBC 接口建立圖書館管理平臺與用戶計算機之間的通信接口,從而實現圖書館云端檢索訪問。如圖1所示為系統框架結構。

圖1 系統框架結構
圖1 中,按照功能的不同,將系統功能劃分為4個層次,分別是存儲層、基礎管理層、應用接口層、訪問層。
(1)存儲層。該層次位于系統結構的底端,作為系統運行基礎組件,起到資源存儲管理作用。由于圖書館資源過多,加大了信息管理難度,本系統借助Hadoop 平臺對設備采取虛擬化處理,并診斷存儲單元作業狀態。如果系統存儲單元作業發生異常,立即發出警告;
(2)基礎管理層。該層次位于接口層和存儲層中間,起到系統組件管理作用,借助HDFS、數據倉庫技術實現統一管理,使得系統能夠為用戶提供檢索服務。在此過程中,需要根據圖書館信息檢索操作需求,編寫數據挖掘算法;
(3)應用接口層。該層次是系統作業重要層次結構,用于創建用戶和平臺的通信連接,從而實現為用戶提供平臺資源訪問服務。其中,采用的訪問端口為JDBC 接口。為了保證系統運行安全,本系統添加了用戶身份認證操作環節,對不同用戶身份設置了操作權限。接入網絡后系統可以自動識別用戶身份,判斷當前用戶發出的操作申請是否在權限范圍內,以此提高系統訪問安全性;
(4)訪問層。該層次指的是用戶計算機操作終端,通過互聯網平臺登錄系統,根據文獻資源檢索需求搜索,并下載文獻資料。在此過程中,用戶的個人信息和訪問信息都將記錄到系統中。
在開發系統檢索功能時,以Hadoop 平臺作為開發環境,主要用到3 項管理工具:HDFS 工具,存儲系統管理操作相關數據信息;MapReduce 工具,對系統運行期間涉及到的所有訪問、下載、查詢等數據進行進行統計處理,并生成統計結果,以便圖書管理員掌握當前圖書文獻訪問、查詢等多個方面現狀;Hive 工具,以信息關鍵詞作為管理依據,對信息資源進行分析,并存儲到指定文件夾。
(1)HDFS組件功能。
此組件在系統開發中的應用,按照資源類別不同,將資源劃分為多個數據節點,利用控制節點加以管理,從而使得信息檢索得以有序、高效推行。其中,控制節點指的是系統管理者,除了集中管理書籍文獻以外,根據文獻管理需求,組建圖書文件存儲空間,以便用戶檢索和下載。對于新圖書文獻資源的管理,按照資源類別不同,選擇相應存儲路徑,完成文件信息節點統一管理。
圖書文獻資源的管理基本結構由多個數據節點組成,以塊狀形式存儲圖書文獻資源。通過設定管理周期,每隔一段時間向控制節點發送資源信息。在實際應用中,用戶在客戶端發起資源檢索操作申請,HDFS 組件將開啟資源塊信息傳輸功能,向用戶提供相關資源。
(2)Hive組件功能。
Hive 組件主要用于分析與查詢圖書文獻資源信息,通過分析圖書館資源語義,從中提取元數據,形成分析與查詢操作項目執行計劃。按照此計劃運行,建立作業節點與任務節點之間的通信連接,通過執行引擎程序完成映射任務,從而實現圖書文獻資源查詢。
(3)MapReduce組件功能。
MapReduce組件用來開發系統信息檢索功能,運用數據挖掘技術,編寫信息挖掘算法,從而實現云檢索功能。此組件主要操作為調度作業,按照功能不同,將系統功能模塊劃分為多個切片,分別由各個節點負責操作,形成較為復雜的數據映射關系,以此實現大面積數據信息檢索,獲取較為全面的檢索結果。關于此組件的功能開發將在下一部分應用算法研究中介紹。
智能圖書館云檢索系統功能實現的關鍵在于資源數據存儲模型的構建,從中提取特征量,以關鍵詞作為搜索查詢依據,按照設定的檢索范圍,為用戶查詢所需圖書文獻資料。為了進一步優化圖書館數據庫存儲模型,本研究利用時間序列分析法,嘗試構建數據信息流模型,依據資源集特征完成特征量提取操作,并組建目標函數,形成時間序列,記為{xm}。假設資源屬性類別為X和Y,資源長度為L,對存儲空間區域與節點采取分段處理,形成多個空間,實施集成分配。其中,區域劃分為閾值設定為λ,當該數值滿足2-μt<λ,μ>0時,構建以下資源信息流模型:

公式(1)中,h[z(t0+mΔt)]代表資源數據時間序列計算結果中的近似特征量。
智能圖書館云檢索系統的正常運行,需要一定數據輸出基礎,為系統檢索提供足夠的資源信息支撐。關于此操作算法的開發,本研究對時間序列采取重構處理的同時,提取頻繁項特征集。假設關聯規則矩陣為X(i),輸入觀測向量為Y(i),關聯維數為N(i),頻繁項集干擾階數為H×n。如果H、n兩項指標數值存在H>n關系,則對X(i)采取資源塊劃分處理,形成多個大小相同的資源塊,記為pi。根據資源信息聚類特征空間分布情況,以空間中的嵌入維數作為核心指標,設定子矩陣,該矩陣維數為Mij×n。聚類中心向量參數設定為Xij,那么資源信息頻繁項可以用以下公式來表示:

如果H、n兩項指標數值存在關系,那么資源信息頻繁項計算公式如下:

考慮到圖書館存儲的圖書文獻資源分布較為均勻,所以資源信息在存儲層中的特性應該滿足以下關系:

為了避免系統檢索期間遭受影響因素擾動降低檢索運行速率,對系統存儲節點采取約束處理。此項操作功能實現的關鍵在于頻繁項特征的提取,即通過提取所需檢索的資源信息對應的頻繁項特征,提高系統作業效率。特征項提取計算公式為:

公式(5)中,利用頻繁項特征描述目標數據特點,提取資源信息,從而實現數據信息資源的全面檢索。
選取模糊K均值聚類方法作為資源處理工具,按照頻繁項特征的不同,劃分特征類別,從中提取相關信息,并輸出特征矢量。以下為特征矢量計算公式:

運用公式(6)計算參數數值,從中獲取圖書文獻資源。關于此項功能的實現,選取最小二乘法作為計算工具,對相關數值采取挖掘擬合處理。以下為數據挖掘計算公式:

以上資源處理效果受節點數據影響較大,通過設定不同節點數據,來調整系統檢索資源耗費時間。以公式(7)中的各項指標作為節點數據限定依據,通過調整此公式中的指標數據,實現增加或者減小節點數據操作。
在開發系統數據檢索輸出操作功能時,選取特征分解法作為研究工具,設計存儲節點決策樹結構,根據數據檢索特征,劃分為多個分支,使得檢索輸出結果更加清晰。具體輸出步驟如下:
第1步:假設檢索資源與頻繁項集干擾階數存在M(i)modH<n關系;
第2 步:按照參數特征不同,對資源信息頻繁項采取分解處理。計算公式如下:

第3 步:在第二步基礎上,對資源信息時間序列中參數Y(i)和參數X(i)采取自適應加權處理,使得時間序列得以有效分解。計算公式如下:

第4 步:采取譜處理方法,對檢索資源的關聯特征進行分析。計算公式如下:

第5 步:設定以下收斂條件,以此限定資源檢索范圍:

第6步:輸出資源檢索結果。
將開發的云檢索系統算法投入到某圖書館中應用,選取Matlab 軟件作為仿真工具,對系統算法作業性能進行測試分析,搭建測試環境如下。
操作系統:Windows Server 2010,
CPU:酷睿i5;接口LGA1200;主頻2.9GHz。
(1)云檢索系統資源檢索時間測試。
為了驗證算法在資源檢索耗時層面上是否有所改善,通過查閱文獻資料,選取神經網絡架構技術、云計算技術、模糊綜合計算技術應用開發系統作為對照組,以設計的系統算法作為實驗組,展開實驗測試研究。為了保證測試結論可靠性,研究設置3組實驗,對比3 組實驗測試數據,如果差異在50ms 內,認為當前系統作業耗時檢測結果可靠,可以作為系統算法對比分析數據支撐。其中,檢測文件大小為500GB。
(2)不同節點數量設置下數據檢索時間測試。
為了充分發揮開發的系統算法在圖書館資源檢索中的作用,從節點數量設置角度出發,探究節點數量不同情況下系統檢索耗時情況。根據圖書館系統常規節點布設情況,設定節點數量范圍60~300 個,間隔為60個,即取值60、120、180、240、300,分別測試各個節點數量設置下系統檢索耗費時間??紤]到系統作業可能受到環境等因素影響,導致測試結果不準確,研究設置3組測試,對比各組測試結果。如果3組測試結果差異性較小,檢索時間變動范圍在±50ms內,認為當前系統作業耗時檢測結果可靠。其中,檢測文件大小為500GB。
按照測試方法,分別對云檢索系統資源檢索耗時、不同節點數量設置下數據檢索耗時進行測試分析,從Matlab 仿真結果中提取數據信息,得到表1 和表2中的測試結果。

表2 云檢索系統資源檢索時間測試結果統計表
表2中,與神經網絡架構技術、云計算技術、模糊綜合計算技術應用開發系統資源檢測耗時相比,本系統檢索耗費的時間更短一些。另外,三組測試中,每組測試結果基本相同,所以測試結果可以作為云檢索系統算法可靠性判斷依據。從整體來看,本系統算法運行耗時有了明顯改善,可以利用此系統算法取代傳統系統作業算法,使得圖書館云系統作業效率得以有效提升。

表3 不同節點數量設置下數據檢索時間測試結果統計表
表3中,提出的系統算法在圖書館檢索服務實際應用中,隨著節點數量的增加,檢索時間逐漸縮短。其中,節點數量從60 個增加至120 個時,檢索時間縮短幅度最為顯著。自120個節點數量以后,隨著節點數量增加,檢索時間縮短幅度逐漸穩定。另外,3 組測試結果差異性較小,系統算法應用穩定性較高,所以以上總結的本系統算法應用特點較為可靠。
選取數據挖掘技術作為研究工具,探究智能圖書館云檢索系統開發方案。通過分析圖書館檢索系統開發及實施現狀,結合數據挖掘技術優勢及應用范圍,確定本系統開發工具。依據圖書館資源管理需求,設計系統框架結構,并開發數據挖掘技術在系統中應用算法。實驗測試結果表明,本系統算法有效提高了資源檢索效率,并且支持不同節點數據調整。