基于Web技術的圖書館個性化服務模型

2021-07-29 07:33:02布艷艷

微型電腦應用 2021年7期

布艷艷

(西安科技大學高新學院圖書館，陜西西安 710109)

0 引言

圖書館個性化服務是將用戶作為其中心，滿足不同用戶需求特征與個性特征的一種服務模式[1]。隨著圖書館內海量信息資源的日益龐大，降低用戶搜尋所需圖書信息耗費的時間與精力，更加簡便快捷地從海量圖書信息中獲取所需圖書信息，成為當前圖書館個性化服務中所面臨的關鍵問題之一[2-3]。

當前圖書館個性化服務模型很多，其中SOM神經網絡的圖書館個性化服務模型是通過SOM神經網絡聚類算法聚類與分析圖書館用戶的訪問行為，并篩選整合用戶行為數據、特征信息等有關數據，構成數據集，再通過語義檢索等方式向用戶提供個性化服務，但此系統受事務數的影響推薦率波動較大[4]；個人小數據的圖書館聯盟用戶個性化服務是通過將圖書館聯盟目標和數據現實狀況相結合，創建小數據的圖書館聯盟數據框架及用戶個性化服務系統模型，實現對聯盟用戶的個性化服務，但此方法更多針對的是聯盟用戶，無法有效地為其它大眾用戶提供個性化服務[5]。

Web技術屬于1種包含數據挖掘、Web、信息學以及計算機語言學等數個領域的綜合技術，可選取出有關資源內有價值的以及用戶感興趣的信息[8]。為此，提出了Web技術的圖書館個性化服務模型，合理運用Web技術實現圖書館為不同用戶提供個性化服務的目的，提升用戶獲取圖書信息的效率與便捷性，增強用戶對圖書館的滿意程度。

1 Web技術的圖書館個性化服務模型

1.1 模型的構建

在圖書館領域內運用Web技術，能夠提供給用戶更深層次的個性化服務，用戶的興趣、訪問模式與資源間的關聯等信息可通過Web數據挖掘由圖書館歷史數據內發現[6]。在數據倉庫、聯機分析及數據挖掘的基礎上創建的基于Web技術的圖書館個性化服務模型，屬于圖書館對用戶需求綜合了解的分析工具，在用戶數據庫、網站的Web Log數據庫或數據倉庫上運行?；赪eb技術的圖書館個性化服務模型如圖1所示。

圖1 基于Web技術的圖書館個性化服務模型

模型內主要模塊描述。

(1)數據源收集模塊：對用戶注冊與訪問圖書館網站等信息數據源實施收集，并儲存于Web日志文件與Web數據庫內；

(2)數據預處理模塊：以挖掘目標為依據讀取Web日志文件或Web數據庫內的有關數據，刪除掉無關數據并將所需的優質數據保留，提供給接下來的數據挖掘過程中；

(3)數據挖掘模塊：以挖掘需求為依據，選取適當的挖掘算法，同時運用所選取算法實施挖掘，屬于一個挖掘驅動部件；

(4)Web數據挖掘算法庫：將不同挖掘算法通過插件的方式組織起來，便于插入不同挖掘算法，提升算法的易選取性與可擴展性，并且能夠將其它新的挖掘算法持續融入其中，提升挖掘效率；

(5)挖掘結果輸出：通過直觀的報表等形式輸出挖掘結果，運用所挖掘的有價值信息實施對應的個性化服務工作。

1.2 數據源的收集

通過幫助挖掘算法搜集合適的數據是Web挖掘過程中的一個關鍵過程[7]。圖書館領域內實施Web數據挖掘的數據來源主要有服務器端數據的收集與包監測技術兩種。

(1)服務器端數據的收集：數據的收集可通過圖書館的Web服務器、代理服務器的Web日志(Web Log)文件內完成，此類信息屬于最簡便的數據來源，它記錄了用戶的每次網頁請求信息。當圖書館Web服務器的日志功能開啟之后，每次用戶由瀏覽器對某個網頁發出請求時，此請求信息均會被記錄于訪問日志內。代理服務器向文本文件內儲存所記錄信息，文件的擴展名大多為“.log”或“.txt”。用戶的每次Web頁面訪問形成一條記錄，由數條記錄共同構成圖書館Web日志文件。

除此之外，圖書館Web服務器數據庫還能夠將其余的Web應用信息儲存，如用戶所提交的查詢數據與Cookie等。其中通過服務器產生的Cookie，其作用為對用戶的訪問路徑或狀態實施記錄，因其涉及到用戶的隱私，故需用戶準許配合方可運用Cookie；當用戶對自己所需信息實施查詢時在服務器端所形成的記錄即為查詢數據。此外，文件的相關信息也記錄于服務器內，比如修改時間與文件的創建者等，另外個性化特征分析時還可應用用戶的借閱數據。

(2)包監測技術：對全部抵達服務器的數據實施監視，并提取出HTTP的請求信息。此類數據可用在對用戶行為表現的考察中，其來源重點為瀏覽者的點擊流[8]。對網絡整體的全部信息流量實行監聽，同時以信息源主機、服務協議端口、目標主機等信息為依據，將無關的垃圾數據濾除掉，并實行如關鍵字搜索等進一步的處理后，向給定的數據接收程序內發送用戶感興趣的數據，并儲存到Web數據庫內實施統計分析，此過程即為網絡底層信息監聽過濾過程，如圖2所示。

圖2 網絡底層信息監聽過濾過程

1.3 數據預處理

數據源收集完畢后，需要對所收集的數據源進行預處理，數據預處理步驟主要包括數據清洗、數據過濾、用戶識別及會話識別等。以數據源收集中的Web日志文件為例，其數據預處理過程如圖3所示。

圖3 數據預處理過程圖

數據預處理過程描述。

(1)數據清洗：刪除掉無關數據并保留所需數據的過程即為數據清洗[9]；

(2)用戶識別：對通過清洗保留的數據實行用戶識別，通過不同IP地址代表不同用戶的方法實現用戶識別，提升識別的便利性；

(3)用戶會話識別：用戶針對某個話題實行的一系列有效訪問即為用戶會話，提取出用戶某段時間內的訪問序列并生成會話文件即為會話識別[10]。對一個用戶連續兩次訪問服務器是否屬于同一個會話實行判別是識別出一個會話的重點。當前的判別標準可選擇最大相鄰時間間隔與最大時間間隔兩種。若用戶訪問相鄰頁面間的時間間隔比最大相鄰時間間隔低，即識別為同一個會話；相反即識別為兩個會話。同樣若用戶所訪問的第一個頁面與訪問的最后一個頁面之間的時間間隔比最大時間間隔高時，即識別為兩個會話，相反的話即識別為一個會話。

1.4 數據挖掘

1.4.1 FP-growth_S算法

FP-growth_S算法是在FP-growth算法的基礎上，通過改進FP-growth算法產生數量龐大關聯規則的弱點，防止冗余頻繁項目集的形成，避免重復性的推薦，提升圖書館個性化服務效率。設項目集合與項目分別為J={j1,j2,…,jn}和jq(q=1,2,…,n)。事務數據庫與事務分別以B={t1,t2,…,tm}和tj(j=1,2,…,m)表示，其中事務數據庫是由一系列具有唯一標識符TID的事務所構成的，事務與項目集合J中的一個子集相對應。

定義1 頻繁項目集為項目集合J內能夠滿足用戶所指定的最小支持度的項目集，也就是比最小支持度大或相等的J的非空子集。而最大頻繁項目集是指由頻繁項目集內選取出全部不包含在其它元素內的頻繁項目集。

以定義1為依據，能夠推導出隨意一個頻繁項目集均屬于某個最大頻繁項目集的子集，運用此特性能夠找出最大頻繁項目集。具體算法過程如下。

(1)1-頻繁項目集生成。對事務數據庫B實施掃描，形成1-項目集合，以此集合支持數遞減為依據，將1-項目集列出，同時刪掉此集合內低于最小支持度的項目，生成1-頻繁項目集K1；

(2)將支持度比最小支持度低的項目刪除。對事務數據庫B實施掃描，刪除支持度比最小支持度低的項目；

(3)各事務項重新排列。依據1-頻繁項目集K1的遞減順序重新排列事務數據庫內的各事務項；

(4)創建FP-tree。先將樹的根節點創建完成，記為null，再對事務數據庫內的全部事務記錄實施掃描，將各個事務記錄分別生成各個FP-tree樹枝，待完成掃描后形成FP-tree，由項目出現的次數、項目ID以及指向父節點指針3部分共同構成樹的節點。如果出現重復項目，將項目出現的次數增加，如此即可實現FP-tree的創建；

(5)挖掘FP-tree生成最大頻繁模式樹max_tree。針對函數FP-max(tree,a,max-tree)，由最低出現次數的項目cj開始，與遍歷FP-tree相連，若只存在一條抵達cj項的前綴路徑α，那么以cj項作為后綴的最大頻繁項目集即為α∪cj，也就是候選最大頻繁項目集，對最大頻繁模式樹予以調用形成函數Generate-max(α∪cj，tree)，生成最大頻繁模式樹max-tree；若存在數條抵達cj項的前綴路徑，即將全部可抵達cj項的前綴路徑αj列出，將cj的條件模式庫獲取，并運算此模式庫內各項的支持度，同時運用此模式庫內的頻繁項目創建cj的條件FP-tree，如果所創建的cj條件FP-tree不為空，遞歸調用函數FP-max(cj條件FP-tree，αj∪cj，max-tree)，生成最大頻繁模式樹max-tree，有效避免產生冗余頻繁項目集，可降低關聯規則產生的數量，防止出現重復推薦問題，能夠提升服務模型的運行效率。

1.4.2 IN_FP算法

可信度加權可定義為：

定義2 包含頁面興趣度的可信度即為包括Jn與Jm的事務數同包括Jn的事務數之比，并同(β+α×InterestDegree)相乘，也就是式(1)。

(1)

式中，Jn,Jm?J，α≤1，β≥0，同時β+α=1，依據事務數據庫的不同β和α取不同的值，二者屬于1種經驗值，在此可設定其值為0.6。

采用FP-growth_s算法將最大頻繁項目集求出，并以包含頁面興趣度的可信度為依據，實現關聯規則的最終生成。

1.4.3 IN_FP算法實現

經過數據預處理后能夠獲得日志文件中相應的會話文件，通過IN_FP算法對此會話文件實施挖掘的過程如圖4所示。

圖4 IN_FP算法的挖掘過程圖

采用IN_FP算法挖掘用戶會話文件，生成關聯規則，并按照可信度從大到小的順序依據規則前項排序關聯規則，生成挖掘結果并寫入推薦數據庫。當用戶登錄圖書館網站時，圖書館個性化服務模型將以用戶的訂閱信息與訪問信息等為依據，讀取推薦數據庫，并為用戶呈現相關的推薦圖書信息，完成對用戶的個性化推薦服務，實現基于Web技術的圖書館個性化服務。

2 模型性能的實例分析

以某高校圖書館網站的借閱數據為例，此數據內包含了2016年3月—6月的訪問日志記錄，具有894個統一資源定位符(URL)，現分別采用本研究所提模型、SOM神經網絡的圖書館個性化服務模型(文獻[6]模型)及個人小數據的圖書館聯盟用戶個性化服務模型(文獻[7]模型)，依據實驗圖書館借閱數據實行個性化服務，通過對比分析結果檢驗本研究所提模型的應用效果與性能。

2.1 服務運行效率對比

利用3種模型分別對實驗圖書館借閱數據實施預處理、挖掘及結果推薦，記錄各模型各個過程所消耗的時間，以此檢驗各模型的服務運行效率，對比結果如圖5所示。

通過圖5可看出，3種模型的各過程耗時對比結果中，本研究所提模型的挖掘與結果推薦過程耗時均最低，而預處理過程的耗時比文獻[6]模型稍高；文獻[6]模型的預處理過程耗時在3種模型中最低，而結果推薦的耗時最高；對比各模型的總體服務耗時，本研究所提模型的整體服務耗時最低，文獻[7]模型的耗時相對最高，由此可見，本研究所提模型的整體服務運行效率較高，性能更優越。

圖5 各模型預處理耗時對比

2.2 推薦率對比

為進一步檢驗各模型性能，現對實驗圖書館借閱數據隨事務數增長條件下各模型的推薦覆蓋率與推薦準確率實施對比分析，通過測試得到準確推薦的個數除以總測試數，從而得出準確推薦率。3種模型的對比結果如圖6所示。

(a)各模型推薦覆蓋率對比

分析圖6能夠得出，隨著事務數的增長，本研究所提模型的推薦覆蓋率與推薦準確率均相對較為穩定，且均高于其它兩種模型，文獻[6]模型的推薦覆蓋率與推薦準確率受事務數的影響波動最大。說明本研究所提模型具有較高的推薦覆蓋率，且推薦準確度高，推薦性能優越。

3 總結

本文提出了基于Web技術的圖書館個性化服務模型，模型內包含數據源收集模塊、數據預處理模塊、數據挖掘模塊及挖掘結果推薦數據庫等，通過模型內各部分相結合共同實現圖書館個性化推薦服務，實例分析結果驗證了本研究所提模型具有較高的服務運行效率與推薦準確率，能夠針對不同用戶提供差別性的個性化推薦服務。盡管本文所提模型能夠提供更好的個性化推薦服務，但由于考慮的內容不夠全面，在接下來的研究過程中還需要進一步分析各種因素的影響，實現個性化推薦服務效果的提升。