基于聚類算法的數字圖書館知識推送原理

2020-03-18 16:34:08宋愛香

江蘇科技信息 2020年1期

宋愛香，吳丹，馬沖

（1.西安工程大學網絡與信息化管理處，陜西西安 710048；2.西安工程大學圖書館，陜西西安 710048）

0 引言

信息通信技術的快速發展為信息獲取與服務創造了有利條件，使受眾可以方便快捷地獲取多渠道的信息［1-2］。但在這個信息來源紛繁復雜的時代，如何直接跳過一些與目標信息關聯性較差的信息，直接得到關聯性強的目標信息便顯得尤為重要。否則，源源不斷的信息將變成“信息騷擾”，影響用戶體驗［3］。而現在大多數字圖書館的推送服務存在推送內容單一、推送內容關聯度低、推送內容針對性較差等局限性，未對學科資源和用戶進行深度開發和關聯，不了解高校師生的真實需求，推送模式較簡單層次較低［4-5］。因此提高高校數字圖書館推送信息的準確性，有著十分重要的意義。

1 數字圖書館推送滿意度調研

了解用戶的需求是改善數字圖書館推送服務的關鍵環節。2019年4月至2019年6月，本文通過網上發布問卷的方式對西安工程大學在校師生進行圖書館推送服務滿意度調研。

問卷通過問卷星進行發布與調研，采用5分量化，越接近5分說明期望值越大。調研期間共發出問卷400份，收回問卷388份。通過第一題“你使用過西安工程大學數字圖書館嗎？”進行問卷過濾，將答案為“否”的50份問卷予以刪除，最終確定338份有效問卷，其中本科生136人、碩士生103人、博士生12人、教職工87人。

利用LibQUAl+TM模型對用戶的滿意度進行調查。計算公式包括：平均期望值=Σ期望值/問卷份數，平均感受值=Σ感受值/問卷份數，平均最低接受值=Σ最低接受值/問卷份數。從表1可以看出，閱讀推薦服務和個人數字圖書館推送服務的用戶實際感受明顯小于期望值。通過校園隨機的走訪調查發現，用戶一致認為圖書館的閱讀推薦僅僅憑借熱度，缺乏智能化。對于學生而言，更多的是獲取與科研和教學相關的書籍，并非新上架熱度高的書籍。針對西安工程大學圖書館用戶的需求，本文展開了基于聚類算法的數字圖書館知識推送原理研究。

2 用戶聚合類算法分析

由于讀者身份、專業以及目的不同，導致讀者的屬性不同，而在以往的高校數字圖書館推薦系統中，僅向用戶推送目前熱度較高的書，并沒有考慮讀者的身份以及需求，這便會造成借閱需求與資源推薦不匹配［6-7］，如向理工科學生推薦文學類書籍的現象。本文通過用戶信息進行聚類的方式解決這一問題，其流程圖如圖1所示。首先對不同用戶的身份信息進行識別，并進行聚類處理。其次將具有多數相同特征的用戶歸為一類。另外根據用戶的需求構建需求數據庫，并將數據庫進行細化，使有同類型需求用戶的歸入一個子需求數據庫。緊接著對每個子需求數據庫進行關聯計算，使得每個關聯規則數據庫只包含同類型用戶的規則。最后向用戶推薦借閱資源時，僅限于在包含該用戶的關聯規則數據庫中進行匹配操作。

表1 被調查者對知識推送服務的滿意度

圖1 用戶聚類流程

2.1 k-means算法對用戶特征屬性進行劃分

用戶特征屬性的劃分是實現多信息聚類的關鍵，本文采用k-means算法用戶特征屬性進行劃分。將用戶的特征屬性分別劃分為身份、專業和目的。其中，身份屬性為順序關系，將不同用戶按照身份順序排列，進行數字轉換計算；而專業和目的屬性為符號關系。在距離函數中，可以將身份屬性轉化為對應的數值關系。當定義不同用戶身份為status1和status2時，就可以計算年紀差值為：

用戶的專業如“電氣工程”是一個字符串定義為符號關系。要計算不同專業之間的距離關系時，將不同專業中不同的字符去除，利用剩余相同字符計算距離：

目的關系的定義過程與專業關系類似，目的串的距離計算公式被定義為：

為了實現多信息的聚類分析，需要將用戶的年級、專業和目的都應用到一個距離模型中，為此采用下式進行計算。

2.2 用戶推薦系統聚類分析

本文將用戶分為不同的k類，使每一類特征用戶都具有較高的相似性。確定聚類個數為k，在被蕨類的n個用戶里面，選擇k個特征用戶作為一開始的聚類中心，其聚類中心選擇如圖2所示。將每一個特征用戶分別與各聚類中心值進行距離計算，尋找用戶與初始中心值的最小距離，并將其劃入該類。直至將所有特征用戶劃分完畢后，再重新計算新的中心值。然后重復上述步驟，進行第二次劃分，直到算法終止。

圖2 聚類中心選擇示意

3 用戶聚類算法的實現

圖3 用戶聚類算法的實現示意

用戶聚類算法的實現的流程圖如圖3所示，首先輸入各類用戶的信息，并設定循環次數以及用戶分組變化數的閾值。聚類算法開始后，如果循環次數大于設定值或戶分組變化數超過閾值時，聚類算法結束。反之則進行下一步分析，判斷所有用戶是否完成遍歷。如果沒有完成，更新聚類中心值，直到遍歷完成為止。否則進入屬性距離函數進行求解，得到聚類中心的最小值，并將具有相同特征的歸入統一聚類中。之后更新目的串、年紀的累加值、專業串、用戶數量及聚類中心，進行下一次循環，直至聚類結束。

4 結語

本文采用k-means聚合算法，建立了多信息的距離模型。考慮到高校數字圖書館受眾的特殊性，并將其特殊屬性關系加入距離函數的計算中，對用戶進行有效聚類，使用戶在按照對應的年紀信息、專業信息及目的信息所劃分的數據庫中得到有效的推薦信息，使原有相似信息對用戶的模糊推薦得到有效解決。