

摘? 要:通過構建個性化圖書推薦系統,圖書館可以為讀者提供更加準確的圖書檢索推薦服務,也可以通過對讀者借閱興趣的分析來提高圖書館的館藏借閱率,降低閑置圖書的管理成本。本文從圖書的特征值分析入手,研究了目前國內通用的中圖分類法圖書相似度算法,分析了兩種基于數據挖掘技術的圖書過濾推薦算法的優缺點,提出了一種基于協同和內容混合過濾的圖書推薦算法。
關鍵詞:圖書推薦;過濾推薦算法;混合過濾
中圖分類號:TP311.13;TP391.3 ? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)23-0020-03
Research and Application of Book Recommendation
Algorithm Based on Data Mining
WANG Hong
(Northeast Agriculture University Library,Harbin? 150030,China)
Abstract:By building personalized book recommendation system,library can provide most accurate book searching and recommendation for the users. By studying the book interest to the users,library can advance the rate of book circulation and cost reduction of idle books. In this paper,starting from the analysis of book eigenvalues,we study the book similarity algorithm of Chinese library classification,analyze the advantages and disadvantages of two kinds of book filtering and recommendation algorithms based on data mining technology,and propose a book recommendation algorithm based on collaborative and content mixed filtering.
Keywords:book recommendation;filtering recommendation algorithm;hybrid filtering
0? 引? 言
通過圖書館信息管理系統來提高讀者檢索和借閱圖書的效率是目前各圖書館提高服務質量和客戶滿意度的有效手段。借閱者能夠在使用圖書管理系統時快速檢索到所需的書籍,有助于提高圖書借閱率,也能為圖書管理節省一些成本。在圖書館系統中對檢索結果的處理和顯示是提高檢索效率的關鍵技術,這些檢索推薦算法也都是建立在圖書特征劃分體系基礎上的。目前圖書館圖書管理系統的圖書特征信息劃分采用的是中圖分類法,圖書推薦算法基于聚類分析技術,分別從內容和協同過濾兩個方面進行計算和推薦。
1? 中圖法圖書相似度計算
圖書館現有的圖書信息管理系統會根據圖書的特征信息對圖書進行劃分,具體包括圖書分類號、題名、學科、作者、ISBN號、館藏時間等,這些能夠區分圖書類別的信息稱為圖書特征值。圖書信息管理系統就是根據特征值數據的結構化存儲和管理來實現圖書檢索和借閱服務的。特征值中被用于圖書檢索和推薦服務的關鍵信息就是圖書分類號,目前國內最為通用的圖書分類號計算方式就是中國圖書館圖書分類法(下文簡稱中圖法)。中圖法按照樹狀結構劃分圖書類別,從上至下按照由一般到具體的過程分為5大部類,22個基本大類。中圖法計算生成的圖書分類號,不僅可以確保圖書分類的準確性,還能確保推送項目的真實性,對于圖書推薦算法的研究具有非常重要的參考價值。中圖法的分類樹結構如圖1所示。
從分類樹的結構可以看出,分類樹的同級節點會隨著層級的下降逐漸失去關聯性,同一分支的節點則在延伸過程中逐步提高關聯性。由此可以得出結論,在分類樹中統一分支的節點,可以視為同學科類型的特征值。
圖書推薦算法是一種典型的聚類分析技術,是按照數據對象集合的相似程度進行分類的非假設性算法。圖書推薦的核心問題就是如何通過相似度的計算來劃分數據集合。作為圖書分類的主要特征值,中圖法分類號的相似度計算對于提高圖書推薦算法的準確性有非常重要的意義。中圖法圖書相似度是依據分類樹的最近公共父節點深度進行計算得出的,計算公式如下:
SIM(U,V)=DEPTH(LCA(U),LCA(V))/MAX-DEPTH
式中,U和V分別代表分類樹的任意兩個節點,SIM(U,V)用于計算分類樹節點的相似度,LCA(U)用于計算與U節點最近的父節點,DEPTH用于計算得出父節點深度,MAX_DEPTH是該分類樹的深度最大值。DEPTH的計算過程使用了Tarjan算法和倍增法。
2? 基于內容的圖書推薦算法
基于特征值計算和用戶檔案信息的圖書推薦算法是目前圖書推薦系統最為常見的內容推薦算法。基于內容的圖書推薦算法首先對館藏數據和借閱數據進行分析,得出用戶的檢索關鍵詞和圖書特征值,分別得出關鍵詞集合和特征值集合并建立圖書屬性數據庫;然后利用圖書屬性數據庫進行用戶借閱特征分析,得出用戶特征與圖書特征之間的關聯關系;最后使用余弦相似度算法來得出特征值關聯性較高的圖書推薦給讀者。計算過程中要根據推薦項目的數量適當調整計算參數,調節推薦書目的特征值范圍和用戶特征范圍。
圖書推薦算法的優勢首先是無需考慮用戶的借閱記錄數據,這對于借閱數據積累不足的館藏系統有較大幫助,可以避免因數據不足造成的推薦偏離現象;其次,對用戶檢索關鍵詞的計算可以最大限度獲取用戶閱讀興趣信息,提高推薦算法的準確性,也能保證推薦項目集中在統一分支的區域內,保證關聯性;第三,圖書特征和用戶特征相關聯的推薦算法,可以將新增館藏加入推薦體系,解決了以往推薦算法無法為用戶推薦新增館藏的問題。基于內容的圖書推薦算法的局限性在于:用戶特征值的獲取如果不是在一個較長周期內,會造成推薦圖書與用戶借閱偏好的一定偏離,新用戶的借閱推薦則更加沒有準確性的保證。
3? 基于協同過濾的圖書推薦算法
協同過濾是一種互聯網領域炙手可熱的信息過濾和推薦算法,它利用具有共同經驗的群體喜好來給用戶推薦信息。協同過濾算法是以合作為基礎,使用評分機制或群體過濾等方式來給予信息一定的評價,記錄評價信息(最好的與最不好的)并篩選得出推薦結果。圖書推薦系統應用協同過濾算法也比較適合,針對用戶的不同教育背景、身份以及職業都可以區分經驗群體,借閱過程給出的反饋信息也可以形成過濾的數據支持。協同過濾算法的推薦過程與用戶的群體和偏好有直接的聯系,選擇相似偏好的用戶組成用戶群體,根據用戶對館藏圖書的評價得分來進行具有普遍性的偏好分析,得出該群體的推薦結果。
基于過濾協同的圖書推薦算法有兩個思路:一是可以基于用戶的借閱數據進行相似度矩陣分析,得出群體興趣特征,劃分組別后進行定向過濾推薦;另一種是基于建立項目相似度矩陣,將用戶感興趣或不感興趣的項目進行組別劃分后進行定向過濾推薦。
3.1? 基于用戶的協同過濾
基于用戶的協同過濾算法的核心內容就是確定項目偏好度相似的臨近用戶組別,通過其他臨近用戶組別的項目推薦評分得出目標用戶的項目興趣權重系數,從而推斷出用戶感興趣但未曾評分的項目來進行定向的圖書推薦。除了圖書推薦外,圖書館可以根據臨近興趣組別來為用戶推薦好友,為目標用戶推薦偏好相似度較高的其他用戶,并對結為書友的用戶進行加權興趣組別計算,構建更加準確的圖書推薦系統應用。
3.2? 基于項目的協同過濾
基于項目的協同過濾的核心內容是以相似度為加權系數,對已評價的項目進行加權計算,得出未評價項目的預測評分。相比基于用戶的協同過濾算法,基于項目的協同過濾的項目關系相對穩定,只要定期對相似度加權系數進行更新就可以實現準確的推薦,可以保證推薦系統的系統性能,這也是目前各領域商業網站采用較多的推薦算法。
對項目相似度的計算,基礎數據源是該項目的用戶群體,使用Jaccard相似度算法來進行相似度計算,得出的相似度加權系數再作用于已評價項目的評分結果之上,得出目標用戶群體的未推薦項目加權評分,將評分較低的項目去除后按照評分高低為用戶進行定向圖書推薦。除了圖書推薦應用外,基于項目的協同過濾算法也可以應用于用戶圖書檢索的結果集生成,將相似度加權系數作為檢索條件排序的參考依據之一,可以有效提高用戶檢索結果的準確性,提高用戶體驗。
基于協同過濾的推薦算法的優勢在于:首先,算法的數據源面向所有用戶群體和館藏項目,根據預先設定的計算程序就可以實現推薦項目的自動更新,保證了推薦算法的準確性;第二,用戶評分可以有效提高資源項目的相似度分析數據的采集準確性,可以解決一些采集難度較大的多媒體資源無法進行相似度計算的問題;最后,臨近群體的興趣推薦可以為借閱傾向較為單一的用戶推薦接近的圖書項目,有助于用戶擴寬閱讀范圍。基于協同過濾的推薦算法的主要缺點就是對新項目的推薦更新較慢,當數據源較為稀疏時會出現冷啟動現象等。
4? 基于混合過濾的推薦系統
通過比較和分析基于協同過濾、基于內容過濾的推薦算法的優缺點,為了進一步提升推薦系統的用戶體驗,本文設計了一種基于混合過濾的推薦系統,實現了兩種推薦算法的優勢互補。基于混合過濾的推薦系統工作示意圖如圖2所示。
(1)從圖2可以看出,基于混合過濾的推薦系統首先采集用戶的借閱記錄信息,對于并未進行過圖書借閱的用戶進行非推薦算法處理,按照用戶注冊信息中的性別、年齡、教育背景、工作單位等信息進行熱門圖書推薦。
(2)對于有借閱記錄的用戶群體,根據預先設定的借閱量閾值進行區分計算,借閱量低于閾值的用戶采用基于內容的推薦算法進行推薦。推薦算法首先采集圖書中圖法分類號信息,構建圖書的屬性數據表得出中圖法分類號集合;然后利用中圖法圖書相似度計算公式得出用戶閱讀特征值;最后使用余弦相似度算法對圖書特征值進行加權排序得到推薦結果序列。
(3)借閱量高于閾值的用戶采用基于協同過濾的圖書推薦算法。該過程首先以用戶興趣群體和項目信息為源數據,通過Jaccard算法計算得出項目相似度加權系數;然后對臨近項目的相似度進行加權計算,得到推薦集合推薦給用戶群體。
5? 結? 論
基于混合過濾的圖書推薦算法,整合了基于內容和基于協同過濾兩種推薦算法的優點,對圖書推薦的場景進行劃分并有針對性地利用中圖法、用戶閱讀特征值計算、余弦相似度算法、Jaccard算法等先進算法進行處理,有效提高了推薦算法的準確性,提高了用戶借閱率。
參考文獻:
[1] 高晟.基于關聯規則與貝葉斯網絡的高校圖書館個性化圖書推薦服務 [J].情報探索,2019(8):87-94.
[2] 彭文惠.基于數據挖掘的自動化推薦系統改進ART算法探究 [J].現代信息科技,2019,3(8):44-46.
[3] 任杰.關聯規則應用下的高校圖書館圖書推薦服務 [J].辦公室業務,2018(23):148.
作者簡介:王紅(1969-),女,漢族,遼寧沈陽人,副研究館員,碩士,研究方向:文獻信息服務。