


摘 要:文章簡述了用戶畫像概念及相關研究,分析了用戶畫像構建過程,包括用戶畫像構建步驟、標簽分類、標簽維度等,以及混合推薦算法,在此基礎上提出了圖書館個性推薦服務系統架構,以期為圖書館開展個性化推薦服務提供助力。
關鍵詞:用戶畫像;圖書館;個性推薦;服務體系
中圖分類號:G250 文獻標識碼:A 文章編號:1003-1588(2024)05-0079-04
當前,公眾閱讀需求呈現明顯的差異化需求,圖書館只有對其進行精準分類,深入挖掘閱讀行為數據,才能為其提供精準的閱讀推薦服務。圖書館可利用人工智能、大數據等技術構建圖書館個性推薦服務系統,精準勾勒用戶畫像,對用戶閱讀需求進行精準預測,以增強其閱讀體驗。
1 用戶畫像概念及相關研究
“用戶畫像”的概念最早由阿蘭·庫柏(Alan Cooper)于1998年提出,其將用戶畫像定義為基于用戶真實數據的虛擬代表[1]。用戶畫像可對用戶需求、用戶興趣、用戶特征進行描述,并可對用戶的信息全貌進行精準勾勒,以便為其提供個性化服務。為用戶“打標簽”是用戶畫像的核心內容,標簽通常有三大特征:一是動態變化性,即隨著應用情境的改變和時間的推移,用戶的興趣愛好會出現變化,需要隨時修正畫像模型。二是短文本性,即一個標簽對應一種含義。三是語義化,即讓用戶迅速理解標簽含義。
在圖書館用戶畫像的相關研究中,汪強兵等收集了大量的用戶手勢行為數據信息,并通過關鍵詞對用戶的閱讀興趣進行挖掘,以勾勒用戶興趣畫像[2];韓梅花等通過對抑郁情感指數計算描述用戶畫像,從而有針對性地為抑郁癥用戶推送閱讀治療資源[3];胡媛等依托用戶畫像構建數字圖書館知識社區用戶模型,以提供多元化、精準化、差異化的知識服務[4]。由此可見,圖書館基于用戶畫像開展個性推薦服務系統建設,無論是技術層面還是理論層面均具備了較強的可操作性。
2 圖書館推薦服務系統構建概述
圖書館的推薦服務系統通常包括兩種經典算法,即協同過濾(CF)算法[5]和基于內容(CB)算法[6]。CF算法的優點是能夠為用戶推薦其感興趣的Top-N物品或有相似興趣的其他用戶所喜愛的Top-N物品,并有效激發其潛在熱情;缺點是需冷啟動、可解釋性不強等。CF算法可細分為基于物品的協同過濾(ItemCF)算法和基于用戶的協同過濾(UserCF)算法[7,8],其中ItemCF算法適用于用戶數遠大于物品數的場景,如視頻網站、電子商務網站等;UserCF算法則適用于用戶數遠小于物品數的場景,如圖書推薦、新聞網站等。CB算法是對物品特征進行構造,可自動向用戶推薦與其喜歡物品特征類似的物品,并利用自然語言處理技術對用戶感興趣的關鍵詞進行深入挖掘,分別賦予不同的權重,逐漸形成用戶興趣空間向量模型,優點是可妥善解決冷啟動問題,適用于向用戶推薦非結構化的文本資源,如電子文獻數據庫、新聞報道等;缺點是工作量大、難以提取屬性特征等。
筆者綜合考慮各類算法的優缺點后,決定選取UserCF算法和CB算法構建基于用戶畫像的圖書館個性推薦服務系統。
3 用戶畫像構建過程
3.1 用戶畫像構建步驟
圖書館提供個性化服務的前提是為用戶精準畫像。用戶畫像包括用戶的環境屬性、社會屬性、行為屬性等,圖書館的用戶畫像構建通常分為三個階段:第一階段是數據處理階段,第二階段是標簽構建階段,第三階段是形成畫像階段,詳見圖1。數據處理是圖書館對各類與用戶相關的非結構化數據(評論、留言等)、結構化數據(用戶紙本圖書借閱、電子書下載、信息瀏覽等)進行系統收集與管理,并將其導入用戶數據庫;標簽構建是指圖書館深入挖掘用戶數據的技術性價值,并描述其特征,再依托關聯分析構建對應的標簽信息;形成畫像是最后一步,圖書館進行標簽分類后通過勾勒出的畫像直觀呈現用戶需求,并可在后期進行動態優化調整,使用戶畫像更加精準。
3.2 標簽分類
由于計算方式不同,圖書館用戶畫像中的標簽可分為三類,即統計標簽、屬性標簽、算法標簽。其中,統計標簽是度量與維度的組合,如用戶的月均下載量、閱讀主要時間段、閱讀文獻類型等;屬性標簽是對實體基本性質的勾畫,包括用戶年齡、職業、性別、學歷等;算法標簽則可間接獲得,如通過大數據技術挖掘用戶的閱讀偏好等。
3.3 標簽維度
梁建春:基于用戶畫像的圖書館個性推薦服務系統建設*
圖書館用戶畫像的標簽維度包括圖書標簽維度和用戶標簽維度。其中,圖書標簽維度分為兩個:一是圖書屬性標簽,包括圖書的CN號、ISBN號、出版時間、版次、著者等。二是圖書類型標簽,與《中圖法》對應。用戶標簽維度細分為三個:一是用戶屬性標簽,包括用戶的姓名、年齡、性別、所在地等。二是用戶行為標簽,包括用戶月均圖書借閱頻次、月均電子書下載頻次、月均紙本圖書借閱頻次,活躍度為三者數值的求和,求和值不小于10的判定為高活躍度,求和值在5~10之間的判定為中活躍度,求和值小于5的判定為低活躍度。三是用戶興趣標簽,用于詳細描述用戶的閱讀偏好。
4 混合推薦算法
4.1 UserCF算法
4.1.1 特征構造與K近鄰搜尋。中圖分類號的分類形式為樹狀結構,有22個大類,由上而下逐層擴展,為避免因多個讀者借閱而出現的數據稀疏問題,筆者以用戶行為標簽所對應的3個數值之和為興趣向量特征,在分類層級方面選擇二級,共計222個小類,假定用戶的興趣特征向量為U=(u1,u2,u3,u4,…,un),首先對其進行歸一化處理,其次通過余弦相似公式
對不同用戶間的相似度進行計算,以構建不同用戶之間的相似度矩陣,從中找出與目標用戶相似度最大的K個鄰居用戶集合,用Uk代表。
4.1.2 興趣度提取因子。UserCF算法需要結合有相似興趣的其他用戶對某物品的評分來預測用戶評分,評分高低與用戶興趣度呈正關聯。用戶—物品評分矩陣為R=U×I。由于絕大多數圖書館都未形成詳盡的圖書評分數據,因此本研究采用基于興趣度與類型因子的高校圖書推薦算法,選擇續借次數、借閱持續時間為興趣度提取因子,為使評價更準確,將豆瓣讀書評分、電子書下載頻次也納入興趣度提取因子之列,以全面獲取用戶對圖書的興趣度。
4.1.3 興趣度計算。興趣度計算若要精準需要綜合考慮相關參數,首先要考慮的參數是借閱時長,借閱時長與用戶興趣度通常呈正比關系。用戶u對圖書i的借閱時長百分比p如公式
所示,其中Ta(u,i)是歸還圖書的時間點,Tb(u,i)是借閱圖書的時間點,Tc是圖書館規定的超期有效期。將p值映射成5個興趣度值,興趣度公式如
所示。其次是電子書下載。為滿足用戶日益高漲的數字閱讀需求,圖書館會為用戶提供易于獲取的電子書。用戶試讀電子書產生強烈的閱讀興趣后會有下載行為,可將其興趣度分值設得相對高一些,如
所示。再次是豆瓣評分。無論是借閱時長還是電子書下載,都存在或多或少的不確定性,因此為使UserCF算法更精準,本研究引入了豆瓣評分,豆瓣讀書內用戶對圖書的評論及星級評分相對較客觀、公正,因此將圖書的豆瓣評分作為pref3(u,i),最終的用戶綜合平均興趣度值如公式
所示,同時基于UserCF算法對用戶閱讀興趣度進行計算,如公式
所示。
4.2 冷啟動問題
冷啟動包括用戶冷啟動和物品冷啟動。其中,用戶冷啟動要解決的問題是如何及時為新用戶推薦圖書,物品冷啟動要解決的問題是如何在第一時間為用戶推薦新書。用戶冷啟動可基于用戶的自然屬性對不同用戶間的相似度進行計算,并向目標用戶實時推薦相似度高的其他用戶所借閱的圖書。物品冷啟動最直接的方式是隨機展示新書,但隨機展示的新書很難與讀者的需求相契合,而CB算法可妥善解決這一問題,具體操作步驟為:為新書構造特征向量→提取用戶的興趣特征向量→計算新書特征向量與用戶的興趣特征向量的相似度,若相似度高,則可及時向目標用戶推薦。
5 圖書館個性推薦服務系統的架構設計
為防止數據量過大而出現性能瓶頸問題,圖書館需謹慎選擇個性推薦服務系統的搭建環境。Hadoop分布式集群環境可對大規模數據進行高性能、高可靠性處理,圖書館可將Hadoop分布式集群環境作為個性推薦服務系統的搭建環境,系統架構詳見下頁圖2。
圖2顯示,圖書館的個性推薦服務系統由上而下分為表現層、邏輯層、處理層、數據層。數據層的數據包括用戶數據、豆瓣讀書評分數據、電子書下載數據、圖書借閱數據等;處理層主要是構建圖書畫像模型和用戶畫像模型,所有的圖書畫像數據和用戶畫像數據都存儲在HBase分布式數據庫中,且為動態更新狀態,可將畫像模型的更新頻率設定為每日1次;邏輯層是圖書館個性推薦服務系統架構的核心,兼具CB算法與UserCF算法的優點,形成多元化推薦引擎,可向不同的目標用戶個性化推薦其所需的圖書資源;表現層通過調用邏輯層的應用程序編程接口(API)為用戶提供可視化界面,分別向新老用戶展示推薦的圖書。
6 結語
綜上所述,用戶畫像是大數據時代的產物,已被廣泛應用于廣告投放、精準營銷等領域,并取得了較好效果。本研究將用戶畫像應用于圖書館個性推薦服務系統建設,可精準勾畫用戶的閱讀行為、閱讀傾向等,便于圖書館精準掌握用戶的基本特征和閱讀需求,進而為其提供個性化圖書推薦服務,值得推廣和應用。
參考文獻:
[1] 郭亞軍,李帥,張鑫迪,等.元宇宙賦能虛擬圖書館:理念、技術、場景與發展策略[J].圖書館建設,2022(6):112-122.
[2] 汪強兵,章成志.融合內容與用戶手勢行為的用戶畫像構建系統設計與實現[J].數據分析與知識發現,2017(2):80-86.
[3] 韓梅花,趙景秀.基于“用戶畫像”的閱讀療法模式研究:以抑郁癥為例[J].大學圖書館學報,2017(6):105-110.
[4] 胡媛,毛寧.基于用戶畫像的數字圖書館知識社區用戶模型構建[J].圖書館理論與實踐,2017(4):82-85.
[5] 董坤.基于協同過濾算法的高校圖書館圖書推薦系統研究[J].現代圖書情報技術,2011(11):44-47.
[6] 耿立校,晉高杰,李亞函,等.基于改進內容過濾算法的高校圖書館文獻資源個性化推薦研究[J].圖書情報工作,2018(21):112-117.
[7] 蔣濱澤,鄧欣,杜雨露,等.基于物品關聯協同過濾的下一購物籃推薦算法[J].計算機科學,2023(S2):486-491.
[8] 汪圳,李建苗.基于用戶情境的高校圖書館書目協同過濾推薦研究[J].圖書館研究與工作,2021(1):63-68.