


基于用戶畫像的個性化圖書推薦研究
文/武漢科技大學圖書館 俞奕
【摘要】目的/意義:運用個性化推薦服務,滿足高校讀者的個性化需求。方法/過程:首先分析讀者身份信息和歷史借閱行為信息數據,然后創建圖書館讀者的用戶畫像標簽模型,最后結合個性化推薦算法構建智慧閱讀推薦系統。結論:圖書館可以通過用戶畫像標簽快速了解讀者群體的興趣方向。
【關鍵詞】用戶畫像;個性化推薦;智慧圖書館;閱讀推廣
在全民閱讀推廣活動中,圖書館始終是活動的主導力量和核心機構。在舉辦閱讀推廣的活動時,往往需要提前了解各類讀者的興趣愛好,設計活動主題以激發他們的閱讀熱情。然而讀者群體的需求十分復雜,每個人的閱讀喜好一方面會受到年齡、性別、學歷等自身屬性的影響,另一方面還會受到社會新聞、朋友交際以及閱讀歷史等動態屬性的影響。因此,相似甚至相同的閱讀推薦書單就不能滿足這種多元化的個性需求。所以,如何對讀者的興趣進行描述以及對這些群體進行個性化的圖書推薦就成了圖書館的一項重要研究內容。在圖書館的借閱系統中,存儲著大量的讀者身份和書籍描述的信息,還有每天都在動態變化的圖書借閱信息和網絡檢索、瀏覽信息。如今,大數據技術日益成熟,基于圖書館大數據的用戶畫像不僅可以全面的描繪出用戶的閱讀興趣方向,還可以對用戶實現精準的個性化推薦。
一、用戶畫像概述
“用戶畫像”的概念提出者是Alan Cooper,他將用戶畫像解釋為“Personas are a concrete representation of taget users”,表示為“建立在一系列真實數據之上的目標模型,是真實用戶的虛擬代表”。這種構建方法主要通過調查問卷、電話訪談等方式來判定用戶的特征類別,早期被應用在交互設計或產品設計領域中,是一種刻畫目標用戶和聯系用戶訴求的有效工具。在大數據時代,還有一種表達是“User Profile”,表示運用數據挖掘和分析技術,全面系統地搜集用戶信息資源,包括用戶背景、用戶行為習慣等主要特征,形成個性化用戶檔案模型。用戶畫像的目的是對目標用戶的信息進行深度挖掘并開展個性化的閱讀資源服務,增加用戶的黏度和信譽度。
二、用戶畫像構建
標簽化是用戶畫像的核心,標簽具有語義化和短文本兩個重要特征,不僅便于用戶理解,也便于標簽提取和聚類分析。構建圖書館的用戶畫像標簽,需要利用管理系統中已采集的大量用戶身份和行為數據進行分析。在對原始數據進行整合和篩選后,根據數據的屬性和重要性,可以劃分為兩類標簽數據,分別是靜態標簽數據和動態標簽數據。
(一)靜態標簽數據。靜態標簽數據的特點是信息內容穩定幾乎無變動,存儲格式多為結構化形式,利于計算機檢索和統計分析。數據對象主要分為兩類,由圖1所示。一類是讀者的身份信息,其中讀者證號、級別、姓名、性別、學院、學歷等屬性起主要標簽作用。另一類是書籍的描述信息,主要包括:MARC號、書名、索書號、作者、摘要、出版社和出版時間。MARC號和索書號是兩個重要的書籍標簽。MARC是圖書編目的重要信息,根據《中文文獻CN-MARC著錄規則》中對中文圖書著錄的描述可以發現,標識塊606為主題字段,字段內收集了對應圖書的主題詞。索書號主要由《中國圖書館圖書分類法》,簡稱“中圖法”規定。中圖法是我國目前絕大多數圖書館使用的圖書分類方法。中圖法按照學科體系將各種學科門類的文獻信息劃分為5大部類、22大類,每一大類下根據每種學科的具體內容層層展開。根據中圖法規范所確定的圖書索書號能夠比較準確地反映圖書的主題內容。
圖1 靜態標簽數據類型描述
(二)動態標簽數據。動態標簽數據是指在圖書館的讀者交互管理系統中不斷變化的行為信息。如圖2所示,動態標簽數據主要包括圖書借閱行為信息、OPAC檢索信息、書籍瀏覽信息和留言板信息。信息形式包含結構化和非機構化數據。其中圖書借閱行為信息主要包含:讀者證號、MARC號、財產號、續借標記、借閱時間和還書時間。其中續借標記和借閱時長(還書時間—借閱時間)可以間接判斷用戶對該類主題的喜好程度。OPAC檢索信息則包含檢索時間和檢索關鍵詞,這些信息可以通過詞頻統計對關鍵詞的重要性進行排序,從而獲取群體用戶的閱讀興趣趨勢。書籍瀏覽信息主要包含:MARC號、網頁點擊量和借閱量。留言板信息為非結構化數據,包含:讀者證號、留言時間和留言內容,運用語義分析技術對讀者留言的內容進行文本分析可以發現用戶的潛在需求。
三、個性化資源推薦
通過對讀者進行標簽化處理,構建用戶畫像后。可以根據協同過濾和K-means算法對用戶進行聚類,將用戶和館藏資源進行智能匹配,完成個體和群體用戶的個性化主題推薦。
(一)個體用戶推薦。協同過濾算法可劃分為UserCF(基于用戶的協同過濾算法) 和ItemCF(基于物品的協同過濾算法)。UserCF的算法基本思想是根據目標用戶的興趣愛好尋找相似的“好友”向目標用戶進行推薦,這種思想與用戶在圖書借閱行為中的興趣偏好特征聚類的想法一致。UserCF推薦算法的主要步驟是:步驟1:采集讀者的行為數據,對讀者的行為特征進行標注和量化。步驟2:對處理后的用戶畫像特征矩陣進行度量。核心工作是計算目標讀者與其他讀者的興趣特征相似度。步驟3:根據度量結果由高到低排序,然后列出與目標讀者的興趣特征耦合度最高的TOP5讀者列表。步驟4:根據步驟2中選取讀者的三類最高興趣點,獲取TOP5讀者的借閱書單的集合。步驟5:對TOP5讀者閱讀書單列表中的所有借閱書籍按照興趣點分類和篩選,去除讀者已借閱書目后,根據累計借閱次數依次降序排列。最后綜合圖書重要性對推薦書目進行微調,輸出最佳匹配書目。圖3所示為武漢科技大學圖書館舉辦的個性化圖書推薦活動的個人圖書推薦頁面。
(二)群體用戶推薦。群體用戶推薦主要反映的是一個群體的共同特征。該特征雖然不能代表任何單個用戶的最主要興趣方向,但是卻可以最大程度的滿足大多數用戶的共同愛好趨勢。通過K-means聚類處理,讀者群體最終收斂得到的聚類中心就是該讀者群體中所有對象的代表,其各個參數就是集體閱讀興趣方向的反映。例如:對主題詞標簽為“人工智能”、索書號標簽為“TP181”、借閱量標簽為10次以上且身份標簽是本科生的群體進行聚類。對聚類后產生的讀者群體舉辦一次以人工智能為主題的讀書會活動,讓這些有相同興趣愛好的讀者群體聚在一起以書會友,增進知識交流。活動中選取的圖書既可以是群體內借閱人數最廣泛的圖書,也可以是與主題標簽最接近且出版年限最新的圖書。圖4所示為武漢科技大學圖書館舉辦的以“人工智能”為主題的圖書分享會活動。
四、結語
本文提出基于用戶畫像的圖書館個性化圖書推薦服務,以圖書館管理系統中的用戶大數據為基礎,運用數據挖掘和統計分析技術,提取用戶的興趣標簽,對讀者的興趣方向進行用戶畫像建模,最后運用協同過濾和K-means算法實現個體的圖書推薦和群體的圖書推薦服務。研究結果表明,用戶畫像技術在圖書館閱讀推廣上有一定的有效性。筆者擬在今后的研究中進一步探尋圖書館大數據在文本語義分析和深度學習技術上的應用。
【湖北省圖工委科研基金研究項目:基于協同過濾技術的圖書館個性化資源推薦(編號:2017-YB-04);湖北省圖工委科研基金研究項目:大數據環境下高校圖書館數據可視化分析與實踐—以武漢科技大學圖書館為例(編號:2016-YB-03)】
【參考文獻】
[1]何娟.基于用戶個人及群體畫像相結合的圖書個性化推薦應用研究[J].情報理論與實踐,2019,42(01):129-133+160.
[2]許鵬程,畢強,張晗,牟冬梅.數據驅動下數字圖書館用戶畫像模型構建[J].圖書情報工作,2019,63(03):30-37.
[3]翟秀鳳.基于用戶畫像的個性化資源智慧推薦系統研究[J].圖書情報道刊,2018,3(12):17-21.
[4]陳丹,柳益君,羅燁,錢秀芳,吳智勤.基于用戶畫像的圖書館個性化智慧服務模型框架構建[J].圖書館工作與研究,2019(06):72-78.
[5]李新廣.數字圖書館的用戶偏好模型及個性化推薦研究[D].武漢大學,2011.
[6]王慶,趙發珍.基于"用戶畫像"的圖書館資源推薦模式設計與分析[J].現代情報,2018,38(03):105-109+137.
[7]曲立平,吳家喜.基于評分可靠性的跨域個性化推薦方法[J].計算機應用,2018,38(11):3081-3083+3088.
[8]宋楚平.一種改進的協同過濾方法在高校圖書館圖書推薦中的應用[J].圖書情報工作,2016,60(24):86-91.
[9]朱白.數字圖書館推薦系統協同過濾算法改進及實證分析[J].圖書情報工作,2017,61(09):130-134.