王月娥
(廣東嶺南職業技術學院,廣東廣州 510663)
高校是學習知識的主要場所,學生需要和書籍打交道,但是目前很多學生針對書籍存在“不會學,也不會找”的問題。在書籍推薦方面,主要是任課教師推薦一些和課程相關的書籍,或者是圖書館舉辦的新書推介會,但這很難激發學生閱讀書籍的興趣,并且很難找到自己所需的書籍。這表明,學生和圖書館之間無法順暢聯系,這時就需要圖書推薦系統發揮出其作用,使得圖書館資源得到充分利用。高校圖書館的推薦系統定位是其主要推薦圖書,不限定圖書類型,可以是印刷版,也可是電子版;圖書來源主要是高校圖書館; 推薦系統中的讀者主要是在校學生以及教職工。推薦系統將圖書管理系統作為依托,許多基礎數據源自目前的系統,設計和實現時會存在一定差異。該系統是新書組織和通報系統,能夠自行推薦圖書,不只是人工發布圖書信息,人工可進行推薦,但主要是系統根據有關算法來獲取有關內容[1]。
分析圖書館以及讀者的特點可知,推薦系統的流程從獲取興趣、標記開始,當達到觸發條件時,其將被觸發,在流程中沒有對反饋問題進行考慮,從而很難滿意推薦結果,需要解決推薦問題,重新設定和優化推薦內容。推薦時主要是推薦圖書,推薦者結合用戶需求向用戶進行系統的推薦,其流程由個性化推薦、直接推薦、圖書處理等部分組成。
最近幾年個性化推薦是研究熱點,個性化推薦主要是收集和分析用戶興趣,基于此構建興趣模型,將獲得的相關數據存在興趣庫中,在之后使用中不斷修正興趣,使興趣匹配圖書標記,最后進行推薦。為實現推薦的個性化,首先應收集用戶興趣,主要有以下幾種途徑:(1)用戶自己確定,用戶在注冊賬號時可直接確定感興趣內容,如果興趣發生變化將難以更改,因此該方式適合應用在系統冷啟動問題解決中。(2)系統自動獲取,其根據借閱記錄和用戶瀏覽等途徑收集和掌握用戶興趣,在系統應用過程中不斷進行優化,這是當前研究較多的內容[2]。(3)他人推薦,該途徑主要對和用戶在一個社區、圈子的興趣進行采集,通過共性興趣來推薦。此外,可借鑒微博標簽這一概念,在讀者閱讀書籍后能夠在系統中形成相應的標記,即為借閱標簽,這有利于推薦書籍工作開展。(4)專業與學科特性,這是高校獨有的,指的是結合學生專業進行簡單、直接的推薦。(5)混合推薦,這是推薦系統中常用方法,指的是通過用戶自己確定或者是學科確定其興趣,并通過系統獲取和他人推薦等形式對讀者興趣加以修正,利用權重系數方式來解決,如果興趣出現了變化,可對權重系數進行改變。
該類型的推薦是當前應用范圍比較廣的形式,也是圖書館常規工作,其中包括的內容主要有新書通報、教師推薦、借閱統計推薦以及專業書籍、同類書籍的推薦,這類推薦方式和個性無關。
在處理圖書的過程中,需要加工目前存在的數據,這可將圖書中與興趣相關的內容增加,保證更好地開展推薦服務。可通過社區、圈子、選擇興趣等途徑來落實這一工作,可在一定程度上解決冷啟動問題,然而該過程中也會伴隨著興趣變更與更新問題,只是參考借閱情況以及歷史來實現較為粗糙。對這些內容加以分析,科學、合理的設置權重系數,是當前比較常用的一種解決方法。標簽主要是關聯圖書以及興趣標識,并明確標簽的重要性以及具體位置。處理圖書數據時,需要注重數據的統計,比如,在瀏覽某本書后,可以顯示出借閱這本書同類型書籍的前10 名,這就是推薦的一種形式。
推薦發起者即為用戶,同時其也是推薦受益者,高校圖書館中學生和教師是圖書推薦者以及受益者。用戶在推薦系統中承擔著不同的角色,也承擔不同任務。用戶興趣可以用大家認可方式來表示,在處理用戶興趣和圖書處理工作中應較為努力。
2.5.1 分類瀏覽與推薦
這是一種較為常見的推薦方式,受眾認可度較高,并且具有實際意義。但是該方式還存在不足之處,特別是在確定類型方面,通常圖書館工作人員會結合圖書分類號落實分類推薦工作,讀者根據分類對推薦是否合格進行判斷,這種推薦方式增加了系統處理難度。而高校圖書館的圖書推薦系統能夠簡化這些問題。可以圖書分類法的類為主(視為1)、專業(視為2)以及學生喜歡的方式(視為3)為輔,與應用場景相結合,確定類。常規推薦下類的重要程度是1、2、3,個性化推薦場合,類的重要程度為3、2、1,專業推薦即為2、1、3 或2、3、1[3]。
2.5.2 以內容為基礎的推薦
目前主要推薦趨勢為基于內容的推薦,但是該方式面臨著如何揭示以及標記內容的問題,具體來說就是怎樣標記圖書內容以及用戶需要的內容,怎樣進行兩者統一以及簡單匹配。目前內容描述常見的形式是關鍵詞,使用全文檢索、分詞等技術進行用戶興趣分詞,依此提取圖書內容信息。盡管技術還不夠成熟,但依舊可以使用。對于關鍵詞是否和標簽等同的問題,主要是看設置標簽人員的意愿,設置較為規范時,將與關鍵詞等同,反之就會較為麻煩,存有匹配問題,主要受標簽設置權限影響。在系統中,如果圖書館工作人員或者是系統設置標簽,則很難保證其規范性;如果是用戶自行提出,就會存在較多問題。這時可選擇系統設置標簽,用戶在其中選擇。
2.5.3 推薦數量
推薦暢銷榜上排名前N 的圖書,推薦和用戶興趣相關的N 本圖書,N 是一個具體值,并且是由系統性能、推薦方式、推薦位置和網站承載來決定。
通過上述分析可知,該系統可將共同推薦、個性化推薦等推薦任務完成。這要求系統具備分析整理數據以及可視化展示等功能,保證合理獲取用戶興趣,并做好相關模型構建工作。系統也需要具備非功能性需求,如性能擴展性、可用性、可靠性以及可支持性[4]。
這一部分的主要功能模塊有處理數據、 用戶管理以及用戶借閱行為管理等。該部分應處理數據有圖書數據和用戶數據,做好整個系統數據準備以及預處理工作。(1)數據處理具有導入數據、錄入數據、維護數據這3 個環節。導入數據指的是直接導入數據,按照圖書借閱排名,做好相應數據統計工作,此類數據可以直接使用; 錄入數據指的是直接添加數據; 而維護數據是對已有的數據進行更新和修改。(2)用戶管理是指管理圖書館的全部用戶,例如,圖書館員工、師生讀者等。其是由原始數據中加入新數據構成的,新數據指的是用戶依據個人興趣或是所在圈子來選擇的。(3)用戶借閱行為管理主要是管理導入、分析、整理等用戶借閱行為的工作,為做好個性化推薦工作提供數據支持。其中相關功能和導入數據功能存在重疊部分,因注重系統特性以及功能完整,將其放在一起。
該部分與推薦管理相關,主要包括以下幾方面內容:(1)用戶模型管理,其是指構建、修正、完善用戶推薦模型,主要是構建公式、選擇和修正參數、確定和修正閾值,這可采用系統自動、人工等方式來確定。(2)個性化推薦,主要是按照借閱記錄進行推薦、個性化書友推薦、反推薦給書友、綜合推薦方式、推薦擴展,使推薦工作全面落實。(3)專門推薦其主要是指新書通報、專業推薦、借閱瀏覽、瀏覽推薦與其他推薦等。專業推薦主要是指推薦專業相關書籍,這也是圖書館一直開展的工作,然而沒有良好的效果。節約推薦指的是在讀者借閱時開展推薦工作,應具有精準性,可具體到書;新書通報在圖書館中是常規工作;推薦瀏覽指的是用戶在瀏覽時推薦,幫助用戶找到所需書籍,進行大類推薦或粗線條推薦;其他推薦則為擴充準備。(4)興趣管理。收集、整理、加工、分析符合用戶興趣的數據,可構建關于用戶興趣的公式以及模型。該模型可以進行數據修正,在數據增加的情況下不斷完善。不僅如此,每年還可結合學生的專業以及年級來劃分其興趣,做好微調和修正工作。通過處理日志的方式來獲取興趣,以此了解用戶行為,處理日志即為興趣管理主要內容。實際管理中應收集用戶興趣,尤其是新用戶注冊時,為其提供個人興趣選擇的服務。(5)圖書特征管理。為收集、整理與規范圖書特征,應使特殊特征描述與用戶興趣相匹配,主要是運用一個詞或是一個標簽來描述。現有圖書特征主要是外在特征,不符合推薦系統應用要求,這就需要添加圖書特征。圖書特征管理有著較大的工作量,并且和推薦質量相關,應該提升重視程度。
該部分能夠凸顯出管理推薦結果,主要內容是渠道管理以及展示管理。渠道管理指的是發布推薦結果的渠道,如微信、短信、網站及平臺等,通常是管理所提供的渠道、推薦內容應用渠道等。展示管理主要內容有展示內容、位置以及數量,限定推薦結果內容、位置和數量。(1)數據庫管理:這一模塊指的是對系統中數據庫進行全面管理,注重數據的修改、添加和刪除行為,同時也需要做好構建表格的工作。(2)圈子管理:該部分的建立是為了獲取用戶興趣,屬于常規性論壇管理。(3)點評管理:通過點評管理工作,可開展掌握用戶興趣的工作,使用戶能夠積極參與到點評中,另外點評管理還能夠支持獎勵機制的創設。(4)系統管理:該模塊能夠將系統通用性功能發揮出來,主要是數據初始化、修改用戶密碼、設置打印機、拆訊統計功能等。(5)詞表管理:建立詞表主要是為了關鍵詞有更加規范的用詞,這是一種后臺操作項,能夠使標簽以及圖書特征標記更加規范。為獲得理想效果需要構建3 個詞表:①構建主題詞表,保證興趣和圖書的描述用詞更加規范; ②構建同義詞表,主要內容是同義詞和口語化、意思相近的詞;③構建標簽表,該表逐漸完善,根據院校和學生情況,允許自定義標簽,系統進行簡單限定,例如,字數在4 個之內,利用同義詞表來比較和匹配,構建相關聯系。該工作是以假定為基礎,圖書特征標記需由專業人員完成。
(6)標簽管理:其能夠規范和管理標簽出現位置、方式和基本式樣,標簽入表操作在詞表管理中進行。
豆瓣和百度文庫等會在頁面上設置用戶評分區域,主要級別是很差、較差、還行、推薦以及力薦。需要用戶的評價,推薦系統通過這樣的形式掌握用戶特征,做好相關推薦工作。通常用戶處于利益驅動者的位置,采取的行動一般會和自身利益掛鉤,例如在百度文庫中,作者通過文章評分可獲取相關財富值,其可利用財富值在網站中下載資料。但是高校圖書館是非營利機構,不具備利益驅動機制,這樣讀者會缺少評價圖書的動力,這會使評價信息較少,圖書館很難收集用戶信息。如果可以提升系統評價的自動化程度,則可以對圖書館存在的一般性問題進行有效解決。
在電商平臺中經常會通過評價返現、 評價獲積分等方法鼓勵用戶對購買的產品以及服務進行評價,電商沒有物質獎勵時,銷售產品以及服務所獲評價不足整體銷量1%,沒有較高的用戶評價主動性將會使數據出現稀疏性問題。另外,通常借閱暢銷書用戶較多,借閱非暢銷書用戶少,使得借閱數據出現交錯情況,這會使協同過濾系統很難篩選出相似用戶,無法保證待推薦項目評分計算的準確性。通常系統對數據稀疏性問題進行處理時,都會通過0 或者是用戶平均分填充方法對缺乏評分項目進行評價,描述用戶興趣偏好失真[5]。除此之外,如果根據圖書評分矩陣尋找相似用戶,運算復雜程度將會因此加大。
在個性化推薦系統中人工評分系統屬于羈絆。人們會使用省力的方式對自身行為進行指導,除非非常熱愛某本書,否則很少去評價借閱的圖書。通常電商網站會以返利形式對用戶的評價行為加以鼓勵,高校圖書館是公益性組織,無法通過付費模式實現評價,因此應結合圖書館特點,設計與圖書館相符合的自動化評分系統,結合借還書記錄對用戶借閱圖書進行評分。通常高校圖書館借閱日志主要有3項操作,分別是借閱、預約以及續借。
5.1.1 借閱
用戶受客觀因素影響或是對某本書感興趣才會產生借閱圖書的需求,可以劃分成首次借閱以及非首次借閱。首次借閱雖然可表明用戶對圖書的興趣,但無法掌握用戶有沒有閱讀圖書內容,難以明確圖書對用戶的作用。結合上述內容可以知道,用戶借閱某本書評分不會太高,那么首次借閱分數可設置為1。不是第一次借閱,因為多次借閱,會認為圖書對于用戶有較大用途,這時可將分值設置為4,可拉大分差,凸顯借閱重要性。
5.1.2 預約
高校圖書館可設置圖書借閱預約服務,讀者申請該服務,在圖書歸還后享有優先借閱權[6]。如果非用戶閱讀圖書的意愿較為強烈,應申請預約服務,這可確定用戶了解圖書內容和對其發展產生作用,那么分值要比初次借閱高,但是也應考慮用戶沒有深入閱讀圖書的情況,存在閱讀后感覺和之前想法不同等情況,那么分值不應高于再次借閱分數,則設置分值為2。
5.1.3 續借
通常會認定用戶認為圖書有用和未閱讀完這兩種情況下將會出現續借行為,借閱規則中包括罰款條款,借閱圖書超期需要繳納罰款,如果未及時還書,不想被罰款,將會產生續借行為,那么可再設置為2。
針對借閱行為交錯性問題,需要考慮圖書館開架借閱圖書主要的特點是圖書有專業人士編目、分類準確等,結合書目數據做出合并處理,基于對于某類圖書興趣度,尋找相似用戶。根據借閱記錄來計算用戶借閱書的分值,并結合書本信息中書的類目,對其進行分值計算,由此尋找相似用戶。通過歸類轉化模式避免出現嚴重的數據稀疏問題,通過圖書組合形式確定相似用戶問題向以“類”組合確定用戶問題轉變。在本質上,確定相似用戶即為找出對同類圖書感興趣的用戶。