孫常麗+王國軍+石丹+金松跟+胡艷君+武麗影
[摘 要]文章概述了高醫院校圖書館構建薦讀系統可行性,對推薦系統中的核心技術——推薦算法進行了探討,同時進行了高醫院校推薦系統的推薦模式的創新性設計,簡述了基于局部數據的推薦模式的實現過程,對國內圖書館提供推薦服務的未來做出了展望。
[關鍵詞]高醫院校圖書館;推薦系統;推薦技術;推薦算法;推薦服務
[DOI]10.13939/j.cnki.zgsc.2017.15.053
高醫院校圖書館的使命是提供專業的圖書館信息服務以滿足醫療、教學、科研的需求,完成高醫院校的使命——通過將一棵棵醫學“嫩苗”培育成“參天大樹”而貢獻社會。圖書推薦服務作為高校圖書館信息服務之一,它的發展有其迫在眉睫的理由,原因在于高醫院校圖書館的藏書非常專業,加上醫學知識膨脹日益加速,廣大師生很難從眾多醫學藏書中找到自己需要的圖書。那么,如何將這些醫學專業圖書推薦給真正需要它的讀者,就成為了目前各大高醫院校圖書館迫切需要解決的問題。因此,圖書館作為信息交匯和資源共享平臺,構建圖書薦讀系統(即推薦系統)變得十分必要。本文提出了在高校圖書館領域構建基于局部數據的圖書薦讀系統,既能很好地滿足廣大師生的信息需求,同時也能夠通過這種主動推薦的模式幫助更多師生節省查找圖書資料的時間,提高工作學習效率。
1 高醫院校圖書館構建薦讀系統的可行性分析
高校圖書館擁有豐富的藏書資源,是知識和信息的集散地,但是在知識爆炸的時代,移動設備頻頻更新換代,讀者閱讀行為已經改變,如果圖書館不能推出新的面向讀者的服務方式,高校圖書館將無法很好發揮其資源的優勢。在這種環境下,本文對在高校圖書館領域構建基于局部數據的圖書薦讀系統做了可行性研究。
近年來,推薦系統在各個領域內逐漸興起,并得到越來越廣泛的應用,目前在圖書館領域應用推薦系統的同樣比比皆是,除了各自采用不同的推薦技術之外,目的都是為讀者提供更快更好的信息推送服務,其中斯坦福大學的Fab推薦系統,它將基于內容和協同過濾算法結合起來,采用混合推薦技術為特定用戶進行推薦;加州大學的Melvy推薦系統,它采用了兩種生成推薦系統的方法:一種是利用圖書館的流通數據進行推薦,另一種是基于相似性的推薦;美國俄勒岡的SERF推薦系統是一種通過寫作過濾的新型搜索引擎;在國內,雖然也有高校圖書館推出了推薦系統,但并不普遍,其中中國人民大學圖書館的推薦系統比較成型,它同樣采用了混合的推薦模式為讀者推送書目信息。從技術的角度講,推薦系統在國際上已有成熟范例,而國內圖書館領域仍屬于起步階段,需我們各大高校共同努力,實現圖書館領域的智能圖書推薦。[1]
2 各種推薦算法比較分析
目前,推薦系統在各行各業中應用廣泛,其核心算法已經基本成熟,主要分為以下三種。
2.1 基于內容過濾的推薦算法
該算法通常使用機器學習,向量空間,聚類等多種方法,進行文本挖掘。這個算法推薦結果直觀,容易解釋,且不需要領域知識,但是由于物品屬性有限,相似度分析又僅僅依賴于物品本身的特征,其復雜的屬性不好處理,所以很難得到有效數據,且存在稀疏性問題和新用戶問題。
2.2 協同過濾推薦算法
它是在用戶對于一些項目或新聞資訊的評分或可以表達用戶喜好的行為的基礎上,查找具有相同興趣愛好或行為的用戶,以此來為目標用戶推薦一些他們可能會感興趣的資料的技術。這種算法是目前較常用的推薦技術,它的優點是與領域無關,發現速度更快,性能隨著時間推移會提高,其推薦個性化、自動化程度都很高,能處理復雜的非結構化對象;但是,存在稀疏性問題、可擴展問題和新用戶問題。[2]
2.3 基于關聯規則的推薦
這種方法需要挖掘數據的依賴關系,找到同時被購買的物品,這些用戶還買了哪些其他物品,這就是關聯規則,掌握這些就可以對用戶成功的實現物品推薦。這種方法優點是可以充分利用大量的讀者數據,挖掘讀者潛在借閱模式,缺點是關聯規則挖掘本身復雜,非專業人士難以理解挖掘結果,而且會出現產品名同義性問題,個性化程度比較低。[3]
3 基于局部數據的協同過濾推薦算法的采用
在高醫院校圖書館中進行圖書,推薦物品為圖書,用戶為特定的讀者群(廣大師生),以上三種常用的推薦方法,有其自身的優勢,同樣也有弊端。
第一,高校圖書館管理系統中關于圖書的元信息十分有限。以牡丹江醫學院圖書館金盤管理系統為例,在金盤管理系統中,圖書的元數據只有題名、著者、出版社、期等信息,沒有圖書簡介,也沒有圖書的相關內容,并且,在我們的傳統圖書館管理系統中也不提供讀者評論的平臺,而協同過濾推薦算法具有內容無關性,這種特性可以彌補我們傳統圖書館中的元數據十分單一的不足。
第二,目前,牡丹江醫學院圖書館的金盤集成管理系統大概擁有100萬條讀者借閱記錄,據統計每年產生10萬余條數據,這些借閱數據會越來越多,這些數據都會被圖書館管理系統記錄并保存下來,它們將會成為推薦系統進行推薦行為的數據來源,會及時更新我們對推薦系統的認知。
第三,便于隱式反饋數據的積累,在高校,讀者借閱日志的產生是圖書館管理系統自動生成的,無須讀者的任何協助行為,相比一般推薦系統中常用的需要用戶參與集中“評分數據”,更易獲取,同時,這種獲取方式不會給高校讀者帶來任何額外的負擔。
第四,讀者的借閱數據更能反映讀者的真實借閱需求。在高醫院校,讀者借閱數據是能夠真實地反映高校讀者需求的數據,雖然借閱行為是屬于用戶的“隱式反饋”行為,但這種數據相比在互聯網上記錄一個用戶是否讀過一篇新聞更具參考價值,可行度更高。
第五,盡量減少推薦系統的實現對現有圖書管理系統的影響。推薦系統的實現往往會對高校圖書館管理系統造成影響,這是我們擔憂的問題之一,同時我們也擔心推薦系統會泄露讀者的個人隱私,所以,如果我們的推薦是基于用戶借閱數據的,我們只需要按時導出我們需要的那一部分數據即可,對原有圖書館管理系統沒有任何其他的操作,不會對其造成任何影響。[4]
基于以上因素的考慮,及幾種推薦算法的優劣對比分析,本文提出了基于局部近鄰搜索的方法,即基于局部用戶數據的協同過濾推薦算法來構建圖書薦讀系統,該算法在協同過濾推薦算法的基礎上進行了改良創新,其基本思想是假設如果某些讀者同時喜歡某一專業或某一類別的圖書,那么他們對其他專業或類別的圖書的喜愛也比較相似,即評分相似,當然,這種算法尤其適合高校進行圖書推薦,原因在于高校由于其按專業進行劃分的這種特點,在挑選圖書時,相同專業的讀者往往會挑選相同或相似類別的圖書,因此我們在進行推薦方法設計時創新性地采用了讀者局部數據,即采用相同專業的讀者借閱數據來進行圖書推薦服務,這種方法區別于以往的利用全校讀者的借閱數據來發掘讀者潛在興趣的推薦模式,可以提供更為準確的圖書推薦服務[5]。
4 結 論
將推薦系統應用于圖書館領域,既能很好地滿足廣大師生的信息需求,同時也能夠通過這種主動推薦的模式幫助更多師生節省查找圖書資料的時間、提高工作學習效率,提高圖書館現有資源的利用率,節省讀者查找所需圖書資料的時間,為高校教學科研提供極大便利。目前,國內很少有成熟的推薦系統應用在高校圖書館領域,由于構建推薦系統的算法多種多樣,各具優勢,各大高校應該根據自己院校的特點進行選擇,適當創新,以促進推薦系統在未來高校圖書館中的發展應用。
參考文獻:
[1]張閃閃,黃鵬.高校圖書館圖書推薦系統中的稀疏性問題實證探析[J].大學圖書館學報,2014(6):47-53.
[2]艾磊,趙輝.基于知識的推薦系統用戶交互模型研究[J].軟件導刊,2015(3):15-17.
[3]吳玉春,龍小建.基于關聯規則的圖書借閱數據挖掘[J].江蘇科技信息,2016(1):12-14.
[4]董坤.基于協同過濾算法的高校圖書館圖書推薦系統研究[J].現代圖書情報技術,2011(11):44-47.
[5]張瑤.面向高校圖書館的推薦系統研究與實現[D].泉州:華僑大學,2013.