孫夢婷+袁小群
[摘 要] 通過分析2003年至2016年中國知網發表的“圖書情報與數字圖書館”領域關于協同過濾推薦的82篇文獻,總結我國學術數據庫協同過濾資源推薦的研究現狀。通過對文獻樣本進行分類,發現目前該領域的研究重點主要集中于對學術數據庫協同過濾推薦的推廣和對推薦算法本身的完善兩個方面,且后者主要集中于對數據稀疏性問題和可擴展性問題的解決。通過進一步分析,發現國內研究人員主要通過結合基于內容的推薦、空值填補和推薦結果融合三種方法緩解數據稀疏性問題;通過聚類的方法緩解可擴展性問題。
[關鍵詞] 學術數據庫 協同過濾 資源推薦
[中圖分類號] G230 [文獻標識碼] A [文章編號] 1009-5853 (2017) 04-0011-05
The Literature Review of Collaborative Filtering Recommendation in Chinese Academic Databases
Sun Mengting Yuan Xiaoqun
(School of Information Management, Wuhan University, Wuhan, 430072)
[Abstract] By studying 82 papers published in the CNKI from 2003 to 2016 on collaborative filtering of Information and Digital Library, we investigate the hottest topics of current and history on collaborative filtering of Information and Digital Library. By classifying these papers, we discover that domestic researchers are engaged in either propagating the collaborative filtering technique in academic databases or improving the algorithm, in which the main problems are data sparseness and extensibility. By analyzing the papers further, we discover that researchers prefer to combine the content-based recommend technique, custom data or different recommend results to solve the data sparseness problem, and turn to the clustering technique to solve the problem of extensibility.
[Key words] Academic database Collaborative filtering Information recommendation
1 引 言
近年來,學術資源數據庫出版的信息數量呈幾何增長,“信息超載”[1]現象越來越嚴重,“以用戶為中心”的互聯網理念要求出版商從不同的角度挖掘用戶的顯性及隱性需求,為用戶提供個性化信息服務,節約用戶的信息搜索成本。因此,如何利用互聯網技術高效精準地為用戶提供個性化信息服務,成為目前學術出版領域的研究重點之一。其中,協同過濾推薦技術就是解決這一問題的有效方法之一。近10年來,研究人員對如何完善協同過濾推薦技術以及如何將其應用于學術數據庫展開了大量工作,但相應的文獻總結較少。因此,本文通過分析2003年至2016中國知網發表的“圖書情報與數字圖書館”領域關于協同過濾推薦的82篇文獻,對我國學術數據庫協同過濾資源推薦研究進行詳細調研,旨在總結目前我國學術數據庫出版協同過濾資源推薦的研究情況和研究重點,厘清學術數據庫協同過濾的研究脈絡,為后續研究提供參考,以促進我國學術數據庫個性化信息服務的可持續發展。
2 協同過濾推薦
2.1 協同過濾概念
協同過濾推薦是目前最常見的推薦技術之一,廣泛應用于電子商務、電影網站、音樂社區等領域。“協同過濾”這一概念首先由戈德堡(Goldberg)等人提出[2],它基于如下假設:如果用戶對某些項目的評分相近,那么他們對其他項目的評分也會相近[3]。傳統的協同過濾推薦分為3個步驟:(1)建立用戶-項目評分矩陣;(2)尋找相似鄰;(3)對用戶未訪問的信息項目進行評分預測并產生推薦,預測和推薦的主要特征是[4]:(1)推薦的內容是相似用戶喜歡的項目,而非與用戶歷史偏好相似的項目;(2)計算的是用戶的相似度,而非推薦內容的相似性;(3)一個純粹的協同過濾系統并不分析所推薦項目的內容本身。顯然,與其他的個性化推薦技術相比,協同過濾通過抓取用戶之間的社會化聯系進行推薦,不僅適應互聯網時代人際聯系日益增強的趨勢,還回避了對領域知識、非結構化推薦項目等復雜因素的分析。這使得協同過濾推薦具有如下優勢:(1)可以發掘用戶的潛在需求;(2)適用范圍廣,無需考慮被推薦項目的內容;(3)回避了對復雜因素的分析,易于實現。
但由于只考慮人與人之間的相互推薦,協同過濾也存在如下缺陷:(1)數據稀疏性:用戶評分的項目數量過少導致用戶-項目評分矩陣的極度稀疏,對相似度的計算造成極大干擾;(2)冷啟動:新用戶進入推薦系統后,由于其尚未與系統產生交互,系統無法獲取偏好數據而導致推薦功能失效;(3)數據空間的可擴展性:系統的原始數據中除性別、年齡等數據的維度較小,其他如瀏覽、收藏、點擊等系統交互行為數據的維度都較大,對算法的運行效率和存儲空間提出了挑戰。
2.2 協同過濾對學術出版的意義
根據2015年10月發布的《2014年度中國出版業發展報告》,2014年我國數字出版營業收入為3387.7億元,同比增長33.4%,占全行業營業收入的17.0%,總體經濟規模超過出版物發行,位居行業第二。其中,互聯網期刊和電子書行業增長18.2%,增長速度遠高于新聞出版業的總體水平[5]。數字出版的蓬勃發展為學術數據庫領域的發展提供有力支持的同時,也對其資源服務的質量和效率提出了更高要求。因此,將協同過濾推薦技術應用于學術數據庫,創建智能化推薦系統,對促進學術數據庫個性化信息服務有著重要意義。
(1) 挖掘用戶潛在需求。相比于其他的出版類型,學術出版領域中用戶群體特征和規模相對穩定的特點,有助于提高協同過濾推薦的性能。協同過濾推薦通過挖掘用戶的顯性信息(如注冊信息、評分信息等)和隱性信息(如點擊、收藏、頁面停留時間等系統交互行為信息),刻畫用戶的需求偏好,根據相似用戶的信息行為挖掘和引導目標用戶的信息需求,以此發掘并適應用戶的潛在需求,提高學術數據庫的信息服務質量。
(2)提高學術資源利用率。隨著細分學科和跨專業學科的增加,學術數據庫信息資源呈幾何式海量增長,這導致用戶受到過多不相關信息的干擾,難以抓取真正有用的信息。協同過濾推薦充分利用用戶-項目的協同驅動,通過相似性分析將用戶與待推薦項目相匹配,高效精準地進行個性化信息服務,以此提高學術數據庫信息資源利用效率。
(3)擴展學術數據庫的知識服務功能。協同過濾推薦不僅可以為用戶提供需要的信息,推薦其需要但還未獲取的有用資源;還可以通過構建用戶偏好模型,結合相似用戶信息行為的協同驅動,挖掘用戶的潛在需求,擴展用戶獲取信息的范圍,使信息服務功能更加主動化和自動化,實現學術數據庫信息服務向知識服務的轉變。
2.3 協同過濾研究現狀
自1992年第一個推薦系統 Tapestry [6]提出以來,協同過濾推薦技術受到業界和學術界的廣泛關注。至今,該技術已經從最初的郵件過濾[7],推廣到新聞、電影[8]、電子商務、電子政務等社會各行各業。同時,學界的研究也從最初對協同過濾算法本身的完善,發展到當前結合多領域知識解決數據稀疏性等問題的研究[9-14]。
近年來,隨著機器學習、大數據和社會網絡的快速發展,學者們還通過結合機器學習技術等建立更精準的用戶偏好模型、協同過濾系統的性能評價指標研究、推薦結果解釋性研究等角度對協同過濾展開研究[15-16]。
3 我國學術出版領域協同過濾研究現狀
雖然目前協同過濾推薦技術已經較成熟,但在我國學術出版領域的運用尚處于實踐探索階段,缺乏系統研究。鑒于此,本文以中國最大的學術數據庫“中國知網”為對象,收集其中發表的2003年至2016年“圖書情報與數字圖書館”領域關于協同過濾推薦的82篇文章,并以這82篇文章為樣本,詳細調研我國學術出版關于協同過濾資源推薦的研究情況。結果表明,我國在該領域的研究仍比較薄弱。
3.1 協同過濾研究重點
在調研過程中,本文根據學術數據庫協同過濾資源推薦領域不同的研究重點,將82篇文獻分為以下幾類,如圖1所示:(1)推廣:介紹學術數據庫(學術出版)中協同過濾技術類文獻。(2)系統架構研究:構建以協同過濾推薦技術為核心的學術數據庫推薦系統。這類文獻主要是從系統架構角度研究如何將協同過濾技術應用于學術數據庫,往往不涉及具體的算法細節。(3)數據稀疏性問題研究:解決協同過濾推薦算法中存在的數據稀疏性問題。(4)可擴展性問題研究:解決協同過濾推薦算法中存在的可擴展性問題。(5)因子研究:為更精準地描述學術出版領域的用戶偏好,對用戶偏好影響因子進行研究。(6)其他:包括針對不同類型的協同過濾推薦技術進行性能比較,協同過濾推薦方法性能評價指標研究等。
由圖1可知,2003年至2016年協同過濾推薦在學術數據庫領域的研究不斷增加,尤其是在2007年至2016年10年間,研究成果增加明顯。由圖1可以看出,除2004年,每年均有推廣性的研究成果,且呈上升趨勢,說明將協同過濾推薦推廣至學術數據庫領域是一個研究熱點。但以推薦系統架構為主題的文獻數目較少且分布稀疏,也表明協同過濾推薦在學術數據庫中的實際應用還比較薄弱,推廣工作尚待加強。此外,圖1還表明另一個研究重點是對協同過濾推薦算法本身的完善,具體表現在近10年關于數據稀疏性問題、可擴展性問題和因子選擇問題的研究有所增加,其中對數據稀疏性問題的研究占了較大比重。
總體而言,目前學界在加強推廣學術數據庫協同過濾推薦技術的同時,重點研究算法的完善,且主要集中于數據稀疏性問題和可擴展性問題的研究。因此,下文將對這兩個研究重點分別進行論述。
3.2 數據稀疏性問題
數據稀疏性問題是指協同過濾推薦算法中,用戶評分的項目數量過少造成用戶-項目評分矩陣的極度稀疏,導致相似度計算不準確的問題。事實上,網站運行過程中項目數量龐大且不斷增加,而用戶通常只對少量項目進行評分,這導致用戶評分數據稀疏,進而影響協同過濾的推薦質量。
如圖2所示,本文將樣本文獻中解決數據稀疏性問題的方法總結為以下三種:(1)結合基于內容的推薦,占總樣本的67.5%;(2)空值填補,占總樣本的15.0%;(3)推薦結果融合,占總樣本的12.5%。
3.2.1 結合基于內容的推薦
結合基于內容的推薦方法[17]通過結合基于內容的推薦來豐富用戶的偏好信息,在改善協同過濾推薦對用戶評分信息過度依賴問題的同時,通過結合基于內容的推薦對用戶偏好進行更精準的描述,以此緩解數據稀疏性問題。
孔繁超[18]考慮用戶偏好隨時間變化的特性,在用戶-項目評分矩陣中引入時間維,并使用自組織映射技術對用戶信息進行聚類處理,根據用戶的需求行為將其劃分為不同的簇,降低數據稀疏性對信息推薦造成的影響。邱均平、張聰[19]同樣考慮時間因素,使用借閱時間計算用戶的偏好值,并輔助使用用戶評分對該值進行調整。周之誠[20]通過運用K-means算法,對資源類別意圖特征值相似的用戶進行聚類,以此提高推薦的實時性,緩解數據稀疏性問題。徐偉芬[21]依據中圖法對用戶興趣進行建模,并通過關聯規則算法挖掘信息資源各類別間的關聯,然后通過基于模糊C均值的聚類算法對用戶進行聚類,在得到用戶在各聚類中的隸屬度后計算用戶之間的相似度,從而得到目標用戶的最近鄰居集。畢強、劉健[22]以關聯語義鏈為基礎建立數字文獻資源的關聯語義鏈網絡, 計算數字文獻資源之間關聯的權重,然后將其引入皮爾森(Pearson)相關性公式中計算用戶相似度,以此預測評分并進行推薦。馬麗等人[23]為了體現用戶的多興趣特點,利用模糊聚類技術對用戶進行聚類,在得到用戶在各聚類中的隸屬度和各聚類的聚類中心后,為目標用戶尋找最近鄰居集。張付志等人[24]引入文本聚類技術,結合圖書資源的特征對同類資源進行聚類,使讀者評價過的資源集中到聚類生成的某一個或多個簇類文檔中,并在其中進行相似度計算。
3.2.2 空值填補
空值填補方法利用預測方法來填補用戶-項目評分矩陣中的缺失項,從而提高評分矩陣中的數據密度,緩解數據稀疏性問題。
李衛華等人[25]提出一種計算群體興趣偏向度的方法來預測用戶-項目評分矩陣中的空缺值。王代琳等人[26]通過計算用戶對項目評分之間的平均差異度來預測用戶對未評分項目的評分:通過計算兩個項目評分的平均比值得到兩個項目之間的平均差異度,并根據平均差異度來預測目標用戶對目標項目的評分。張閃閃等人[27]通過建立自動化評分規則來計算并填補評分矩陣中的缺失項。
3.2.3 推薦結果融合
推薦結果融合方法通過不同的方法計算用戶對項目的偏好,并將各計算結果融合以改善數據稀疏性問題。在本文的樣本集中,最常使用的推薦結果融合方法是將聚類算法和協同過濾算法相結合。
劉飛飛[28]提出一種能夠同時考慮用戶和項目之間相似性的協同過濾方法,即利用雙聚類技術對行和列同時進行聚類,同時完成用戶和項目的相似性分組。劉劍濤[29]通過計算相對點擊和評分差的海明距離得到每個用戶的候選鄰居集,結合多態相似度對鄰居集二次聚類,由最鄰近用戶預測當前用戶的需求度,選擇前N條生成推薦列表。劉如娟[30]通過統計每個用戶最常用的標簽,計算選中的標簽與全部資源的相似性,然后以標簽聚類作為橋梁,計算資源和用戶之間的相關度,并對結果進行線形加權,計算用戶對資源的興趣值,生成推薦列表。
對比以上三種方法,首先,結合基于內容的推薦方法通過引入內容描述信息刻畫用戶偏好,緩解了數據稀疏性問題,但由于引入基于內容的推薦方法,也存在受領域知識及非結構化的內容限制等缺陷。其次,空值填補方法利用用戶已有評分數據填充評分缺失值,具有直觀、操作簡單等優點,但空值填補本身是對評分缺失值的一種預測,預測偏差會對最后的推薦精度產生影響。最后,推薦結果融合方法將不同方法計算出的用戶偏好進行綜合,可以對高維稀疏的數據進行更加充分的挖掘,產生更高的推薦精度。同時,聚類、神經網絡等離線機器學習方法的引入還能夠改善推薦的運行效率和對海量數據的處理能力。但該方法也存在操作復雜、結果的可解釋性差以及需要考量不同技術間的融合機制等缺陷。
3.3 可擴展性問題
為了更精準地描述用戶偏好以提高推薦精度,協同過濾推薦中往往引入除評分以外的其他因子,加之實際運用過程中用戶和項目的信息數量通常可達到上百萬,協同過濾算法的可擴展性受到嚴峻挑戰,這也是目前學術數據庫協同過濾資源推薦領域的一個研究重點。在如何解決可擴展性這一問題方面,本文分析的82篇文獻樣本中多采用聚類的方法,如圖3所示,聚類方法占總樣本的69.2%。
張付志等人[31]將K-means技術和分層技術相結合對圖書資源進行聚類,縮小了近鄰搜索的范圍和需要預測的圖書資源數目。周之誠[32]同樣通過運用K-means算法對資源類別的意圖特征值相似用戶進行聚類,提高推薦的實時性。張玉霞[33]利用改進的粒子群優化算法對文獻進行聚類,使目標文獻的大部分鄰居實際上可以在目標文獻相似度最高的幾個聚類中找到。鄭麗姣[34]在進行協同過濾推薦之前,首先使用聚類對數據集進行降維處理。孫守義等人[35]利用模糊聚類技術對用戶進行聚類,在得到用戶在各聚類中的隸屬度和各聚類的聚類中心后,為目標用戶尋找最近鄰居集進行推薦。
除此以外,研究人員用于解決可擴展性問題的方法還包括引入神經網絡、矩陣壓縮、分類等。如周樸雄等人[36]采用反向傳播神經網絡對情境屬性向量進行處理,生成用戶在該情境下對閱讀項目的偏好程度。劉海鷗[37]使用MapReduce化的蟻群神經網絡權值訓練方法來訓練數據集。羅琳等人[38]利用稀疏向量的表示方法來表示輸入矩陣中的每個資源,以壓縮稀疏矩陣存儲。
4 總 結
作為個性化服務的重要手段,協同過濾推薦技術在為用戶提供有效信息、節約搜索成本等方面發揮著重要作用。本文通過文獻樣本分類,發現目前該領域的研究重點集中于學術數據庫協同過濾推薦的推廣和對推薦算法本身的完善上,且后者主要針對數據稀疏性問題和可擴展性問題的研究。通過研究趨勢分析和詳細論述,本文總結目前我國學術數據庫出版協同過濾資源推薦的研究情況和研究重點,旨在厘清該領域的研究脈絡,為后續研究提供參考。
注 釋
[1]Borchers A,Herlocker J,Konstan J,et al.Ganging up on Information Overload[J]. Computer,1998,31(4):
106-108
[2][6][7]Goldberg D,Nichols D,Oki B M,et al. Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12):61-70
[3][9]Breese J, Hecherman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C]. In: Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence (UAI98),1998,43-52
[4]毛穎,周源遠,王繼成,等.信息過濾技術研究[J].計算機科學,2003(8):10-12
[5]《中國出版年鑒》雜志社有限公司.中國出版年鑒[M].北京:《中國出版年鑒》雜志社有限公司,2015:449-452
[8]Resnick P, Iacovou N, Suchak M, Bergstrom P, Riedl J.GroupLens: An open architecture for collaborative filtering of netnews [C]. In: Proceedings of the ACM Conference on Computer Supported Cooperative Work.1994:175-186
[10]鄧愛林,朱楊勇,施伯樂.基于項目評分預測的協同過濾推薦算法[J].軟件學報,2003(9):1621-1628
[11]張鋒,常會友.使用BP神經網絡緩解協同過濾推薦算法的稀疏性問題[J].計算機研究與發展,2006(4):667-672
[12]吳湖,王永吉,王哲,等.兩階段聯合聚類協同過濾算法[J].軟件學報,2010(5):1042-1054
[13]吳顏,沈潔,顧天竺,等.協同過濾推薦系統中數據稀疏問題的解決[J].計算機應用研究,2007(6):94-97
[14][15][17]冷亞軍,陸青,梁昌勇.協同過濾推薦技術綜述[J].模式識別與人工智能,2014,27(8):720-734
[16]馬宏偉,張光衛,李鵬.協同過濾推薦算法綜述[J].小型微型計算機系統,2009(7):1282-1288
[18]孔繁超.個性化信息服務中用戶偏好的動態挖掘[J].情報理論與實踐,2009(6):111-113
[19]邱均平,張聰.高校圖書館館藏資源協同推薦系統研究[J].圖書情報工作,2013(22):132-137
[20][32]周之誠.用戶意圖聚類的數字資源推薦方法[J].情報理論與實踐,2011(6):116-119
[21]徐偉芬.基于模糊聚類的數字圖書館個性化推薦系統方案設計[J].價值工程,2013(6):174-176
[22]畢強,劉健.數字文獻資源內容服務推薦方法研究[J].現代圖書情報技術,2015(12):21-27,105
[23]馬麗.基于群體興趣偏向度的數字圖書館協同過濾技術研究[J].現代圖書情報技術,2007(10):19-22
[24][31]張付志,姜志英.一種基于聚類技術的數字圖書館個性化推薦算法[J].計算機應用與軟件,2008(7):84-85
[25]李衛華,盧雨民,梅紅.淺談數字圖書館個性化信息推薦系統[J].科技廣場,2007(9):109-110
[26]王代琳,劉亞秋,王真諦.基于平均差異度的數字圖書館個性化推薦算法研究[J].圖書情報工作,2009(11):119-122
[27]張閃閃,黃鵬.高校圖書館圖書推薦系統中的稀疏性問題實證探析[J].大學圖書館學報,2014(6):47-53
[28]劉飛飛.基于多目標優化雙聚類的數字圖書館協同過濾推薦系統[J].圖書情報工作,2011(7):111-113
[29]劉劍濤.個性化推薦系統中用戶多態聚類研究[J].現代圖書情報技術,2012(2):18-22
[30]劉如娟.基于標簽聚類與用戶模型的個性化推薦方法研究[J].現代情報,2016(6):74-78
[33]張玉霞.改進的個性化智能文獻推送方法在數字圖書館中的應用研究[J].情報理論與實踐,2012(7):92-95
[34]鄭麗姣.基于聚類的個性化圖書推薦技術研究[J].數字技術與應用,2015(4):100-100
[35]孫守義,王蔚.一種基于用戶聚類的協同過濾個性化圖書推薦系統[J].現代情報,2007(11):139-142
[36]周樸雄,張兵榮,趙龍文.基于BP神經網絡的情境化信息推薦服務研究[J].情報科學,2016(3):71-75
[37]劉海鷗.云環境用戶情境感知的移動服務QoS混合推薦[J].情報雜志,2016(4):183-189
[38]羅琳,梁桂生,蔡軍.基于分眾分類法的圖書館書目推薦系統[J].現代圖書情報技術,2014(4):14-19
(收稿日期:2016-10-23)