景民昌
(中國石油大學圖書館,北京 102249)
?
從ACM RecSys’2014國際會議看推薦系統的熱點和發展
景民昌
(中國石油大學圖書館,北京 102249)
美國計算機學會每年舉辦的RecSys年會是最重要的推薦系統國際會議之一,其內容體現了當前推薦系統研究的熱點和發展趨勢。本文分析RecSys’2014年會的論文內容和主題,從推薦系統的新應用、情景敏感推薦、冷啟動和混合推薦、安全和用戶隱私、推薦系統評估、多樣性和新穎性、推薦理論和方法、排序和Top-N推薦、矩陣分解等9個方面對會議進行綜述,總結當前推薦系統研究的特點,認為混合推薦是未來推薦系統研究的主要方向。
推薦系統;ACM RecSys;熱點主題
自1992年帕洛阿爾托研究中心的Tapestry系統[1]引入協同過濾的思想和概念以來,推薦系統日益引起人們的關注。推薦系統(RS:Recommender System)是能主動地發現用戶當前或潛在的信息需求,并主動推送信息給用戶的一種Web信息系統。在信息爆炸時代,推薦系統是解決用戶“信息過載”的一種有效手段,已被成功應用于電子商務、社交網絡、多媒體等眾多領域[2]。
由于推薦系統實際應用效果顯著,近年來國際學術界與其相關的研究極為活躍。推薦系統研究的頂級會議是美國計算機學會(ACM)每年舉辦的RecSys年會,該會議自2007年以來已在世界各地(美國、瑞士、西班牙、愛爾蘭、中國香港等)舉辦了8屆,并成為全球關于推薦系統研究最重要的交流渠道和把脈其最新進展的重要窗口。
最近一次ACM RecSys年會于2014年10月6~10日于美國硅谷(第8屆)舉辦,共收錄各國學者研究論文55篇,內容基本涵蓋了當前RS研究的主流領域,既有對傳統領域的深入探討,也有對新領域的探索;既有對實踐和技術的應用研究,也有推薦基本理論和方法的探析。本文逐一研讀了本次會議論文,并按照主題分類進行綜述,以期了解和掌握目前國際上推薦系統研究的熱點與發展趨勢,為國內推薦系統研究提供借鑒。
2014’RecSys年會論文按主題可分為9個方面:新應用、情景推薦、冷啟動推薦、安全和隱私、推薦系統評估、多樣性和新穎性、推薦方法和理論、排序和Top-N推薦、矩陣分解推薦方法等。
1.1 新應用
推薦系統產生于快速發展的互聯網環境中,與理論研究相比,商業化實踐更為人們所關注,歷次ACM RecSys會議都把實踐應用作為會議的重要主題之一。2014年會展示了推薦系統在兒童圖書推薦[3]、社交媒體[4-5]、學術論文同行評議[6]、MOOC[7]、數據挖掘流程設計[8]以及旅游指導、房屋租賃、健康顧問等諸多方面的應用。例如,Pera M S等[3]針對現有圖書推薦系統缺乏專門面向兒童閱讀推薦的功能缺陷,設計和開發了一個模擬圖書館讀者咨詢服務的圖書推薦系統(Rabbit),該系統不僅考慮了兒童讀者的閱讀能力,也考慮了圖書所包含的情感因素。Liu X等[6]通過在論文和評議專家之間構建關聯圖,開發了一個學術論文同行評議的專家推薦系統,增強了論文評議系統的功能。
1.2 情景敏感推薦
情景敏感推薦系統(CARS)是近幾年推薦系統研究的熱點[9]。情景也稱之為上下文(Context),指的是用戶模型中的額外信息(如位置、時間、天氣等),利用情景信息可以提高推薦系統的推薦精度。
本次會議的一些論文在推薦系統適應動態情景方面做了深入研究。如,Hariri N等[10]開發了一個交互式推薦系統,系統根據用戶行為動態地適應情景變化,匹配用戶最近的興趣喜好,為其生成更合適的推薦結果,系統的獨特之處是包含了一個“情景變化偵測器”,負責探測用戶行為的變化,一旦檢測到有重大改變時,推薦系統就優先采用用戶最新行為信息來重建情景模型。而Braunhofer M等[11]則通過在系統中設置“情景開關”的方法解決推薦系統的情景適應性問題。
1.3 冷啟動推薦
由于推薦系統中的新用戶(或新項目)的評分數據稀少,系統很難為其產生推薦,這就是所謂的冷啟動推薦問題。在基于協同過濾和基于矩陣分解的推薦算法中,冷啟動問題尤其嚴重。
冷啟動問題通常采用混合推薦方法或融合其他數據源來解決。如,混合內容過濾方法和協同過濾方法[12-13]、融合用戶評論與評分數據[14]、在協同過濾算法中引入用戶的人口統計學信息(如性別、年齡、位置等)以及社會網絡信息(如Facebook好友關系、空間主頁等)[15]、利用Web日志信息中的用戶瀏覽路徑[16]等。
另外,動態情景敏感策略也有助于解決冷啟動問題,如,Tang L等[17]提出對不同情景策略進行組合,在多種預設情景上層構建“元情景”(Meta-Context),“元情景”根據新用戶與推薦系統交互產生的反饋信息,選擇相對合適的情景為新用戶推薦其感興趣的網頁,該方法在原理上類似于元搜索引擎。而Braunhofer M等[11]在不同的情景算法中設置“情景開關”,當系統偵測到不同的冷啟動情景時(如新用戶或新項目),則會轉換到適宜的算法。
1.4 安全和隱私
推薦系統是可以帶來實在經濟效益的。正因如此,其可能受到惡意攻擊并不為奇,安全和隱私是每一屆會議的主要議題之一。
Seminario C E等[18]從攻擊者的角度,提出了“強項目”攻擊模型(PIA),并通過實驗模擬,證明PIA不僅可以成功攻擊基于SVD和基于用戶的協同推薦系統,也可以成功攻擊基于項目的協同過濾推薦系統,研究結果為推薦系統的攻擊檢測提供指導。Bhagat S等[19]研究了用戶隱私的“善意”挖掘方法,設計了一個基于矩陣分解的貝葉斯分類器,僅根據少量的評分數據就能推測用戶的二元屬性信息(如類別,性別等),從而為推薦系統構建用戶興趣模型提供輔助信息。
1.5 推薦系統評估
由于設計目標、實施算法、評價策略等方面不同,且一些場合可能還需要人工參與,推薦系統目前尚沒有一個公認的標準對其真實效果和作用進行評估。本次年會,Said A等[20]在相同的評價環境下對不同的推薦算法作了對比,提出了一個評估推薦系統的指標體系。Yi X等[21]利用用戶在網頁上的停留時間來量化評估用戶對網頁的興趣度,提出如何對不同設備和情景下的停留時間進行標準化處理的方法。
推薦系統評估也包括對用戶評分真實性的評估。Krishnan S等[22]研究了社會影響偏見(SIB)對用戶真實評分的影響,提出在推薦系統中設置學習、分析、緩解3個階段來降低SIB效應。
1.6 推薦多樣性和新穎性
多樣性是從推薦系統角度看RS的一種特性,即盡可能使全部或大多數項目都得到推薦,而不只局限于少數項目;新穎性是從用戶角度看RS的一種特性,即推薦結果對用戶來說應該是新奇而又感興趣的。
Vargas S等[23]從推薦任務的反方向思考,通過將用戶推薦給項目的方式,增強商品推薦的銷售多樣性。Adamopoulos P等[24]在協同過濾近鄰選擇過程中,考慮目標用戶和候選近鄰的相似級別,確定k近鄰的權重,從而提高推薦結果的多樣性。Ekstrand M D等[25]通過用戶實驗研究了用戶對推薦結果的滿意度和新穎性、多樣性之間的相關關系。Noia T D等[26]根據項目的內容屬性計算多樣性,將推薦算法生成的Top-N結果重新進行計算排序,以增強推薦結果的多樣性。
另外,Vargas S等[27]發現,推薦項目的類別(如電影分類、圖書類別、音樂類別等)屬性也可以用來增強推薦系統的多樣性。
1.7 推薦方法和理論
推薦系統研究雖然已取得了豐碩成果,但是仍有許多問題需要進一步研究。本次會議在推薦新算法的設計和傳統算法的改進[28-29]、用戶興趣建模[30]、信任推薦[31-32]等方面都有新的研究成果展示。
另外,會議在跨域推薦、群組推薦方面也有一些和以往經驗不同的新發現。如,大部分推薦算法都假設評分矩陣中的缺失值是隨機分布的,而Kim Y D等[33]認為實際情況并非如此,缺失數據的分布其實是依賴于用戶、項目以及評分值的,并提出一個貝葉斯兩項式混合模型,利用非隨機分布的評分數據預測用戶評分。跨域推薦可以在源RS和目標RS之間共享推薦信息,Cremonesi P等[34]研究了跨域推薦的數據特征后,認為所謂的密碼本傳遞方法(CBT)并不能在沒有重疊項目(或用戶)的源域和目標域之間實現跨域推薦。
1.8 排序和Top-N推薦
推薦結果以何種方式展示給用戶非常重要,其中,推薦列表的排序、推薦數量的確定是兩個主要的研究內容。Vanchinathan H P等[35]利用用戶或項目之間的相似度解決推薦列表的排序問題。Gueye M等[36]設計了一個無參數的優化標簽列表大小的算法,本質是通過舍棄一些不相關的標簽來提高推薦精度和效率。Naamani-Dery L等[37]采用迭代算法啟發用戶興趣,來縮小群組推薦的Top-N列表規模。而Liu X等[38]則通過線上、線下組件分別計算新、老項目的影響力,為用戶生成Top-N推薦。
1.9 矩陣分解推薦方法
矩陣分解是當前最有效的推薦算法之一。矩陣分解過程中,計算項目的得分并排序是一個非常耗時的過程,會議的一些論文在如何提高算法的計算效率和可擴展性方面提出了新的方法和思路[39-40]。
在矩陣分解算法中如何引入其它信息(如情景、信任等),也是矩陣分解推薦方法的研究重點。分解機(Factorization Machine)和情景特征的結合[41-42],時間維度[43]、評分聚類[44]、隱式信任關系[45]等在矩陣分解推薦算法中的應用在本次會議中都有成果展示。
另外,也有論文研究了矩陣分解推薦算法在一般概率分布上的應用,從而拓展了矩陣分解推薦算法的應用范圍[46]。
ACM RecSys是國際上推薦系統研究的頂級會議,其研究內容理所當然地反映著推薦系統的前沿和熱點。綜合來看,2014年推薦系統研究具有“新”、“深”、“合”的特點。
2.1 “新”:新技術、新應用、新發現不斷出現
2014年ACM RecSys年會最大的特點是“新”,各種新技術、新發現、新應用不斷出現。例如,組合情景策略解決冷啟動問題[17]、“強項目”攻擊模型[18]、用戶評分SIB的緩解方法[22]、用戶自生成分類的推薦方法[30]等都是較新的技術;評分矩陣的缺失值并非隨機分布[33]、CBT方法在跨域推薦的缺陷性[34]等也是會議的新發現;而新應用更是會議的重點,推薦系統從來就是一個實踐性很強的領域,正是因為其在眾多行業,如電子商務、新聞、音樂、電影、Apps的應用收到了實際效益,才被研究人員們廣為關注。本次年會除了對一些傳統的推薦應用有進一步的深入研究外,也出現了許多新應用,如MOOC中的問題推薦[7]、社交網絡上的好友推薦[5]和專業技能標簽推薦[4]、學術論文同行評議的專家推薦[6]、數據挖掘流程設計的操作符推薦[8]等。
2.2 “深”:推薦理論和方法不斷深入
推薦系統研究發展至今,已取得了非常豐碩的成果,理論基礎和技術體系逐漸成形,研究已不再局限于基礎問題和淺層問題的探討,而是已深入到推薦系統研究所涉及的方方面面。如,雖然情景敏感推薦方法、矩陣分解推薦方法仍是非常熱門的研究領域,但是研究已不再是方法的簡單介紹和粗淺應用,而是已深入到了推薦方法的細節研究。例如,設計“情景變化偵測器”探測用戶興趣的重大變化[10]、“元情景”解決用戶冷啟動問題[17]、一般概率分布上的矩陣分解方法[46]等都是對推薦方法非常深入的探討。
2.3 “合”:推薦算法不斷混合,推薦數據源不斷融合
各種推薦方法都有其優、缺點,單一方法無法解決推薦系統的所有問題,其研究越來越趨向組合不同技術實現混合推薦。大量的混合推薦方法研究出現于本次年會論文中,例如,內容過濾和協同過濾的混合[12-13]、基于項目和基于用戶的協同過濾算法的混合[28]、情景敏感和矩陣分解推薦算法的混合[7,41-43]、多種情景算法的混合[17]、線上和線下推薦方法的混合[38]等。
經典推薦系統利用的數據源只有用戶的評分數據,然而由于評分數據的稀疏性降低了推薦系統的精確度,一些研究人員開始考慮將其它信息源引入到推薦系統,與評分數據融合來提高推薦精度。如,評分數據和評論文本的融合[14]、評分數據和用戶其它信息(人口學、社交網絡)的融合[15]、評分數據和項目類別的融合[27,30]等。
本文從推薦系統的重要國際會議ACM RecSys角度,分析了當前推薦系統研究的熱點和發展趨勢,認為當前國際上的推薦系統研究無論是理論基礎、還是實踐應用都已經取得了非常多的成果,而基于多種方法混合、多種數據源融合的混合推薦將是未來推薦系統研究的主要方向。
另外,值得注意的是,從55篇年會論文的來源國家看,歐美國家占了絕大部分,而我國僅有香港地區2篇論文被會議接收,反映出我國(尤其是大陸地區)對該會議尚不夠重視或研究實力稍遜。鑒于該會議在推薦系統研究領域的重要程度,建議我國學者加強對該會議的了解和參與力度。
致謝:本文在寫作過程中得到河北經貿大學孫潔麗教授的指導意見,在此謹表謝意。
[1]Goldberg D,Nichols D,Oki B M,et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12):61-70.
[2]Jannach D,Zanker M,Felfernig A,et al.推薦系統[M].蔣凡,譯.北京:人民郵電出版社,2013.
[3]Pera M S,Ng Y K.Automating Readers’ Advisory to Make Book Recommendations for K-12 Readers[C].ACM RecSys’2014會議論文,9-16.
[4]Bastian M,Hayes M,Vaughan W,et al.Skills:Large-Scale Topic Extraction and Inference[C].ACM RecSys’2014會議論文,1-8.
[5]Yuan G C,Murukannaiah P K.,Zhang Z,et al.Exploiting Sentiment Homophily for Link Prediction[C].ACM RecSys’2014會議論文,17-24.
[6]Liu X,Suel T,Memon N.A Robust Model for Paper Reviewer Assignment[C].ACM RecSys’2014會議論文,25-32.
[7]Yang D Y,Adamson D,Rosé C P.Question recommendation with constraints for massive open online courses[C].ACM RecSys’2014會議論文,49-56.
[8]Jannach D,Fischer S.Recommendation-based Modeling Support for Data Mining Processes[C].ACM RecSys’2014會議論文,337-340.
[9]Adomavicius G,Tuzhilin A.Context-aware recommender systems[C].ACM RecSys’2008:335-336.
[10]Hariri N,Mobasher B,Burke R.Context adaptation in interactive recommender systems[C].ACM RecSys’2014會議論文,40-48.
[11]Braunhofer M,Codina V,Ricci F.Switching hybrid for cold-starting context-aware recommender systems[C].ACM RecSys’2014會議論文,349-352.
[12]Saveski M,Mantrach A.Item cold-start recommendations:learning local collective embeddings[C].ACM RecSys’2014會議論文,89-96.
[13]Liu H S,Goyal A,Walker T,et al.Improving the discriminative power of inferred content information using segmented virtual profile[C].ACM RecSys’2014會議論文,97-104.
[14]Ling G,Lyu M R.,King I.Ratings meet reviews,a combined approach to recommend[C].ACM RecSys’2014會議論文,105-112.
[15]Sedhain S,Sanner S,Braziunas D,et al.Social collaborative filtering for cold-start recommendations[C].ACM RecSys’2014會議論文,345-348.
[16]Trevisiol M,Aiello L M,Schifanella R,et al.Cold-start news recommendation with domain-dependent browse graph[C].ACM RecSys’2014會議論文,81-88.
[17]Tang L,Jiang Y,Li L,et al.Ensemble contextual bandits for personalized recommendation[C].ACM RecSys’2014會議論文,73-80.
[18]Seminario C E,Wilson D C.Attacking item-based recommender systems with power items[C].ACM RecSys’2014會議論文,57-64.
[19]Bhagat S,Weinsberg U,Ioannidis S,et al.Recommending with an agenda:active learning of private attributes using matrix factorization[C].ACM RecSys’2014會議論文,65-82.
[20]Said A,Bellogín A.Comparative recommender system evaluation:benchmarking recommendation frameworks[C].ACM RecSys’2014會議論文,129-136.
[21]Yi X,Hong L J,Zhong E H,et al.Beyond clicks:dwell time for personalization[C].ACM RecSys’2014會議論文,113-120.
[22]Krishnan S,Patel J,Franklin M J.,et al.A methodology for learning,analyzing,and mitigating social influence bias in recommender systems[C].ACM RecSys’2014會議論文,137-144.
[23]Vargas S,Castells P.Improving sales diversity by recommending users to items[C].ACM RecSys’2014會議論文,145-152.
[24]Adamopoulos P,Tuzhilin A.On over-specialization and concentration bias of recommendations:probabilistic neighborhood selection in collaborative filtering systems[C].ACM RecSys’2014會議論文,153-160.
[25]Ekstrand M D,Harper F M,Willemsen M C,et al.User perception of differences in recommender algorithms[C].ACM RecSys’2014會議論文,161-168.
[26]Noia T D,Ostuni V C,Rosati J,et al.An analysis of users’ propensity toward diversity in recommendations[C].ACM RecSys’2014會議論文,285-288.
[27]Vargas S,Baltrunas L,Karatzoglou A,et al.Coverage,Redundancy and Size-Awareness in Genre Diversity for Recommender Systems[C].ACM RecSys’2014會議論文,209-216.
[28]Verstrepen K,Goethals B.Unifying nearest neighbors collaborative filtering[C].ACM RecSys’2014會議論文,177-184.
[29]Pedro J S,Karatzoglou A.Question recommendation for collaborative question answering systems with RankSLDA[C].ACM RecSys’2014會議論文,193-200.
[30]Liu Y D,Xie M,Lakshmanan V S L.Recommending user generated item lists[C].ACM RecSys’2014會議論文,185-192.
[31]Jason L.Harman,Tarek Abdelzaher.Dynamics of Human Trust in Recommender Systems[C].ACM RecSys’2014會議論文,305-308.
[32]Parantapa Bhattacharya,Muhammad Bilal Zafar,Niloy Ganguly,et al.Inferring User Interests in the Twitter Social Network[C].ACM RecSys’2014會議論文,357-360.
[33]Kim Y D,Choi S.Bayesian binomial mixture model for collaborative prediction with non-random missing data [C].ACM RecSys’2014會議論文,201-208.
[34]Cremonesi P,Quadrana M.Cross-domain Recommendations without Overlapping Data:Myth or Reality?[C].ACM RecSys’2014會議論文,297-300.
[35]Vanchinathan H P,Nikolic I,Bona F D,et al.Explore-exploit in top-N recommender systems via Gaussian processes[C].ACM RecSys’2014會議論文,225-232.
[36]Gueye M,Abdessalem T,Naacke H.A parameter-free algorithm for an optimized tag recommendation list size[C].ACM RecSys’2014會議論文,233-240.
[37]Naamani-Dery L,Kalech M,Rokach L,et al.Preference Elicitation for Narrowing the Recommended List for Groups[C].ACM RecSys’2014會議論文,333-336.
[38]Liu X,Aberer K.Towards a dynamic top-N recommendation framework[C].ACM RecSys’2014會議論文,217-224.
[39]Petroni F,Querzoni L.GASGD:stochastic gradient descent for distributed asynchronous matrix completion via graph partitioning[C].ACM RecSys’2014會議論文,241-248.
[40]Bachrach Y,Finkelstein Y,Gilad-Bachrach R,et al.Speeding up the Xbox recommender system using a euclidean transformation for inner-product spaces[C].ACM RecSys’2014會議論文,257-264.
[41]Cheng C,Xia F,Zhang T,et al.Gradient boosting factorization machines[C].ACM RecSys’2014會議論文,265-272.
[42]Zheng Y,Mobasher B,Burke R.CSLIM: Contextual SLIM Recommendation Algorithms[C].ACM RecSys’2014會議論文,301-304.
[43]Pálovics R,Benczúr A A.,Kocsis L,et al.Exploiting temporal influence in online recommendation[C].ACM RecSys’2014會議論文,273-280.
[44]Loni B,Said A,Larson M,et al.Free Lunch’ Enhancement for Collaborative Filtering with Factorization Machines[C].ACM RecSys’2014會議論文,281-284.
[45]Fazeli S,Loni B,Bellogin A,et al.Implicit vs.Explicit Trust in Social Matrix Factorization[C].ACM RecSys’2014會議論文,317-320.
[46]Bauer J,Nanopoulos A.A framework for matrix factorization based on general distributions[C].ACM RecSys’2014會議論文,249-256.
(本文責任編輯:馬 卓)
Hot Topics and Trends of Recommender System Research:A Review on ACM RecSys’2014 Annual Meeting
Jing Minchang
(Library,China University of Petroleum,Beijing 102249,China)
The ACM RecSys annual meeting is a highlight of recommender system.The accepted papers in ACM RecSys’2014 were analyzed and divided into 9 hot topics:novel applications,context-ware,cold start & hybrid recommenders,privacy & security,metrics & evaluation,diversity & novelty,recommendation methods & theory,ranking & top-n recommendation and matrix factorization.The characteristic of current research of RS was summarized as three representational words:new,deep and hybrid.The paper throught that hybrid recommender was the main direction of future research of RS.
recommender system;ACM RecSys;hot topics
2014-12-29
中國石油大學教學改革項目(項目編號:2013B27)。
景民昌(1972-),男,技術部主任,副研究館員,研究方向:Web信息管理技術與信息系統,發表論文30余篇。
10.3969/j.issn.1008-0821.2015.04.009
TP311
A
1008-0821(2015)04-0041-05