蔡崇超 許華虎

摘要:近年來,基于社交網絡的推薦系統隨著社交媒體和大數據的蓬勃發展,逐漸成為推薦系統重點研究方向。將社交網絡用戶社會化屬性信息和評論內容與深度學習等技術結合,可有效解決傳統推薦系統數據稀疏和冷啟動等問題。首先回顧傳統推薦系統常用方法,介紹社交網絡推薦系統主要流程和基本框架,然后介紹最新相關研究方向和應用情況,最后對基于社交網絡的推薦系統發展趨勢進行分析與展望。
關鍵詞:推薦系統;社交網絡;深度學習;矩陣分解;協同過濾
DOI: 10. 11907/rjdk.192186
開放科學(資源服務)標識碼(OSID):
中圖分類號:TP301
文獻標識碼:A
文章編號:1672-7800(2020)001-0046-04
0 引言
隨著移動互聯網的發展,大眾社交方式不斷變化,以微博為代表的社交媒體扮演了越來越重要的角色,作為一種弱關系社交網絡,其重要特點是信息快速傳播與分享。2018年底,新浪活躍用戶達3.92億,用戶在使用社交網絡的過程中產生了大量數據,由于數據量龐大,用戶很難快速定位到感興趣的信息,因此如何從海量數據中挖掘出用戶真正感興趣的內容成為業界關注焦點。
針對互聯網出現信息過載的問題,推薦系統根據用戶訪問信息、關注內容等進行綜合判斷,從而在新聞、影視等領域向個人提供信息推薦。用戶可加速融入社區,社交網絡可基于推薦內容形成社區,增強社交網絡粘性,繼而提高產品打開率。
1 傳統推薦系統研究現狀
協同過濾算法是推薦系統經典算法[1-3],早在20世紀已引起學者諸多討論,隨著亞馬遜、Netflix等互聯網巨頭崛起,推薦算法在工業界的應用也越來越廣泛。推薦算法利用用戶與項目之間的二元關系,基于用戶歷史行為記錄發現用戶可能感興趣的項目。
1.1 協同過濾推薦算法
協同過濾推薦算法分為兩種,即基于用戶的方法與基于模型的推薦方法。其中基于用戶的算法通過計算用戶之間的相似度[4],找到與目標用戶最相似的用戶進行預測。如李琳等[5]將評分矩陣和評論文本相融合提高推薦質量?;谀P偷耐扑]方法首先利用評分數據估計模型參數,然后利用已訓練好的模型對評價進行預測。常用的數學模型包括貝葉斯網絡模型、隱語義模型、潛在因子矩陣模型、基于概率的矩陣分解方法等[6-9]。
1.2 基于內容的推薦算法
基于內容的推薦系統將評分與評論結合,通過對用戶發表的內容評論進行用戶偏好性估計,進而提高推薦系統準確率。Ganu等[10]發現社交網絡中不同的評論文本包含不同層面信息,對針對用戶和內容在不同層面上互相權衡從而產生評分的過程進行了研究,并將評論文本的情感分析加入推薦系統提高預測精度[11-12]。
1.3 混合推薦算法
混合推薦算法以一種算法為基礎,同時融合另一種推薦算法。Wang等[13]通過融合用戶信任度與評分相似性,提出一種新的推薦算法。隨著社交網絡的崛起,用戶產生的數據不再局限于內容。用戶社會關系、位置信息、標簽等數據均可作為推薦系統模型參數,由此產生了基于社交網絡和情景感知的推薦方法。
1.4 基于項目的推薦算法
基于項目的過濾推薦算法可有效緩解數據稀疏情況,首先計算項目之間的相關性,然后根據項目相似性估計用戶對未評分項目的評分分數,在該過程中利用相似性度量方法計算目標用戶的最近鄰居[14-15j。
1.5 傳統推薦算法面臨的問題
傳統推薦算法在初期主要用于電子商務商品推薦,如亞馬遜、阿里巴巴、京東、百度等互聯網公司通過分析用戶購買行為和購物喜好等內容為用戶推薦相關聯的產品。隨著Facebook、微博、twitter等社交媒體的興起,推薦內容不再局限于商品,而需綜合考慮,將傳統推薦技術應用于社交網絡時往往出現3個問題:①冷啟動問題。在傳統的電子商務信息系統中,用戶對商品的評分十分關鍵,但在社交網絡中,不存在顯式的打分系統,因此社交網絡推薦系統存在冷啟動問題;②數據稀疏問題。對于大規模社交網絡,注冊用戶數量、內容信息量往往是天文數字,若利用U ser-ltem協同過濾算法,則該矩陣數據量非常龐大,在這個數據量級上進行協同過濾計算效果往往不盡如人意;③傳統推薦需在訓練集上構建大規模用戶特征模型,這往往導致訓練時間長、計算復雜性高。
2 基于社交網絡的推薦系統
推薦系統最初主要是幫助電子商務網站向客戶提供商品信息和建議,使得用戶在決定購買哪些商品時,由其協助客戶完成購買流程。社會化推薦系統則不然,社會化推薦系統是網絡發展到一定程度的必然。首先是推薦對象不同,基于社交網絡的推薦系統將用戶社會關系、位置關系、情感分析等主觀內容作為重要的影響因子引入推薦系統,從而使得基于社會化推薦系統和傳統推薦系統在特征信息出現很大不同;其次目的不同,社會化推薦系統不再單純地推薦商品、電影、餐飲信息,還在推薦中覆蓋了社團、立場信息、情感網絡等更加主觀的內容。由于推薦系統特征變量與推薦內容均發生了變化,所以推薦系統的相關方法也發生了變化。
基于社交網絡的推薦系統研究是社會化網絡理論中一個重點研究領域[16],主要集中在推薦用戶、推薦內容、推薦社區3個大方向。
針對社交網絡推薦系統的研究積累了豐碩成果,大致可分為3種:推薦用戶、推薦內容、推薦社區。整體流程為:
(1)數據采集。通過爬蟲或系統提供的API采集數據,包括用戶基本信息(位置,學歷,性別,年齡等)、用戶和用戶之間的關注信息、用戶和內容之間的關系、用戶和社區之間的連接信息、用戶和話題之間的關注信息。
(2)構建評分矩陣。為解決推薦系統冷啟動的問題,可以構建用戶一用戶之間的評分矩陣、用戶一項目之間的評分矩陣。
(3)根據社交網絡推薦系統特性,采用深度學習、影響力模型等多種技術生成推薦結果。社交網絡基本推薦流程如圖1所示。
3 常用社會化推薦技術
社會化推薦系統生成技術在原有推薦技術的基礎上深度融合了用戶社會化信息進行系統推薦,本部分介紹目前推薦效果較好的社會化推薦技術。
3.1 基于注意力機制的社交網絡推薦算法
傳統社交網絡推薦算法更重視用戶選擇,如用戶打分高低,忽視了用戶關注點及注意力。因此Sarwar等[14]提出了一種同時考慮用戶注意力與喜好的概率模型HTPF,通過將該理論應用在4個數據集上發現,在社交網絡推薦系統中,用戶社交關系往往扮演著比用戶內容喜好更重要的角色,HTPF模型研究人員在構建模型的過程中將4個變量作為參數,分別是用戶活躍程度、用戶打分習慣、用戶影響力與內容質量。
在社交網絡中,用戶發布的內容主題隨時間發生變化。如Song等[18]構造了一種基于動態注意力圖的神經網絡模型,利用RNN動態描述用戶行為,基于注意力圖的神經網絡算法根據用戶當前感興趣的內容形成用戶影響力。該方法首先根據用戶當前興趣學習用戶表現形式,通過注意力機制、利用圖神經網絡將用戶表現形式和其他用戶表現形式進行融合,將組合表現形式用于內容推薦系統,以此提高推薦系統性能;Sun等[19]提出了基于RNN的ARSE模型,該研究認為用戶喜好是由其發布內容的動態關注點與靜態關注點共同決定的,因此分別構建了兩個基于RNN的注意力機制神經網絡模型。
3.2 基于深度學習的社交網絡推薦方法
在傳統基于社交網絡的推薦系統中,需考慮用戶與內容、用戶與用戶兩個矩陣之間的關系。由于用戶在社交網絡中往往有多種特征,如用戶標簽、用戶位置、用戶不同時間段發布的不同主題內容,因此在整個訓練過程中,很難用一個統一矩陣表示用戶與內容之間的關系。Fan等[20]提出的深層對抗社交推薦系統( Deep Adversarial Social Rec-ommender Svstem)引入深度學習中的對抗網絡模型概念,通過引入一個雙向映射方法在社交信息和內容信息之間進行信息轉移,利用對抗性學習動態生成“困難”的負樣本,了解兩個域之間的雙向映射,最終得到更好的用戶與項目表示。
在推薦系統的研究中,數據稀疏性始終是一個共性問題,Pan等[21]通過深度學習中的降噪自動編碼機(DAE)解決該問題,通過構建一個基于信任感知的協同去噪自動編碼器(Trust-aware Collaborative Denoising Auto Encoder,TDAE),利用評分矩陣與用戶信任關系進行深度學習,利用兩個疊加去噪自動編碼器從評級和信任數據中學習高階相關性。實驗結果表明該方法可有效改善數據稀疏性問題。
3.3 跨領域推薦系統
彭艦等[22]指出在線社交網絡跨平臺推薦可以有效緩解冷啟動問題。本文通過引入邏輯回歸思想,融合多平臺用戶特征,將用戶在各平臺推薦結果進行擬合,并通過微博和知乎兩個平臺進行測試。
目前在交叉領域推薦系統的研究中,往往認為用戶是全覆蓋的,在實驗過程中,該假設被證實是不現實的。因此Wang等[23]提出了一種新的方法Neural Social Collabora-tive Ranking(NSCR),該方法無縫集成用戶一信息域和用戶一用戶域,通過引入部分重疊用戶(bridge users),將兩個領域的信息進行融合形成交叉領域,從而提升推薦系統性能。同時,該系統也有局限性。首先信息領域較為單一,在實驗過程中僅以旅游網站點評信息作為數據源;其次社交領域數據較依賴Facebook和Twitter平臺,并不具有普適性。但是該文提出的方法為相關研究提供了很好的研究思路。
3.4 基于矩陣分解的社交網絡推薦系統
在社交網絡領域,研究人員往往針對某一件商品或某一個話題構建用戶一主題矩陣,由于數據量較為龐大,因此該類矩陣往往面臨數據稀疏性問題。
通過矩陣分解技術,可將用戶一主題評分矩陣分解為用戶潛在因子矩陣與主題潛在因子矩陣,通過計算兩者內積得到用戶對主題的預測評分值。首先通過矩陣分解將評分矩陣R分解為兩個低維用戶特征矩陣P與主題特征矩陣Q的乘積,分別將用戶與主題潛在因子矩陣表示為pi、qj,通過計算所得的內積pigj可反映出用戶與主題之間的相互作用,從而用于預測缺失評分。
Curini等[4]在傳統矩陣分解模型的基礎上,通過融合用戶發布內容主題的情感傾向( Sentiment)、主題數量(Vol-ume)、主題內容客觀程度(Objective),提出了基于SVO模型的用戶推薦算法。該算法引入SVO模型構造用戶一主題評分矩陣,解決了社交網絡中用戶無法對主題內容進行打分的問題。在準確率、多樣性、新穎性和覆蓋率4個方面與傳統推薦算法進行對比,證明該方法效果更佳。
3.5 社交網絡推薦算法在不同領域的應用
Jiang等[24]列舉出了社交網絡推薦研究進展:①社交網絡中各個領域都是相關聯的,包括信息領域、用戶領域、社交領域;②信息領域分布是不均勻的;③社交網絡數據存在稀疏性問題;④社交領域的內容不斷發生變化。
為解決數據稀疏等問題,本文綜合考慮社交網絡的多特征特點,如用戶標簽、位置信息等影響因子,將其加入到社交網絡中,并提出了一種基于遷移學習的跨領域推薦算法( Hvbrid Random Walk,HRW),進行領域知識學習。
楊曉夫等[25]提出了一種基于電子病歷的醫生推薦模型。該模型以電子病歷作為研究對象,將樸素貝葉斯模型作為分類器,根據電子病歷中的診斷、癥狀等信息構建醫生一疾病矩陣與疾病一患者矩陣。實驗結果表明,該醫生推薦模型可提升患者就醫感受,提高傳統電子病歷系統應用價值。
馮永等[26]提出一種融合社交因素與評論文本卷積網絡的汽車推薦模型(SCTCMAR)。該模型首先引入偏好相似度計算模型,然后構建卷積神經網絡學習社交網絡中的汽車評論文本隱特征,并采用矩陣分解技術進行模型計算,最終完成推薦模型構建。
4 基于社交網絡的推薦系統研究展望
社交網絡的蓬勃發展為推薦系統的研究提供了發展方向與前進動力,同時作為推薦領域較為新穎的發展方向,也面臨著許多挑戰。
(1)基于不同社交網絡的跨領域融合。社交網絡平臺規模在變大,但數量在變小。用戶在不同社交網絡平臺上發布的信息種類繁多,如餐飲類、影視點評類、購物類、在線視頻類等信息。國內互聯網公司由于產品線眾多,如果可通過深度學習等技術構建深度學習模型,實現跨領域信息融合,將同一個公司不同領域和平臺的數據進行統一處理,可有效解決推薦系統常見的冷啟動問題。
(2)深度學習技術與基于注意力機制的融合發展。目前基于注意力機制的深度學習技術在計算機視覺等領域取得了巨大成功,利用注意力機制分析社交媒體用戶關系網絡的研究也取得了極大進展,因此將注意力機制與基于社交網絡的推薦系統融合是下一步技術發展突破口。
(3)現有方法與其它技術的融合。人工智能技術發展迅速,傳統推薦方法具有可解釋性、簡單等優勢,如何利用深度學習技術進一步挖掘社會化推薦系統中用戶之間的關系、用戶與內容之間的關系、社群之間的關系,構建更加有效的深層神經網絡模型是未來重要發展方向。
5 結語
互聯網已高度融入社會生活,隨著數據的不斷增多,需要推薦系統幫助用戶篩選和過濾信息,解決信息過載問題。推薦系統在早期發展過程中基于協同過濾等算法在電子商務領域應用廣泛。隨著社交網絡的發展,傳統技術已無法解決冷啟動、數據稀疏、大數據等問題。在社會化推薦系統的研究中,研究對象有很多特點,如用戶社會屬性多樣性、用戶關注主題的變化性、跨領域社交媒體數據可轉化性、時間因素等。根據這些特點,研究人員提出了多種新穎的研究方法。本文從社會化推薦系統原理和流程著手,對當前一些關鍵技術主要流程、基本框架進行了總結和分析,并對該領域未來發展進行了展望,以期為相關研究人員提供參考。
參考文獻:
[1] HERLOCKER J L,KONSTAN J A,BORCHERS A,et al.An algo-rithmic framework for performing collahorative filtering[C].22nd An-nual International ACM SIGIR Conference on Research and Develop-ment in Information Retrieval, 1999: 230-237.
[2]SARWAR B M,KARYPIS G,KONSTAN J A,et al.Item-based col-laborative filtering recommendation algorithms[C].Proceedings of the10th international conference on World Wide Web, 2001: 285-295.
[3]LINDEN G,SMITH B,YORK J.Amazon. com recommendations:item-to-item collaborative filtering [Jl. IEEE Internet computing,2003 (1):76-80.
[4]FELTONI GURINI D,CASPARETTI F, MICARELLI A,et al.Tempo-ral people-to-people recommendation on social networks with senti-ment-based matrix factorization[J].Future Ceneration Computer Sys-tems, 2017, 78:430-439.
[5]L1 L, LIU J H,MENC X F,et al.Recommendation models by exploit-ing rating matirx and revieW text [J]. Chinese Journal of Computers,2018,427(7):131-145.
[6]FAN C, LI Y, YAO J.A latent variable Bavesian network recommenda-tion model for product scoring prediction[C]. The 2nd IEEE Ad-vanced Information Management, Communicates. Electronic and Au-tomation Control Conference( IMCEC). 2018: 971-975.
[7]HOFMANN T Latent semantic models for collaborative filtering [J].ACM Transactions on Information Systems, 2004, 22(1):89-1 15.
[8]KOREN Y.Factorization meets the neighhorhood:a multifaceted col-lahorative filtering model[C].ACM SIGKDD International Conferenceon Knowledge Discovery&Data Mining, 2008: 426-434.
[9]MNIH A,SALAKHUTDINOV R R.Probabilistic matrix factorization[C]. Advances in Neural Information Processing Systems, 2008:1257-1264.
[10]GANU G,ELHADAD N. MARIAN A. Bevond the stars: improvingrating predictions using review text content[C].International Work-shop on the Web and Databases, 2009,9:1-6.
[11]MUKHERJEE S, BASU G,JOSHI S. Incorporating author preferencein sentiment rating prediction of reviews [C]. Proceedings of the22nd International Conference on World Wide Web, 2013: 47-48.
[12]FAN M,KHADEMI M. Predicting a business star in Yelp from its re-views text alone [J]. https://arxiv.org/ftp/arxiv/papers/1401/1401.0864.pdf.
[13] WANG M, MA J.A novel recommendation approach based on us-ers' weighted trust relations and the rating similarities[J]. Soft Com-puting, 2016, 20( 10): 3981-3990.
[14]SARWAR B,KARYPIS G,KONSTAN J, et al. Item-based collabor-ative filtering recommendation algorithms[C].The lOth InternationalWorld Wide Web Conference, 2001: 285-295.
[15]鄧愛林,朱揚勇,施伯樂.基于項目評分預測的協同過濾推薦算法[J].軟件學報,2003 .14(9):1621-1628
[16] 孟祥武,劉樹棟,張玉潔,等.社會化推薦系統研究[J].軟件學報,2015,26(6):1356-1372
[17]CHEN J, WANG C, SHI Q, et al. Social recommendation based on us-ers'attention and preference[J]. Neurocomputing, 2019, 341: 1-9.
[18]SONG W. XIAO Z, WANG Y, et al. Session-based social recommen-dation via dynamic graph attention networks[ DB/OL]. https: //arxiv.org/pdf/1 902.093 62.pdf.
[19]SUN P. WU L, WANC M. Attentwe recurrent social recommendation[C]. The 4lst International ACM SIGIR Conference on Research&Development in Information Retrieval, 2018: 185-194.
[20]FAN W, DERR T. MA Y. et al. Deep adversarial social recommen- dation[ DB/OL].https: //arxiv.org/pdf/1905.13 160.pdf.
[21] PAN Y,HE F, YU H. Trust-aware collaborative denoising auto-en-coder for top-N recommendation [DB/OL]. https://arxiv.org/pdf/1703.01760v2.pdf.
[22] 彭艦,王屯屯,陳瑜,等.基于跨平臺的在線社交網絡用戶推薦研究[J].通信學報,2018(3):147-158.
[23]WANG X. HE X, NIE L. et al. Item silk road: recommending itemsfrom information domains to social users[C].Proceedings of the 40thInternational ACM SIGIR conference on Research and Developmentin Information Retrieval. ACM. 2017: 185-194.
[24] JIANC M. CUI P, CHEN X. et al. Social recommendation withcross-domain transferable knowledge [J]. IEEE transactions onknowledge and data engineering, 2015, 27(11):3084-3097.
[25] 楊曉夫,秦函書?;陔娮硬v利用矩陣乘法構建醫生推薦模型[J].計算機與現代化,2019 (6):81.
[26]馮永,陳以剛,強保華.融合社交因素和評論文本卷積網絡模型的汽車推薦研究[J].自動化學報,2019,45(3):518-529.
(責任編輯:江艷)
作者簡介:蔡崇超(1983-),男,上海大學計算機工程與科學學院博士研究生、湖州職業技術學院物流與信息工程學院講師,研究方向為自然語言處理、社交網絡、人工智能;許華虎(1968-),男,上海大學計算機工程與科學學院教授、博士生導師,研究方向為人工智能、大數據、圖像處理。