王居正 張雪萍 楊俊翔 楊衛東
摘要:隨著在線商品、服務以及信息的爆炸式增長,推薦系統正逐漸成為互聯網應用當中一個不可或缺的部分。然而,推薦系統在給人們帶來便利的同時,也存在很多潛在風險,其中之一便是隱私泄露問題。文章依托現有傳統推薦算法,通過融入用戶之間的信任關系,形成社會化推薦算法,提高了推薦效果。另外,在原有選定4種主要的差分隱私保護技術的基礎上,結合聯邦學習和安全多方計算等技術,尋求最優的組合差分隱私保護技術,增強了隱私保護的能力。
關鍵詞:社會化推薦;差分隱私;聯邦學習;安全多方計算
中圖分類號:TP391.3文獻標志碼:A文獻標志碼0引言隨著國家經濟建設蓬勃發展,信息技術隨之高速發展,各類社交、音視頻、游戲等軟件應運而生,極大地豐富了人們的物質生活,也滿足了人們日益升高的精神生活需要。截至2023年1月,全球網民數量達到10.93億。網民的廣泛運用推動了互聯網信息爆炸式增長,網上現有的目標信息被海量的數據淹沒??捎眯畔⑸?、冗余信息多,真實信息少、虛假信息多等問題普遍存在,而推薦系統能夠有效地解決此類問題,幫助網友從浩瀚的信息中找到需要的信息,在日常工作生活中起到了不可替代的作用。對于信息消費者而言,推薦系統能幫助他們提高工作效率,快速找到所需的信息,避免時間浪費;對于信息提供者而言,推薦系統能吸引消費者、區別消費者、引導消費者,實現利益最大化。
1社會化推薦算法推薦系統是由信息過載產生,但經過多年的發展,特別是電子商務的繁榮,其作用也在不斷擴展。例如推薦系統從“商品長尾”中挖掘那些受關注較少的商品推薦給用戶,幫助用戶準確找到長尾中符合用戶個性化需求的商品。
1.1推薦算法的分類推薦系統產生于20世紀90年代,最初的數據集MovieLens[1]由美國Minnesota大學計算機科學與工程學院的GroupLens項目組收集整理。推薦算法主要可以分為基于內容的推薦算法[2]、基于人口統計特征的推薦算法[3]、基于協同過濾的推薦算法[4]、基于聚類的推薦算法和混合推薦算法[5]。
1.2主流的推薦算法近十年主流推薦算法一般分為兩大類,即基于內容的推薦算法和基于協同過濾的推薦算法。其中,基于內容的推薦算法的思想是通過匹配與物品相關的關鍵字和用戶設定的關鍵字,算法相對簡單,因此會較為廣泛地應用于推薦文本領域;而基于協同過濾的推薦算法的思想則是使用用戶群體曾經的行為來預測各個用戶可能喜歡的物品,適用于推薦各種種類的物品。
基于協同過濾的推薦算法主要分為基于模型的協同過濾算法和基于鄰域的協同過濾算法?;谀P偷膮f同過濾算法主要運用矩陣分解算法,通過使用用戶-物品矩陣,構建一個預測模型,其大致的思想是通過用戶-物品矩陣獲得各個用戶和物品的潛在特征向量,達到預測用戶對物品評分的目的。而基于鄰域的協同過濾算法則直接使用已有用戶對物品的評分數據來預測用戶對新物品的評分,又依據目標相似原理將用戶或物品區分為基于鄰域用戶的方法和基于鄰域物品的方法,并計算對應的相似度。主流推薦算法如圖1所示。
1.3社會化推薦算法當前對推薦系統造成較大影響的主要有數據稀疏性、冷啟動以及系統本身性能等方面的問題,這些問題影響了推薦效果,降低了推薦精度和準度。為解決這方面的問題,本文依托傳統推薦系統,通過將用戶之間信任關系融入,形成社會化推薦算法,較好地提高了推薦效果。社會化推薦算法主要的思想是使用目標用戶在社會網絡中相關聯的用戶代替或補充傳統推薦系統中匿名的相似用戶。
社會化推薦算法能夠對用戶行為進行更真實的模擬,并且有利于緩解用戶冷啟動和評分數據稀疏問題。社會化推薦算法主要有兩個方面的優勢:一方面是信息技術高速發展,信息獲取渠道增多,尤其是社交媒體發展,用戶的社會屬性信息獲取更加簡單易行;另一方面是人們在生活中,除了自己做決定外,更多地會借鑒他人的意見,尤其是自己信任的親朋好友,往往他們的意見能夠影響甚至主導自己的決定,也就意味著用戶的社交網絡關系可以幫助他們過濾信息。
因此,使用用戶之間信任關系的社會化推薦算法中主要的兩大類分別為:基于矩陣分解的社會化推薦算法和基于鄰域的社會化推薦算法。
2推薦系統隱私保護主要技術推薦系統在給人們帶來便利的同時,也存在很多潛在風險,其中之一便是隱私泄露問題。
2.1推薦系統隱私保護主要技術類別當前推薦系統主要的隱私保護技術如表1所示。
2.2差分隱私保護技術差分隱私保護技術[6]是Dwork等人在2006年提出的隱私保護技術。差分隱私保護技術通過對查詢結果添加噪聲,確保在數據集中增減一條記錄對最終的查詢結果不會產生影響,達到隱私保護的目的。
2.3差分隱私保護技術的分類差分隱私保護技術主要分為本地化差分隱私、中心化差分隱私、分布式差分隱私和混合差分隱私4種。各類差分隱私保護技術的優點和不足如表2所示。
2.4組合差分隱私保護技術基于社會化推薦算法,融入聯邦學習思想和現有4種差分隱私保護技術,結合用來去除參數服務器以提高系統整體安全性的多方安全計算的技術,并用聯邦學習中本地更新的優化方式,研究和設計了組合差分隱私保護技術,如圖2所示。
組合差分隱私保護技術通過使用隨機梯度下降的求解方法,在梯度上加入高斯噪聲,這樣既避免了攻擊者通過觀察評分預測結果來推斷用戶評分數據,類比在訓練數據上和在求解特征矩陣的過程中添加噪聲更為有利。
在社會化推薦算法中,用戶矩陣和物品矩陣的梯度可以根據用戶數據類別分解為兩部分:一是來自評分數據對梯度的更新,二是來自信任關系對梯度的更新。先通過評分預測差值更新用戶矩陣和物品矩陣,再通過用戶信任關系對用戶矩陣進行再次更新。每個數據方依托現有數據,通過梯度計算并經過參數服務器聚合,得到全局用戶矩陣。
在聯邦學習中,通過引入同態加密的公鑰的參數服務器,避免因梯度暴露導致訓練數據曝光,實現了既在加密的情況下更新物品特征向量,也避免了通過參數服務器解密梯度的隱患。同時,在現有基礎上,通過引入一個半誠實且獨立的參數服務器,就能進一步加強推薦算法整體的安全性。
多方安全計算[7]可以使得參與計算的各方在不公開各自輸入值的情況下得到最終的計算結果。各個數據方可以通過多方安全計算求出所有數據方對用戶矩陣梯度的平均值,取代原有參數服務器進行梯度聚合的工作,從而增加聯邦推薦算法整體的安全性。因此,多方安全計算可以被用在不另外引入服務器的情況下,解決聯邦學習中梯度聚合這一問題,如圖3所示。
3結語本文在傳統推薦算法的基礎上,融入用戶信任關系構建社會化推薦算法,充分利用聯邦學習和多方安全計算的技術優勢,研究和設計了組合差分隱私的社會化推薦算法,通過實驗論證,達到了預期效果。但在現實生活中的應用差距比較大,下一步計劃從兩個方面入手:一方面是對推薦算法中信任關系的隱私保護。當前的組合差分隱私的社會化推薦算法沒有對用戶的信任關系進行隱私保護,下一步將用戶評分和用戶之間的信任關系都納入隱私保護范圍;另一方面是實現跨平臺推薦。現有推薦系統適用平臺較為單一,往往是一個推薦系統只適用一個推薦平臺,各平臺的數據也沒有實現流通,下一步考慮從強化學習和邊緣計算的角度出發,研究實現跨平臺推薦。
參考文獻
[1]范虎.基于云計算的協同過濾推薦系統的研究與應用[D].淮南:安徽理工大學,2013.
[2]李忠俊,周啟海,帥青紅.一種基于內容和協同過濾同構化整合的推薦系統模型[J].計算機科學,2009(12):142-145.
[3]PAZZANI M.A framework for collaborative, content-based,and demographic filtering[J].Artificial Intelligence Review-Special Issue on Data Mining on the Internet 1999(5-6):393-408.
[4]HERLOCKER J,KONSTAN J,TERVEEN L.Evaluating collaborative filtering recommender system-s [J].ACM Transactions on Information Systems,2004(1):5-53.
[5]張騰季.個性化混合推薦算法的研究[D].杭州:浙江大學,2013.
[6]王爍.基于組合差分隱私的社會網絡數據發布研究[D].保定:河北大學,2020.
[7]周雪翎.基于差分隱私的社會化推薦系統研究[D].合肥:中國科學技術大學,2020.
(編輯 王雪芬)
Research on social recommendation algorithm based on combinatorial difference privacyWang? Juzheng, Zhang? Xueping, Yang? Junxiang, Yang? Weidong
(School of Information Science and Engineering, Henan University of Technology, Zhengzhou 450001, China)Abstract:? With the explosion of goods, services and information online, recommendation systems are becoming an integral part of Internet applications. However, while the recommendation system brings convenience to people, it also has many potential risks, one of which is privacy disclosure. Based on the existing traditional recommendation algorithm, this paper forms a socialized recommendation algorithm by integrating the trust relationship between users, and improves the recommendation effect. In addition, on the basis of the four main differential privacy protection technologies selected previously, combined with federated learning and secure multi-party computing technologies, seeking the best combined differential privacy protection technology, enhancing the ability of privacy protection.
Key words: social recommendation; differential privacy; federal study; security multi-party calculation