林 寧,張 亮
(1.泰州機電高等職業技術學校,江蘇 泰州 225300;2.南京師范大學泰州學院,江蘇 泰州 225300)
隨著計算機技術的飛速發展,海量的信息存在于各種商業網站和信息分發應用中,信息過載現象嚴重阻礙了每個人的正常生活。科技的發展給人們生活帶來便捷的同時,信息過載、數據冗余等問題也令人頭疼。用戶的選擇越來越多,想要選擇到適合自己的事物就變得困難。為了解決此問題,越來越多的人開始關注用戶個性化推薦系統。該系統利用用戶與各種事物的歷史交互數據以及事物之間各特征屬性,構建個性化的用戶推薦模型,對用戶未來可能感興趣的內容進行精準預測,在眾多的數據信息中自動篩選出用戶感興趣的信息及商家。基于聯邦學習的用戶推薦系統越來越受到廣泛的關注。具體來說,推薦系統包括3 個方面的內容,即用戶喜好、項目屬性、用戶與事物的交互數據(如時間、空間數等附加信息)[1]。推薦系統開發者通過向用戶推薦匹配的商品來增加銷售量,或者為目標用戶提供匹配的娛樂內容來增加契合度,進而提高廣告的曝光率、點擊量等,從而最終為商家提高營業額[2]。隨著各種數據保護條例和隱私保護法規的頒布,以及個人用戶對隱私數據的保護,人們逐漸意識到隱私數據的保護是非常有必要的。然而傳統的機器算法是有缺陷的,如在用戶上傳數據信息時,很難直接建立起一個有效的模型來保護用戶的數據隱私安全。鑒于此,谷歌(Google)公司提出了基于聯邦學習技術來建立用戶隱私保護機制。
近年來,隨著分布式學習和邊緣計算技術的快速發展,互聯網生態逐漸向移動化和開放化發展,使得用戶終端能夠存儲相當多的原始數據[3]。在傳統的集中式推薦系統中,系統首先需要收集到足夠多的數據并建立數據關系,構建用戶推薦系統,那么在真實情況下,平臺能保護好用戶的隱私數據嗎?用戶的隱私數據會不會另作他用?數據安全問題已經成為人們關注的熱點之一。
有研究學者提出聯邦學習算法可以解決用戶隱私數據泄露的問題,而且算法正逐漸受到人們的廣泛關注。聯邦學習的個性化推薦系統是通過挖掘聯合分布在各個設備上的數據集,但又不共享各設備上的原始數據,通過交換模型參數或中間結果的方式,構建基于虛擬全局的用戶數據模型,建立分布式機器學習訓練模型。一些學者將聯邦學習應用到推薦算法中,在模型訓練的整個過程中,用戶的原始交互數據不用上傳到平臺,而是通過模型參數或者中間結果進行數據分析和挖掘,構建一套保護用戶隱私數據的機器學習模型。聯邦學習的推薦系統不要求用戶上傳原始數據到平臺,這大大降低數據泄露的可能性。因此,基于聯邦學習模式的推薦算法來解決用戶隱私問題,越來越受到人們的廣泛關注[4]。目前國內對基于聯邦學習的個性化推薦系統研究缺少系統的歸納總結。本研究首先對推薦系統、聯邦學習及聯邦推薦系統進行概述。
1992 年,Xerox 公司最早采用協同過濾算法來解決資訊過載問題。后期在新聞的篩選中,幫助閱讀者篩選感興趣的新聞,例如亞馬遜網絡書店和Facebook 的廣告就非常有名。他們也是采用傳統的協同過濾算法,為用戶提供其可能感興趣的書籍或廣告。傳統的推薦模型基于信息直接篩選分析而成,協同過濾算法先對相似喜好的用戶進行數據挖掘,建立用戶群,再對這些相似用戶進行動態分析,形成對該目標用戶的某一信息的喜好程度精準預測[5]。根據協同過濾算法的學習模式不同,可以分為基于領域(物品)的推薦系統和基于模型的推薦系統[6]。其中,基于領域的推薦系統是推薦用戶之前喜歡物品的相似物品,通過物品的屬性特征計算物品與之前物品的相似度,然后進行推薦[7];而基于模型的推薦系統是給用戶推薦一個新的物品,通過對其喜好程度進行量化,結合機器學習算法來針對不同用戶計算物品的向量進行訓練,建立用戶推薦模型來精準預測用戶對于新事物的喜好得分,最后采用訓練好的模型為用戶提供個性化推薦[8]。
深度學習技術在計算機網絡技術領域已經受到普遍的應用,其強大的擬合能力和高度的非線性表示能力在推薦系統算法領域得到相當高的關注。深度學習是根據用戶信息特征進行深層次挖掘,然后經過大量的數據來學習有效的特征表示及復雜的映射,最后建立起有效的數據模型[9]。近幾年,記錄多分支的淺層神經網絡模型得到了廣泛運用,但是基于深度學習的數據模型在推薦系統中的應用還處于初級階段,深度學習技術對領域本身并無特殊要求,在未來多個潛在領域會有廣泛的應用。
基于用戶隱私數據保護的推薦算法不勝枚舉,但是在保護用戶隱私的前提下進行精準推薦是人們探討的熱點話題。一方面要保護用戶的隱私數據,另一方面又要根據用戶的個人信息和交互記錄進行推薦,同時還要防護來自不同方面的攻擊威脅。傳統的推薦系統建立在各數據參與方完全信任的情況下,然而現實中卻存在著數據信息泄露的隱患。這種隱患藏匿于平臺與用戶之間、用戶與用戶之間、平臺與平臺之間。在理想的推薦場景中,用戶是充分信任平臺的,用戶將自己的個人信息完全提供給平臺使用,然而平臺方可能存在對用戶信息泄露或濫用等行為。因此,人們的關注熱點是能確保用戶隱私信息不泄露的推薦系統。另外,在一些特殊場景中,比如分享推薦,用戶與用戶之間會進行信息的交換,而一些潛在的惡意用戶會竊取其他用戶的隱私信息,那么用戶數據的安全性就會受到威脅。在平臺與平臺之間也可能會共享用戶的交互記錄,然而平臺之間也并非完全可信,跨平臺之間的信息泄露也時有發生。傳統的隱私保護推薦系統,采用密碼學或者模糊化方法對隱私數據進行保護[10];而近期隱私保護推薦系統的相關工作多以聯邦學習為主,并整合加密算法和模糊化算法以更好地保護用戶數據隱私安全。
在2016 年,Google 公司就提出過聯邦學習的框架結構,其本質上是聯合分布在各個設備上的數據集,又不共享各設備上的原始數據,建立分布式的學習框架,在保護各方的隱私數據的前提下,共同訓練一個共享的數據模型[11]。另外,聯邦學習對數據的集中存儲不做要求,各參與方對己方數據有絕對的掌控權。聯邦學習可以分為模型架構、聯邦化、優化和隱私保護等4 個方法。其中,聯邦學習的模型架構主要有兩種,即中心化聯邦架構和去中心化聯邦架構,其中,中心化聯邦架構即客戶端/服務器架構模式,企業是中心服務器,主要是控制協調全局模型;去中心化聯邦架構主要采用的是對等模式,針對聯合多家數據單薄的困境企業進行模型訓練。另外,不同模型的聯邦化也是學者研究的重點,包括機器學習、元學習、深度學習、強化學習和遷移學習等方面。聯邦學習的模型優化主要包括模型壓縮、溝通策略、激勵機制和客戶抽樣策略等方面。另外,同態加密、差分隱私、局部差分隱私等策略均為用戶數據隱私保護技術的研究熱點內容。
用戶個性化推薦系統是根據用戶與某物品的交互數據以及物品特有的屬性特點,找出用戶潛在的興趣偏好并建立模型,精準預測后進行用戶推薦。一方面,目前主流的推薦模型首先需要收集用戶的交互信息并將數據信息上傳到平臺,然后訓練出一個推薦模型,最后生成對每個用戶的推薦結果。當用戶隱私數據被上傳的時候就有可能存在信息泄露的風險[12]。另一方面,由于個人用戶擔心數據信息的泄露,往往不愿意上傳自己的原始數據,這也會導致集中訓練模型缺乏數據的問題,最終訓練的推薦模型預測性能較差。
而聯邦推薦系統是一種分布式機器學習系統,有效保護用戶隱私信息,它將集中式的學習框架分布到聯邦學習范式的場景中,為用戶提供精準的信息推薦。鑒于此,在保護用戶隱私數據的同時,還要提高推薦模型的預測性能。聯邦推薦系統是聯邦學習領域的一個重要應用場景。當前,聯邦推薦系統的研究方向主要在架構設計、系統聯邦化和隱私保護技術的應用等方面,見圖1。

圖1 聯邦推薦系統的研究方向
聯邦學習的推薦系統是不需要直接訪問各方的具體數據,而是通過協調訓練的方式進行推薦模型的搭建,最終形成的推薦系統。該系統在保護個人隱私的前提下,具有良好的推薦效果,相比傳統的推薦模型來說更有優勢[13]。聯邦推薦系統的流程具體見圖2,其中需要注意:一是每個參與服務器需要從中心服務器中下載所有物品的特征矩陣,而非原始數據;二是每個參與服務器均需要在本地進行信息的整合和篩選,去除不相關的數據信息;三是每個參與服務器在本地計算全部物品特征矩陣和個人用戶特征矩陣,及時更新本地個人用戶特征和物品特征;四是每個客戶端都需要將更新之后的物品特征按照安全協議的要求上傳到中心服務器;五是中心服務器再通過聯邦平均求解的方式對全部物品特征矩陣進行重新計算,并反饋給每個服務器用于新一輪的計算[14]。

圖2 聯邦推薦系統的流程
聯邦推薦系統可以跟據不同商品的應用場景分為橫向聯邦推薦系統、縱向聯邦推薦系統、聯邦強化推薦系統和聯邦遷移推薦系統[15]。其中,橫向聯邦推薦系統研究的是物品相同但用戶不同的情況,同時在保護用戶隱私的情況下,進行用戶行為信息的共享;縱向聯邦系統研究的是用戶相同但物品不同的情況;聯邦強化推薦系統研究的是用戶及時反饋的數據情況,提升推薦的及時性;聯邦遷移推薦系統研究的則是物品相同但用戶重疊、數據不足的問題。
當前,聯邦推薦系統的應用尚處于探索階段,但得到各領域廣泛的關注,包括電商、社交軟件、在線視頻、在線廣告等領域。通過對新聞事件的數據分析,搜索系統NewsMiner 數據庫的相關數據。據查,聯邦學習技術的行業應用最早是在2018 年,應用在金融、IT 和通信領域,后來被逐漸擴展到智慧城市、教育、汽車、金融等多個行業領域。一是聯邦學習技術在金融業的應用,仍處于研究階段。推進聯邦學習在金融業應用的參與主體主要是科技公司(如百度、騰訊、京東等)、互聯網金融機構(如微眾銀行、螞蟻金服等)、少數傳統商業銀行(如江蘇銀行、浦發銀行、中國建設銀行等)。二是聯邦學習在醫療業的應用,目前仍處于探索階段,需要得到科技公司和國內外權威科研機構、高校、醫療機構的支持與幫助。國際性科技期刊Nature(《自然》)曾發表過關于聯邦學習技術在醫療領域應用的文章,聯邦學習技術在醫療應用領域也有強大的潛力。新冠疫情以來,越來越多的研究者支持通過聯邦學習技術以及來自各地區各醫療機構的數據來開發模型。三是聯邦學習在電信業的應用,電信業是聯邦學習技術的最早應用領域,解決移動設備數據訓練問題。如今,聯邦學習技術已經從最初的電信業已經逐漸輻射到客戶體驗和精準營銷、網絡通信和衛星網絡等。
基于聯邦學習的個性化推薦系統可以保護用戶的數據隱私安全,但面向未來,基于聯邦學習的個性化推薦系統在理論研究和實踐應用方面還將面臨嚴峻挑戰,包括以下4 個方面。
1)聯邦推薦系統的冷啟動挑戰。當新事物和新用戶在進行數據挖掘和分析時,會出現數據量不足的問題。相比而言,傳統的集中式推薦系統有強大的數據信息量作支撐。而聯邦推薦系統下的冷啟動問題更為嚴峻,聯邦學習的推薦系統如何在數據資源不足的情況下構建有效的模型去解決數據稀疏問題,即是聯邦推薦系統面臨的冷啟動挑戰。
2)聯邦推薦系統的異質性挑戰。聯邦推薦系統中由于用戶為真實的個體,以及用戶設備數量和型號各異,導致異質性問題更為嚴重。因此,在聯邦學習框架下細粒度的建模數據異質性以及模型異質性也成為目前推薦系統領域的主要挑戰。
3)聯邦推薦系統的實時性挑戰。實時性挑戰主要體現在聯邦推薦模型的更新周期和更新效率上。聯邦推薦系統還需要進一步研究用戶與服務端的數據信息的傳輸延時等問題;提高聯邦推薦模型的更新效率和更新頻率,進一步完成推薦系統的用戶體驗,也是非常關鍵的問題。
4)參與機制不夠完善。在聯邦個性化推薦系統中,需要參與各方提供數據并共同完成推薦模型。各方參與商在推薦模型中的獲利不同,需要全面地評估各參與方的貢獻能力,完善定價策略,合理分配各方的利益。截至目前,仍然沒有建立起各方都認同的貢獻評價策略,這將為聯邦推薦系統的應用帶來巨大的挑戰。