蘇暢 李佳慶 謝顯中

關鍵詞:個性化;跨域;推薦系統;用戶隱私保護
一、引言
隨著社會信息產業的發展,電影、音樂、網購等行業的交易量不斷增長。相比之下,個人很難體驗到一個又一個龐大的產品和服務。為了實現產品的精準銷售,提高個人服務質量,需要有一個好的算法來給出個人推薦。推薦方法的準確性不僅決定了個人的生活體驗,也決定了商業效益。但同時,在個性化的推薦中,重點做好用戶隱私的保護工作,就成為個性化推薦系統研發和升級中必須考量的問題。結合既有的推薦系統用戶隱私保護現狀來看,仍舊存在一些漏洞,導致用戶隱私安全受到威脅,亟待做出改進。鑒于此,本文的研究內容具有一定現實意義。
二、個性化跨域推薦系統中用戶隱私保護工作開展的意義
個性化跨域推薦系統的研發,可以很好地緩解普適性推薦系統中存在的冷啟動以及數據稀疏問題,同時個性化跨域推薦系統的構建,可以更好地完成用戶特征提取,對于用戶隱私數據安全保護也可發揮作用[1]。其中,特征提取關系到個性化跨域推薦系統的推薦準確性,數據安全更是關系到用戶的隱私以及用戶的信任度。本文采用異構信息網絡通過多類型的節點和邊的關系來進行特征提取,采用聯邦學習來保護用戶隱私,聯邦學習并不要求用戶上傳數據,只需在本地訓練,可以有效地保護用戶的隱私。
隨著推進系統的發展,推薦影響準確度的因素越來越多,因為用戶需求是由用戶興趣偏好與實時需求共同決定的,本文在此基礎上重點研究了實時性的因素,實時性可以代表用戶當前的狀態,在考慮用戶偏好的同時加入實時性的因素,能夠進一步優化個性化推薦系統的推薦準確度以及用戶隱私保護質量。
三、個性化跨域推薦系統中的用戶隱私保護國內外研究現狀
(一)個性化跨域推薦系統研究現狀
在當前的網絡生態系統中,一些網站在功能和提供信息方面具有一定程度的同質性是很常見的。從構建推薦服務的角度來看,這意味著這兩個同質域的模型正在處理許多相同的項[2]。這為通過豐富數據提高推薦質量提供了機會。例如,如果域對象沒有關于某些項(即稀疏項或冷啟動項)的足夠數據,而其他域對象有,利用其他域的輔助數據來提高目標域的推薦質量的任務稱為個性化跨域推薦。
1. 個性化跨域推薦通過知識遷移可以有效地緩解推薦系統的數據稀疏問題和冷啟動問題
有學者提出了一個稱為信任感知跨域深層神經矩陣分解(TCrossDNMF)的模型,該模型預測活動用戶的項目評級,并解決了電子商務系統中“用戶重疊”跨域場景中的用戶冷啟動問題。TCrossDNMF 模型分為四個主要步驟:①特征學習,即使用潛在因素模型學習用戶的特征,然后發現源域和目標域用戶之間的相似性。當用戶在兩個域之間共享時,該模型學習公共信息并將知識從源域轉移到目標域。②排序,找到一組相似的用戶(鄰居),然后根據相似度閾值θ 過濾出不同的用戶,然后從這些減少的用戶集生成二分信任圖,并執行蟻群優化,為活動用戶找到可信的鄰居。③加權計算活動用戶與其前k 個鄰居之間的信任度。④使用多層感知器(MLP)和廣義矩陣分解(GMF)通過在更高維度上表示用戶項交互來訓練TCrossDNMF 模型的預測,并將GMF 和MLP 與用于評級預測的信任信息集成在一起。通過在兩個域的用戶之間轉移知識和合并信任,解決了用戶冷啟動問題。有學者提出了一個DAAN 框架,該框架考慮了跨領域的領域共享和領域特定知識。通過注意網絡將基于矩陣分解的協同過濾與深度對抗域自適應緊密耦合。在該框架中,首先從源和目標用戶項交互矩陣中學習每個用戶和每個項特定域的表示。然后,框架捕獲了兩個域之間的域共享特性,并將公共用戶(或項目)嵌入到域對抗范式中。利用相對密集的源用戶項交互矩陣中的知識遷移,重構了稀疏的目標用戶項交互矩陣,緩解了數據稀疏性問題。
2. 個性化跨域推薦系統的遷移學習可以更準確地識別用戶的特征,提高推薦系統的性能
有學者提出了一個新的基于跨域個性的推薦系統框架,兩個主要方法為跨域人格分類方法和人格增強概率矩陣分解(P2MF)。它通過預測文本嵌入(PTE),將人格分類模型在一個共享的潛在特征空間上進行訓練,該空間由來自源域的有監督數據和來自目標域的無監督數據解釋。將個性標簽作為先驗信息集成到經典推薦方法概率矩陣分解(PMF)中。真實數據集上證實了該方法在各種目標域上的優越性。有學者通過結合不同域用戶評論中隱含的情感信息,提出一種基于情感分析和潛在特征映射的跨域推薦算法(CDR-SAFM)。通過對用戶評論信息進行情感分析,基于三項決策思想將情感分為三類,即積極、消極和中性。通過潛在狄利克雷分配(LDA)用于對用戶的語義方向進行建模以生成潛在情感評論特征。并在此基礎上使用多層感知器(MLP)獲得跨域非線性映射函數來傳遞用戶的情感評論特征,通過實驗證明了框架的有效性。
(二)隱私保護推薦算法研究現狀
隨著推薦系統的發展,一些問題也暴露了出來,其中用戶最關心的就是隱私保護問題,也是推薦系統發展的一個重要因素。有學者提出了一種基于可逆數據變換(RDT)算法的隱私保護數據采集協議。該協議允許針對超出范圍的處理實現隱私保護,不需要私有通道或依賴第三方身份驗證。協議不僅可以保障內部和外部身份泄露的安全,還可以為超出處理范圍的隱私提供保護。有學者提出了一種基于多探測局部敏感哈希(LSH)的隱私保護興趣點推薦算法。通過改進的LSH 選擇相似的用戶集,可以大大減少計算量,滿足用戶快速響應的需求。通過引入多重探索來緩解內存中多個哈希表的壓力,并快速獲取目標用戶的最近鄰集合,從而對LSH 進行了改進。在計算過程中采用了改進的LSH 和派利爾同態加密技術來保護數據隱私。有學者提出了嶺回歸,嶺回歸是一種統計方法,用于模擬獨立變量和一些解釋值之間的線性關系。在該協議中,每個用戶以加密的形式將其數據提交給評估者,評估者計算所有用戶數據的線性模型,而無需了解他們的內容[3]。核心加密方法配有同態屬性,使評估者能夠對加密數據執行嶺回歸。研究中發現協議適用于處理分布在數百萬用戶中的高危數據。有學者提出了一種基于局部差分隱私保護方案的動態隱私預算分配方法。有學者提出了一種改進的基于用戶的協同過濾算法,該算法在計算用戶相似度時采用了基于矩陣的相似度計算方法。在推薦過程中保護用戶的隱私,同時保證推薦性能不會受到太大的損失。
本文提出的方案首先對本地敏感數據動態添加噪聲,以保證用戶的隱私,然后將添加噪聲的數據發送到服務器進行相似度計算,最后通過基于用戶的協同過濾算法給出推薦。有學者提出了一種基于差分隱私保護和時間因子的高效隱私保護協同過濾算法。這種方法可以有效地降低泄露私人數據的風險,同時獲得所需的隱私保護服務。有學者提出了一種基于位置敏感度的位置推薦隱私保護方法。該方法使用位置軌跡和值機頻率來設置閾值,從而對位置敏感度級別進行分類。然后根據靈敏度分配相應的隱私預算,以添加滿足差異隱私的拉普拉斯噪聲。
四、個性化跨域推薦系統中的用戶隱私保護研究中存在的問題
(一)用戶數據安全性和特征提取問題
推薦系統是基于用戶所提供的一些隱私數據進行推薦的,而這些數據包含一定的敏感性信息。個性化跨域推薦系統更是如此,至少結合兩個領域的數據,如果將所有的數據都上傳到一個服務器上來進行訓練,稍有不慎就會發生數據泄露,產生數據安全問題。出于對用戶隱私數據的保護,跨域推薦系統在訓練時應在用戶或運營商服務器本地進行訓練,以知識遷移的方式將加密后的特征上傳到中央服務器,生成對用戶的推薦。如何在本地進行用戶特征的提取和如何加密特征保護用戶隱私不受侵犯是一個值得研究的問題。
(二)用戶數據隱私保護問題
用戶的數據隱私問題也是跨域推薦中廣泛研究的問題。在POI 跨域推薦系統可以根據用戶的位置信息來推斷用戶的興趣偏好。例如,一個用戶若經常在某商場簽到,可以推薦出該用戶是商場的工作人員或有較強的消費能力。再比如,若一個用戶經常在旅游點打卡簽到,可以推斷出該用戶經常出去旅游或出差等等。個性化跨域推薦系統可以有效地緩解冷啟動問題,但是如果這些數據使用不當,被竊取或盜用,會產生用戶數據的隱私安全問題。因此保護用戶的數據安全是跨域推薦系統的主要研究方向。傳統的推薦系統都是采用集中式的訓練模型,即所有領域的數據都存儲在一個中央服務器中,在這種情況下,用戶的數據很容易發生泄露,因為現實生活中我們很難找到一個值得信任的服務器。若采用分布式的訓練模型,可以有效地解決服務器不可信和數據存儲問題,但是由于各個平臺之間存在商業利益,往往不愿意將自己收集的數據分享出來,就會出現“數據孤島”現象,使得跨域協同變得非常困難。因此如何在解決“數據孤島”問題的同時保護數據隱私,是個性化跨域推薦系統亟待解決的問題。
五、個性化跨域推薦系統中的用戶隱私保護研究策略提出
為了更好地在跨域推薦系統提取特征、保護用戶的隱私數據以及提升跨域推薦系統的推薦準確性,本文設計了基于隱私保護的跨域推薦系統。本文擬采用個性化異構信息網絡來提取用戶的特征,異構信息網絡具有很強的靈活性,可以充分提取用戶的特征。使用聯邦學習結合同態加密技術算法來保護用戶的隱私數據,聯邦學習在用戶本地訓練數據后再使用同態加密技術將潛在特征分布加密后用作知識遷移,以保護用戶的隱私信息。為進一步提升推薦系統的推薦準確性,本文考慮加入實時性的因素,以應對用戶不斷實時變化的需求,提升用戶的使用體驗。
(一)基于異構信息網絡的隱私保護個性化跨域推薦
由于個性化跨域推薦系統需要在多領域中提取用戶的特征,因此數據在用戶與用戶、用戶與項目、項目與項目之間存在相關的特征交互,導致特征提取和數據轉移相對復雜。為解決這一問題,本文提出使用異構信息網絡提取不同領域之間的關聯特征,該網絡在結構上含有多種類型的節點和邊,蘊含著豐富的關聯信息。同時為確保數據安全性和用戶隱私,需要對特征提取和數據轉移進行隱私保護。為此,采用聯邦學習和同態加密算法結合的方法,讓用戶在本地訓練數據,將潛在特征分布加密后進行知識遷移,保證用戶的隱私數據不被泄露。此外,為提升推薦系統的準確性,本文考慮加入實時性因素,以滿足用戶不斷變化的需求,提高用戶的使用體驗。由于用戶的選擇決策取決于實時需求和偏好喜好,因此增加實時因素對于增強個性化跨域推薦系統的準確性至關重要。在保障用戶隱私保護的同時,加入實時因素可促進用戶體驗的提升。
(二)具有隱私保護的跨域實時推薦推薦
系統是根據用戶的歷史性行為給用戶來生成推薦的,但是由于用戶的需求是不斷地實時變化的,且用戶的選擇是實時需求和用戶偏好加權求和的結果,若一味地根據用戶的歷史偏好來生成推薦的話,可能會導致推薦系統的準確性下降,用戶滿意度不高等結果。因此實時性成為提升推薦系統準確性的一個重要因素,比如用戶所處的地點位置、絕對時間等實時因素,均會影響用戶的選擇。本文在跨域隱私保護推薦系統基礎上,考慮融合絕對時間等實時性因素,訓練推薦系統,提升系統的準確性。其間,利用聯邦學習訓練框架為:首先自服務端下發模型參數,用于完成本地模型的初始化訓練。其次,由客戶端將數據發送中間梯度,再到服務器端,利用服務器端去將用戶端的參數做聚合處理,實現全局模型的更新,最后將最新參數下發至本地,用于更新本地模型。具體的聯邦學習訓練框架如圖1 所。
另外,由于數據在用戶與用戶、用戶與項目、項目與項目間均存在關聯特征,特征交互復雜,本文擬采用異構信息網絡來提取不同領域數據的特征,異構信息網絡對數據處理具有很強的靈活性,可以提取豐富的特征信息。進一步,采用聯邦學習結合同態加密技術的方法來保護用戶的隱私數據,聯邦學習不需要數據集中地進行訓練,可在用戶本地進行訓練,將訓練后特征加密進行上傳,可以有效保護用戶的隱私數據。
六、結束語
綜上所述,在用戶隱私保護研究中,想要全面提升保護質量,就需要著重圍繞個性化跨域推薦系統展開問題,在了解推薦原理的基礎之上,才能摸索出更具可行性的保護方案,以此為用戶在互聯網中的隱私安全提供保障。此外,在具有隱私特性的用戶安全個性化跨域推薦系統研究方面,充分將聯邦學習結合同態加密技術算法應用于用戶隱私數據保護中,能夠有效將潛在的用戶數據特征所分布加密處理,以此搭建知識遷移體系,為用戶的隱私保護提供支持,最終強化用戶體驗。
作者單位:蘇暢 李佳慶 謝顯中 重慶郵電大學