江芝蒙 侯 翔 李 杰
1(四川文理學院信息化建設與服務中心 四川 達州 635000) 2(四川文理學院智能制造學院 四川 達州 635000) 3(四川文理學院科技處 四川 達州 635000)
隨著互聯網的發展,越來越多的用戶在網絡上留下自己的一些信息[1-3]。隨著AI和大數據概念的提出,越來越多的互聯網公司通過提取用戶的信息,來統計和分析這些數據并將其做公開的研究,如阿里公司可以通過用戶的購物信息來分析用戶的潛在消費需求等,這就引發了對數據隱私的相關問題[4-5]。需要采用一些方法,既可以使數據成功用于預期目的,例如,將分析用戶購買物品記錄,又不違反該人隱私的方式,例如其性別、地址和聯系方式等[6-7]。考慮協作感知環境[8-9],其中移動用戶將數據上傳到云,云計算分類器將其發送回移動設備以在本地用于所需的分類任務。這種稱為協作學習的方法利用了云的彈性,與用戶單獨實現相比,能產生更好的分類器,但同時也帶來了隱私風險。
截止到目前,越來越多的企業/個人開始將本地數據外包給云服務器,但是,在開放網絡而非完全可信的云環境下,當將數據外包到公共云或使用其外包數據時,它們面臨巨大的安全和隱私風險(例如,數據泄露或泄露,數據損壞或丟失以及用戶隱私泄露),因此對于云數據的隱私保護的研究得到越來越多的關注。為解決這些風險進行了多項研究,已經有研究提出了一系列解決方案,以便在不受信任的云環境中實現數據和隱私保護。
文獻[10]提出一個新的隱私保護框架,用于將不敏感數據傳輸到商業公共云,其余數據傳輸到可信私有云。在該框架下,設計了兩個協議來提供個性化的隱私保護,并防止公共云服務提供商和數據用戶之間的潛在勾結。文獻[11]提出一種針對敏感數據的完整生命周期隱私保護方案,該方案基于身份的定時釋放加密算法和分布式哈希表網絡,該方法通過定時釋放加密算法生成共享密文,將其分發到哈希表網絡并將封裝的密文存儲到云服務器中。文獻[12]提出一種基于時間序列模式的噪聲生成策略,用于云上的隱私保護。首先,使用聚類算法來動態生成時間間隔,用來研究其相應的概率波動,并提出基于時間序列模式的預測算法。最后,提出基于預測算法的噪聲生成策略來抵御概率波動隱私風險。文獻[13]提出了一種用于隱私保護云環境中數據共享的混合解決方案,創新地組合了不同的方法以支持具有不同隱私強度的多種醫學數據共享范例,基于四個基本組件的實施和現實世界的案例研究報告了實驗評估。在文獻[14]中,因素問題被視為單個分類任務,提出一種稱為判別分量分析的主成分分析的監督方法,投影方向受到線性判別分析中的類內散射矩陣的影響。該方法還擴展到使用內核技巧的非線性投影。缺點是缺乏第二個參考分類問題使得這些方法不能立即與這里提出的方法相比。
在研究現有隱私保護方法的基礎上,本文研究將隱私保護問題視為兩個分類任務:隱私不敏感任務和隱私敏感任務,尋求最佳的數據轉換,能夠最大程度地降低任何分類器對于不期望任務的性能,而不會損害預期任務的性能。為此,本文提出了一種基于子空間投影和廣義特征值分解的數據隱私保護方法,該方法使用內核廣義特征值分解方法制定此方法的非線性擴展。實驗表明本文方法能夠實現云數據隱私保護。
假設數據模型描述如下:用戶生成需要存儲/上傳到云的矢量數據,數據的某些方面不敏感,并且用戶的意圖是云提供商可以識別它們。然而,其他一些數據是敏感的,可能造成隱私泄露。為了實現隱私保護PP(privacy protection),需要設計一個系統,以便在破壞隱私的同時實現預期的任務。在文本中,用戶不上傳原始數據,而是上傳最大化PP的轉換版本。在數學上,將隱私保護問題表述為一對分類任務:隱私不敏感(預期)任務和隱私敏感(不良)任務。假設用戶生成數據作為矢量序列{x1,x2,…,xN}。對于不敏感的任務,有一組相關的標簽ti,制定了以下分類問題:問題A(隱私不敏感任務)。數據集:{(x1,t1),(x2,t2),…,(xN,tN)},目標ti對應于與不敏感信息相關的類標簽,例如性別。一般來說,可以有兩個以上的類:ti∈1,2,…,L。
同時,給定相同的數據序列xi,如果難以解決,則需要解決以下分類問題:問題B(隱私敏感任務)。數據集:{(x1,s1),(x2,s2),…,(xN,sN)}。目標si是與敏感信息相關的類別標簽,例如,人員的身份標識了數據,同樣可能有兩個以上的類:si∈1,2,…,P。
本文目標是設計數據轉換,以便任何分類器在問題A上表現良好,但必須在問題B上表現不佳。
本文隱私保護方法是讓數據在公開之前進行某種形式的轉換,本文方法通過將數據投影到合適的線性子空間來減少數據。子空間的選擇應使投影數據最大化問題A的可分離性,同時最小化問題B的可分離性。對于單個分類問題,給定子空間維數d,則多重判別分析提供可分離性準則:
(1)
式中:SB表示類間散射矩陣,SW表示類內散射矩陣,W=[w1,w2,…,wd]是投影矩陣。然而,在本文隱私保護問題中,面臨著兩個具有相互矛盾目標的分類問題,即在用W跨越子空間投影數據之后,希望最大化分類問題A的準確性,同時最小化問題B的準確性。因此,優化的自然標準是多元判別率,定義如下:
(2)
式中:SBT是問題A的類間散步矩陣,SBS是問題B的類間散步矩陣,SBT和SBS定義如下:
(3)
其中:
(4)
出于穩定性原因,還添加了正則化項ρI,則問題A和問題B的類間散布矩陣可以表示為:
(5)
(6)
式中:ρ是一個小的正參數。給定投影子空間維度d,式(2)中最大化的解是矩陣W,其列是與矩陣的最大特征值相關的廣義特征向量:
SBTwi=λiSBSwi
(7)
因此,鑒于如上所述的分類問題A和B,本文提出以下隱私保護算法:
算法1線性子空間投影隱私保護算法
1) 形成式(5)和式(6)中類間散布矩陣SBT和SBS;
2) 選擇子空間維度d并求解式(7)中的廣義特征值分解問題;
3) 按遞減順序λ1≥λ2≥…對廣義特征值進行排序,形成矩陣W=[w1,w2,…,wd]與相應的廣義特征向量;
4) 使用矩陣轉換數據W:y=WTx;
5) 隱藏數據x,并且僅使y可用。
通過比較使用原始數據x與使用投影數據y的任何算法的分類性能變化來評估變換的有效性。理想情況下,隱私敏感任務(問題B)的準確性應降低到零,而隱私不敏感任務(問題A)的準確性應保持不變。

(8)
可表示為:
(9)


Φ(TK+ρI)α
(10)

對于問題B類間散布矩陣可以表示為:
(11)

根據以上的公式,可以求解下面的廣義特征值問題:
(TK+ρI)α=λ′(SK+ρI)α
(12)
然后,對于給定的維度d,有W=Φ[α1,α2,…,αd]并且投影數據是:
(13)
則核廣義特征值分解隱私保護算法如算法2所示。
算法2核廣義特征值分解隱私保護算法
2) 選擇子空間維度d并解決式(12)中的特征值分解問題;
4) 使用式(13)獲得轉換后的數據y;
5) 隱藏數據x,并且僅使y可用。
對本文線性子空間投影算法和核廣義特征值分解算法使用Human Activity Recognition(HAR)數據集進行實驗,實驗數據集包含10 299個模式,每個模式包含561個屬性,這些屬性與從手機的加速度計獲得的智能手機的位置和運動相關。不敏感隱私任務(問題A)是識別智能手機用戶的當前活動,可能的活動是:行走、上樓、下樓、坐著、站立和躺著。從30個不同的人類用戶收集數據,與模式相關的用戶ID也是可用的,隱私敏感任務(問題B)是基于智能手機數據的用戶識別。實驗的硬件環境是具有Intel Core2 i7處理器的,8 GB內存,WIN10操作系統的筆記本。則數據集在使用本文算法進行隱私保護的流程如圖1所示。

圖1 本文算法對HAR數據集隱私保護流程圖
本文定義了整體性能標準,稱之為隱私指數PI,表示為問題A的準確度與問題B的分類誤差(即1減去準確度)之間的調和平均值:
(14)
式中:AccA為活動預測準確度,AccB為用戶預測準確度。如果AccA=1且AccB=0,則該準則達到其最大值1,另一方面,如果AccA=1或AccB=1,則PI=0。


表1 不同d條件下SP算法的性能



表2 不同γ條件下KP算法的PI值
可以看出,當SVM超參數γ=0.001,d=5時KP算法實現最佳性能,PI=0.903,此時AccA=91.4%,AccB=10.8%,這些值表示用戶預測準確率下降了89%,活動預測準確率下降了7.8%,此時,KP算法在隱私保護的性能上優于SP算法。
為了驗證本文算法的有效性,將本文算法與其他隱私保護算法進行比較,包括文獻[15]中TPNSA隱私保護算法和文獻[16]中LKC隱私保護算法,得出不同維度d的PI性能如圖2所示。
從圖中可以看出,本文隱私保護算法SP和KP都能夠實現數據的隱私保護,且性能優于其他兩種隱私保護算法,說明本文方法的有效性。
本文提出了一種新穎的子空間數據隱私保護算法,用于在協作環境中壓縮用戶提供給云的數據從而保護私人信息。隱私數據保護問題模型為一對具有矛盾目標的分類問題:不敏感隱私問題A和敏感隱私問題B,提出多類判別率標準,可得到最優的線性投影算子,最大化問題A的可分離性,同時最小化問題B的可分離性。使用核廣義特征值分解可以很容易地將該方法擴展到非線性投影。使用公開的HAR數據集對本文方法進行驗證,實驗結果表明核廣義特征值分解方法可以實現非常低的用戶識別性能,活動識別性能略有下降,并且本文算方優于其他隱私保護算法,說明本文方法的可行性與有效性。