穆海蓉,丁麗萍,宋宇寧,盧國慶
(中國科學院軟件研究所基礎軟件國家工程研究中心,北京 100190)
DiffPRFs:一種面向隨機森林的差分隱私保護算法
穆海蓉,丁麗萍,宋宇寧,盧國慶
(中國科學院軟件研究所基礎軟件國家工程研究中心,北京 100190)
提出一種基于隨機森林的差分隱私保護算法DiffPRFs,在每一棵決策樹的構建過程中采用指數機制選擇分裂點和分裂屬性,并根據拉普拉斯機制添加噪聲。在整個算法過程中滿足差分隱私保護需求,相對于已有算法,該方法無需對數據進行離散化預處理,消除了多維度大數據離散化預處理對于分類系統性能的消耗,便捷地實現分類并保持了較高的分類準確度。實驗結果驗證了本算法的有效性以及相較于其他分類算法的優勢。
差分隱私;隱私保護;隨機森林;數據挖掘
隨著信息技術應用的普及和深入,各種信息系統存儲并且積累了豐富的數據。對于數據的需求極大促進了數據的發布、共享和分析。然而,數據集里通常包含著許多個人隱私信息,直接發布包含敏感信息的數據或是對已發布的數據進行分析都有可能造成個人隱私的泄露。隱私保護技術可以解決數據發布和數據分析帶來的隱私威脅問題,防止用戶的個人隱私信息或者敏感數據的泄露。
差分隱私[1~5]是Dwork在2006年針對統計數據庫的隱私泄露問題提出的一種新的隱私定義。在此定義下,對數據集的計算處理結果對于某個具體記錄的變化是不敏感的。所以,一個記錄加入到數據集中所產生的隱私泄露風險被控制在極小的、可接受的范圍內,攻擊者無法通過觀察計算結果而獲取準確的個體信息。差分隱私能夠解決傳統隱私保護模型的2個缺陷:1) 差分隱私保護模型假設攻擊者能掌握最大的背景知識,在這一最大背景知識假設下,差分隱私保護無需考慮攻擊者所擁有的任何可能的背景知識;2) 它對隱私保護進行了嚴格的定義,并提供了量化評估方法。將差分隱私應用于數據挖掘中已有一些嘗試,主要研究方向包括分類及回歸分析[7~11]、top-k頻繁模式挖掘[12,13]、聚類等。
分類[6]是一類重要的數據挖掘方法,在數據預測分析中起著關鍵作用。它找出描述和區分數據類或概念的模型(導出模型是基于對訓練數據集的分析),以便能夠使用模型預測對象的類標號。導出模型可以用多重形式表示,如分類規則、決策樹、數學公式或神經網絡。決策樹是分類模型的典型代表,它是一種樹形的分類模型,樹內節點表示在某個屬性上的測試,而葉節點表示一個類。決策樹歸納的學習和分類步驟是簡單和快速的,一般而言,決策樹分類器具有很好的準確率。決策樹是許多商業規則歸納系統的基礎,然而決策樹本身以及相應的計數信息都有可能泄露用戶隱私信息,存在個人隱私泄露的風險。
在決策樹中應用差分隱私已經有了一些研究成果。文獻[7]提出了基于交互式框架的應用差分隱私保護的決策樹構建算法SuLQ-based ID3。文獻[8]針對文獻[7]噪聲大的缺點,提出了利用指數機制挑選分裂屬性的DiffP-ID3和DiffP-C4.5決策樹分類方法。另外文獻[9,10]基于非交互式框架,利用數據泛化(在數據挖掘研究中,將與挖掘任務相關的數據集從較低的概念層抽象到較高的概念層的處理過程)的方法,對數據進行匿名處理并發布,提高了分類的精度。文獻[11]將差分隱私應用在決策樹提升算法隨機森林中,但提出的算法基于只能處理離散屬性的 ID3決策樹,因此需要對連續屬性進行預處理后才能對數據集進行分類。
根據這些研究及存在的問題,本文提出一種基于差分隱私保護的隨機森林分類方法。該方法相對于已有算法,消除了數據離散化的預處理步驟,便捷地實現分類并保持了較高的分類準確度,兼顧決策樹分類的隱私性與可用性及分類實現的效率。
定義1 ε-差分隱私[1]。對于所有差別至多為一條記錄的 2個數據集D1和D2,給定一個隱私算法F,Range(F)表示F的取值范圍。若算法F提供ε-差分隱私保護,則對于所有S∈Range(F),有

概率Pr[Es]表示事件Es的隱私被披露風險,由算法F隨機性所控制,隱私預算ε表示隱私保護程度,ε越小隱私保護程度越高。
從定義可以看出,差分隱私技術限制了任意一條記錄對算法F的輸出結果的影響。定義從理論角度確保算法F滿足ε-差分隱私,實現差分隱私保護則需要使用噪聲機制。
噪聲機制是實現差分隱私保護的主要技術,常用的噪聲添加機制是拉普拉斯機制[4]和指數機制[5]。基于不同噪聲機制且滿足差分隱私的算法所需噪聲大小與全局敏感性(global sensitive)相關。
定義 2 對于任意一個函數f:D→Rd,f的全局敏感性[4]定義為

數據集D1和D2之間至多相差一條記錄。R表示映射的實數空間,d表示函數f的查詢維度。
拉普拉斯機制通過拉普拉斯分布產生的噪聲擾動真實輸出值來實現差分隱私保護。
定理 1 拉普拉斯機制[4],對于任一函數,若算法F的輸出結果滿足下列等式,則F滿足ε-差分隱私保護。

定理2 指數機制[5],設隨機算法M輸入為數據集D,輸出為一實體對象r∈Range ,q(D, r)為可用性函數,Δq為函數q(D, r)的敏感度。若算法M以正比于的概率從Range中選擇并輸出r,那么算法M提供ε-差分隱私保護。
隨機森林[14]指的是利用多棵樹對樣本進行訓練并預測的一種分類器。簡單來說,隨機森林由多棵決策樹構成,并且其輸出的類別是由單棵決策樹輸出的類別的眾數而定。Leo和 Adele最早提出了執行隨機森林的關鍵算法。Amit、Gemen和Ho Tim Kam各自獨立地介紹了特征隨機選擇的思想,并且運用了Breiman的bootstrap aggregating思想構建了控制方差的決策樹集合。
2.2.1 訓練方法與分類方法
隨機森林的訓練和分類過程可以總結如下。
輸入:訓練數據集S,屬性集F,分類屬性集C生成的決策樹的數量t,每棵樹的深度d,每個節點使用到的屬性數量f
終止條件:節點全部記錄的分類屬性一致,或達到最大深度d
輸出:隨機森林


2) 隨機地從屬性集F中選取f個屬性;
3) 從 f個屬性中尋找分類效果最好的屬性 k作為分裂屬性,將當前節點上樣本第k維屬性按照分類結果被劃分到子節點

利用隨機森林的預測過程如下。
對于第k棵樹:
1) 從當前樹的根節點開始,根據當前節點的分類結果集合,判斷是進入哪個子節點,直到到達某個葉子節點,并輸出預測值;
2) 重復執行 1)直到所有 t棵樹都輸出了預測值。對于分類問題,輸出為所有樹中預測概率總和最大的那一個類,即對每個c(j)的p進行累計。
2.2.2 隨機森林的特點
隨機森林的優點如下。
1) 在大數據集上表現良好,2個隨機性的引入使隨機森林不容易陷入過度擬合,并且具有很好的抗噪聲能力。
2) 能夠處理很高維度的數據,它可以處理非常多的輸入變量,并確定最重要的變量,因此被認為是一個不錯的降維方法。
3) 訓練過程速度快,可以得到屬性重要性排序。
4) 容易做成并行化方法。
5) 實現比較簡單。
隨機森林的缺點如下。
1) 隨機森林在解決回歸問題時因為不能給出一個連續型的輸出,導致其并沒有像分類中表現的那么好。當進行回歸時,隨機森林不能夠作出超越訓練集數據范圍的預測,這可能導致在對某些含有特定噪聲的數據進行建模時出現過度擬合。
2) 隨機森林讓統計建模者感到幾乎無法控制模型內部的運行,只能在不同的參數和隨機種子之間進行嘗試。
本課題重點關注決策樹分類與差分隱私的結合。由于分類屬性高維度的特點,給差分隱私保護技術在決策樹構建過程中的應用帶來了很大的挑戰。
表1展示了當前在交互式框架與非交互式框架下,基于差分隱私的決策樹分類方法的研究進展。

表1 差分隱私下分類方法對比分析
SuLQ-based ID3算法[7]基于交互式框架,其基本思想是在每次計算屬性的信息增益時,使用加入噪聲的計數值,最終生成相應的決策樹。從對模擬數據集的實驗結果來看,在隱私保護預算小于 1的情況下,該算法相對于無隱私保護功能的ID3算法,其預測準確率大約降低了30%[8]。
Friedman 和 Schuster 基于 PINQ 平臺對SuLQ-based ID3算法進行了改進,利用其中的Partition算子將數據集分割成不相交的子集,然后再實現ID3算法。但由于每個查詢的預算相對很小,所以無法顯著降低SuLQ-based ID3所引入的噪聲。Friedman和Schuster 進一步在ID3算法中應用指數機制實現差分隱私保護,提出了DiffP-ID3算法[8],有效降低了噪聲。另外,通過將離散屬性的處理擴展到連續屬性,Friedman 和 Schuster 還提出了DiffP-C4.5算法[8]。DiffP-C4.5算法的缺點在于,在每一次迭代中必須先用指數機制對所有連續屬性選擇分裂點,然后將所得結果與全部離散屬性一起再次通過指數機制選擇最終的分裂方案,由于每次迭代需要調用指數機制2次,因此消耗了過多的隱私保護預算。
DiffGen算法[9]結合泛化(generalization)技術與自頂向下分割技術,結合指數機制與信息增益來確定分裂屬性。自頂向下劃分數據集D中所有記錄到決策樹的葉子節點,然后對葉子節點添加拉普拉斯噪聲。實驗結果表明,DiffGen方法的分類精度高于SuLQ-based ID3和DiffP-C4.5方法,但是由于該方法每一個分類屬性對應一個分類樹,當數據集中的分類屬性維度非常大時,該方法不得不維護大量的分類樹,導致基于指數機制的選擇方法效率很低,并且有可能耗盡隱私預算。
DT_Diff算法[10]對 DiffGen和DiffP-C4.5中的問題進行了改進,將所有連續屬性細分方案乘以相應的權重后和離散屬性細分方案一起構成候選方案集,再調用指數機制來選擇細分方案。這樣做減少了調用指數機制的次數,從而提高了隱私預算的利用率,使在給定的隱私預算下,數據集能夠更大程度地精確化,從而提高分類模型的準確率。
Abhijit Patil和Sanjay Singh將差分隱私應用在決策樹提升算法隨機森林中,提出了DiffPRF算法[11],但提出算法基于只能處理離散屬性的ID3決策樹,因此需要先對連續屬性進行預處理后才能通過該算法對數據集進行分類。
上述幾種方法無論是基于交互式框架還是非交互式框架,其核心技術均為決策樹和拉普拉斯/指數機制,并且使用信息增益來選擇分裂規則。但是它們或多或少存在一些問題,主要有2點不足:1)當數據集中分類屬性的維度非常大時,導致基于指數機制的選擇方法效率很低;2)隱私預算分配策略過于單一,急需有效的策略。因此,如何對具有高維度分類屬性的數據集進行分類,以及如何設計有效的隱私預算分配策略,是未來的研究方向。本文提出的方法基于隨機森林的特性,提高了對大數據集、高維數據集分類時使用指數機制的效率,并且支持直接對連續屬性的分類,而不需先對高維連續屬性進行離散化,實驗結果驗證了本算法有較高的分類準確度。
本文提出一種差分隱私下的隨機森林分類方法,將差分隱私應用在隨機森林當中,在可接受的分類準確度下盡可能保護數據的隱私。
差分隱私下的隨機森林建立過程描述如下。
輸入:訓練數據集S,屬性集F,分類屬性集C,隱私預算B,生成的決策樹的數量t,每棵樹的深度d,每個節點使用到的屬性數量f
終止條件:節點全部記錄的分類屬性一致,達到最大深度d或隱私預算耗盡
輸出:滿足ε-差分隱私的隨機森林

2) for b=1 to t
3) 從S中有放回的隨機選取大小為|S|的訓練集S(i);


8) 隨機地從屬性集F中選取f個屬性;
9) 若隨機選擇的f個屬性中包含n連續屬性,執行步驟10),否則,直接執行步驟11);

用以下概率選擇每個連續屬性的分裂點


12) 按照分裂屬性將當前節點分為2個子節點

通過以上算法建立的隨機森林對測試集進行分類的過程描述如下。
輸出:測試集中每條記錄的分類結果
1) 對于測試集T每一條記錄x;
2) for b=1 to t;
3) 從當前樹的根節點開始,根據當前節點的分類結果集合,判斷是進入哪個子節點,直到到達某個葉子節點;
差分隱私下的隨機森林分類方法DiffPRFs分2步來實施,具體步驟如下。
1) 通過訓練數據集建立隨機森林
輸入:訓練數據集S,屬性集F,分類屬性集C,隱私預算B,生成的決策樹的數量t,每棵樹的深度d
終止條件:節點全部記錄的分類屬性一致,達到最大深度d或隱私預算耗盡
輸出:滿足ε-差分隱私的隨機森林
首先根據參數中樹的棵數,將隱私預算B均分給t棵樹;之后按照同樣的規則遞歸地生成每一棵決策樹。生成決策樹的策略如下。
2) 利用建立的隨機森林對測試數據集進行分類
輸出:測試集中每條記錄的分類結果
對測試集中的每一條記錄,應用森林中的每一棵樹對其進行分類預測。在每一個節點上都根據當前節點的分類結果集合判斷該條記錄應進入哪一個子節點,直到到達某個葉子節點,通過當前葉子節點ε獲得一個預測值。根據森林中每棵樹的預測結果得到所有預測結果中概率最大的那個分類結果。之后輸出所有記錄的分類結果。
由于隨機森林在大數據集上表現良好,能夠處理很高維度(即屬性較多)的數據,并且訓練速度快,這些優點能夠很好地解決此前方法中問題,實現對高維度大規模數據的高準確度預測分類。
3) 可用性函數
設S為數據集,s=|S|,分類屬性C有m個不同取值,即定義了m個不同的類
在算法中為了度量用每個屬性進行分類、用不同的分裂點對連續屬性進行劃分的可用性水平,選用以下2種可用性函數。
一種是基于信息增益[15]的可用性函數,即
計算數據集S的熵為

其中,pi是S中任意元素屬于類Ci的非零概率,使用估計。
假設按屬性A劃分S中的元組,A根據訓練數據集有v個不同值使用屬性A將S劃分為u個子集,基于按A劃分對S中的元組分類所需的期望信息為


用其分類產生的信息增益為
DiffPRFs算法中將給定的隱私預算B首先平均分給森林中的每一棵樹,由于每棵樹中的樣本是隨機選擇的,因此會有一定的交叉,根據差分隱私序列組合性,隨機消耗的隱私預算為每棵決策樹消耗隱私預算的疊加。樹的每一層包括葉子節點都是相同的數據集,因此平均分配了隱私預算。每一層因為在不相交的數據集上進行技術和分裂,因此每個節點分配的隱私預算就是這一層的隱私預算。根據差分隱私的并行組合性[16],節點的隱私預算不進行累加。分給每個節點的隱私預算一半用來估計該節點的實例數(應用拉普拉斯機制),另一半需要根據該節點是中間節點還是葉節點進行區分,若該節點為葉節點,需要用剩下的這一半隱私預算來確定類計數,同樣使用拉普拉斯機制對計數值添加噪聲。若該節點為中間節點,假設從F個屬性中隨機選出的f個屬性有n個連續屬性,將隱私預算均分為n+1份,選擇每個連續屬性的分裂點,之后從所有屬性中選擇出該節點的分裂屬性,選擇分裂點與分裂屬性時均使用指數機制進行選擇,每次使用指數機制消耗的隱私預算為,按照差分隱私的序列組合性[16],多次指數機制消耗的隱私預算為各次的疊加。所以,算法所消耗的全部隱私預算不大于B,它具有ε?差分隱私性。
生成的這些決策樹組成滿足ε?差分隱私的隨機森林。每棵樹的訓練樣本是隨機選擇的,樹中每個節點屬性也是隨機選擇的。每個節點上屬性的個數一般為整個屬性個數的均方根,這樣也就一定程度上解決了高維度帶來的問題。
本文的分類器數據處理、訓練和測試算法均采用python2.7實現。實驗環境為OS X Yosemite四核2.8 GHz,內存 16 GB 1 600 MHz DDR3。本文以 UCI機器學習數據庫中的 adult數據集檢驗算法的有效性,并在相同的測試條件下與其他算法進行比較。UCI adult包含訓練集與測試集,其中,包含6個連續屬性與8個離散屬性。分類屬性income level分為“≤50k”與“≥50k”2類。訓練集中包含45 222條記錄,測試集中包含15 060條記錄。
在ε=0.05、0.1、0.25、0.5、0.75、1、2,t=25,每棵樹的深度d=3、4、5、6、7,可用性函數使用信息增益和最大類頻數和的設置下進行了多組實驗。每組實驗在給定的隱私預算和樹的深度下使用DiffPRFs算法對訓練數據集建立隨機森林分類模型,并用該模型對測試數據集進行分類,記錄相應的分類準確度。每組實驗進行5次,以5次結果平均值作為最終結果。實驗結果如圖1所示。
從圖1中可以看出,當ε取值較小的時候,由訓練集訓練出的隨機森林分類器分類準確度較低,而隨著ε取值增大,分類正確率雖然偶有波動,但總體趨勢是逐漸提高的。這是因為隨著ε逐漸增大,較優的方案被選擇的幾率也隨之提高。隨著決策樹深度的增加,記錄經過了更多屬性的篩選,分類的準確度也逐漸提高。另外2種可用性函數的準確度也非常類似,趨勢上也均符合預期。

圖1 不同條件下的DiffPRFs分類準確度
本文還設定d=5,ε=0.1、0.25、0.5、0.75、1,t=25,將提出的算法 DiffPRFs與不加入差分隱私的隨機森林算法、DiffPRF算法進行比較。其中不加差分隱私的隨機森林算法由本文提出的算法修改實現、DiffPRF算法同等條件下的分類準確度由文獻[11]提供。實驗結果如圖2所示。

圖2 與隨機森林及DiffPRF的比較
通過與隨機森林算法以及DiffPRF算法的比較可以看出,本文提出的算法可以達到較高的分類準確度。雖然在構建決策樹的過程中消耗了一定的隱私預算處理連續屬性,但不需對連續屬性進行離散化預處理,面對大規模高維度的數據,將連續屬性離散化十分費時費力,因此在構建決策樹的過程中進行直接處理一定程度上提高了分類的效率。在這樣的情況下分類準確度相對于DiffPRF算法只降低了非常有限的一點,這是可以接受的。本算法在保證數據安全性的前提下,提供了更加便捷高效的分類方法,連續屬性與離散屬性都可以直接處理,同時也保證了數據的可用性。
本文提出了一種面向隨機森林的差分隱私保護算法DiffPRFs,用于對數據構建分類器并且進行分類。通過對DiffPRF算法中指數機制方案選擇的改進,使構建的隨機森林可以在決策樹構建過程中有效地處理連續屬性,而不需要在構造隨機森林前預先進行處理,避免了對高維度、大規模數據進行離散化的高額成本。實驗結果證明本算法相較于DiffPRFs算法的分類準確度并沒有明顯降低,從而顯示了該算法的優越性。當然由于建立了多棵決策樹,每棵樹分配的隱私預算相對較少,一定程度上影響了分類的準確度,接下來的工作中會繼續嘗試對算法進行進一步優化,提升分類的準確度;也會嘗試在其他一些決策樹的提升算法中應用差分隱私,以期得到更好的分類準確度。
[1] DWORK C. Differential privacy[C]//The 33rd International Colloquium on Automata, Languages and Programming. Berlin:Spinger-Verlag, 2006: 1-12.
[2] DWORK C. A firm foundation for private data analysis[J]. Communications of the ACM, 2011, 54(1):86-95.
[3] 張嘯劍, 孟小峰. 面向數據發布和分析的差分隱私保護[J]. 計算機學報, 2014, 37(4): 927-949.ZHANG X J, MENG X F. Differential privacy in data publication and analysis[J]. Chinese Journal of Computers, 2014, 37(4): 927-949.
[4] DWORK C, MCSHERRY F, NISSIM K, et al. Calibrating noise to sensitivity in private data analysis[M]//Theory of Cryptography.Springer Berlin Heidelberg, 2006: 265-284.
[5] MCSHERRY F, TALWAR K. Mechanism design via differential privacy[C]//Foundations of Computer Science. 2007: 94-103.
[6] 范明, 孟小峰, 譯. 數據挖掘: 概念與技術[M]. 北京: 機械工業出版社, 2012.FAN M MENG X F. Data minify: concepts and techniques[M]. Beijing China Machine Press, 2012.
[7] BLUM A, DWORK C, MCSHERRY F, et al. Practical privacy: the SuLQ framework[C]//The 24th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems. ACM, 2005:128-138.
[8] FRIEDMAN A, SCHUSTER A. Data mining with differential privacy[C]//The 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2010: 493-502.
[9] MOHAMMED N, CHEN R, FUNG B, et al. Differentially private data release for data mining[C]//The 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2011: 493-501.
[10] ZHU T, XIONG P, XIANG Y, et al. An effective deferentially private data releasing algorithm for decision tree[C]//Trust, Security and Privacy in Computing and Communications (TrustCom), 2013 12th IEEE International Conference. IEEE, 2013: 388-395.
[11] PATIL A, SINGH S. Differential private random forest[C]//Advances in Computing, Communications and Informatics International Conference. IEEE, 2014: 2623-2630.
[12] 丁麗萍, 盧國慶. 面向頻繁模式挖掘的差分隱私保護研究綜述[J].通信學報, 2014, 35(10): 200-209.DING L P, LU G Q. Survey of differential privacy in frequent pattern minify[J]. Journal on Communications, 2014, 35(10): 200-209.
[13] 盧國慶, 張嘯劍, 丁麗萍, 等. 差分隱私下的一種頻繁序列模式挖掘方法[J]. 計算機研究與發展, 2015, 52(12): 2789-2801.LU G Q, ZHANG X J, DING L P, et al. Frequent sequential pattern mining under differential privacy[J]. Journal of Computer Research and Development, 2015, 52(12) : 2789-2801.
[14] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1):5-32.
[15] QUINLAN J R. Induction of decision trees[M]//Readings in Knowledge Acquisition and Learning.San Francisco: Morgan Kaufmann Publishers Inc,1993: 349-361.
[16] MCSHERRY F. Privacy integrated queries: an extensible platform for privacy-preserving data analysis[C]//The 2009 ACM SIGMOD International Conference on Management of Data. ACM, 2009: 19-30.
DiffPRFs: random forest under differential privacy
MU Hai-rong, DING Li-ping, SONG Yu-ning, LU Guo-qing
(National Engineering Research Center of Fundamental Software, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
A differential privacy algorithm DiffPRFs based on random forests was proposed. Exponential mechanism was used to select split point and split attribute in each decision tree building process, and noise was added according to Laplace mechanism. Differential privacy protection requirement was satisfied through overall process. Compared to existed algorithms, the proposed method does not require pre-discretization of continuous attributes which significantly reduces the performance cost of preprocessing in large multi-dimensional dataset. Classification is achieved conveniently and efficiently while maintains the high accuracy. Experimental results demonstrate the effectiveness and superiority of the algorithm compared to other classification algorithms.
differential privacy, privacy protection, random forest, data mining
The National High Technology Research and Development Program of China(863 Program) (No.2015AA016003)
TP309.2
A
10.11959/j.issn.1000-436x.2016169
2016-01-11;
2016-03-16
國家高技術研究發展計劃(“863”計劃)基金資助項目(No.2015AA016003)

穆海蓉(1990-),女,山西太原人,中國科學院軟件研究所碩士生,主要研究方向為差分隱私保護、數據挖掘。
丁麗萍(1965-),女,山東青州人,中國科學院軟件研究所研究員、博士生導師,主要研究方向為數字取證、系統安全與可信計算。
宋宇寧(1985-),男,黑龍江哈爾濱人,中國科學院軟件研究所工程博士生,主要研究方向為差分隱私保護、數據挖掘。
盧國慶(1989-),男,山東章丘人,中國科學院軟件研究所碩士生,主要研究方向為差分隱私保護、數據挖掘。