摘 要:介紹了個性化服務(wù)中隱私保護的特點,總結(jié)了當前個性化服務(wù)中隱私保護技術(shù)的相關(guān)標準和發(fā)展現(xiàn)狀,并分析了個性化服務(wù)中進行隱私保護所面臨的主要問題和挑戰(zhàn),最后對個性化服務(wù)中隱私保護技術(shù)的發(fā)展方向進行了展望。
關(guān)鍵詞:Web挖掘;個性化服務(wù);隱私保護;協(xié)同過濾
中圖分類號:TP393 文獻標志碼:A
文章編號:1001-3695(2008)07-1932-04
Survey of privacy preserving in personalization service
YIN Kaihua,XIONG Zhang,WU Jing
(School of Computer Science Engineering, Beihang University, Beijing 100083, China)
Abstract:This paper introduced privacy protection features of personalization service, summarized the current privacy protection technology and the development of standards related to the personalization service, and analyzed the major problems and challenges of the privacy protection development in personalization service. Finally,it prospected the development direction of the privacy protection technology in personalization service.
Key words:Web mining;personalization service;privacy preserving;collaborative filtering
個性化服務(wù)[1] 一般通過收集用戶信息進行Web數(shù)據(jù)挖掘來獲得用戶的興趣,從而實現(xiàn)主動推薦的目的。隱私保護是在此過程中必須嚴肅思考的一個重要研究課題,其目標是要在合理保護用戶隱私數(shù)據(jù)的前提下進行知識抽取和發(fā)現(xiàn)。只有有效保護用戶的隱私,才能提升用戶的信任度和關(guān)注度。
數(shù)據(jù)挖掘中的隱私保護方法最早由R. Agrawal在KDD99上首次提出,并將其作為未來的研究重點之一[2],此后得到越來越多學(xué)者的關(guān)注。V. S. Verykios從數(shù)據(jù)分布方式、數(shù)據(jù)修改方法、數(shù)據(jù)挖掘算法、隱私保護的對象和隱私保護技術(shù)五個角度對傳統(tǒng)的隱私保護數(shù)據(jù)挖掘算法作了一個歸納[3]。個性化服務(wù)中的隱私保護是在結(jié)合了網(wǎng)絡(luò)安全和個性化服務(wù)方面的管理特點和理論的基礎(chǔ)上提出的,并迅速成為近年來個性化服務(wù)中研究的熱點之一。
個性化服務(wù)中隱私保護的難點是在不影響推薦質(zhì)量的前提下提高隱私保護的效果。目前,致力于此項研究的機構(gòu)包括W3C的P3P工作組、TRUSTe聯(lián)盟、Google、IBM Privacy Research Institute、Standford大學(xué)的Information Privacy Group和Berkeley大學(xué)的Ubicomp Privacy Research Group等。KDD、SIGMOD以及IEEE Internet Computing等國際著名會議期刊中對此都有所展望,并相繼涌現(xiàn)出重要的研究成果。而在國內(nèi),這還是一個嶄新的領(lǐng)域。
1 個性化服務(wù)中隱私保護的任務(wù)
目前存在著許多個性化服務(wù)系統(tǒng)[1],它們提出了各種思路以實現(xiàn)個性化服務(wù)。總體來說個性化服務(wù)系統(tǒng)根據(jù)其所采用的推薦技術(shù)可以分為基于規(guī)則的系統(tǒng)和信息過濾的系統(tǒng)兩種。信息過濾的系統(tǒng)又可分為基于內(nèi)容過濾和協(xié)作過濾。個性化系統(tǒng)大多具有分布式、數(shù)據(jù)量大、動態(tài)性強的特點。隱私保護要適應(yīng)個性化系統(tǒng)的這些特點。不同個性化系統(tǒng)中的隱私保護側(cè)重點和隱私保護的粒度也有所不同,有的側(cè)重于通信加密,有的側(cè)重于數(shù)據(jù)管理。
在個性化服務(wù)中,通常運用如下的數(shù)據(jù)挖掘算法:關(guān)聯(lián)規(guī)則挖掘、聚類、協(xié)同過濾等。在具體應(yīng)用中,對這些數(shù)據(jù)挖掘算法加入隱私保護的機制是目前個性化服務(wù)隱私保護的主要研究方向。
首先需要明確的是,可能泄露隱私的并不是數(shù)據(jù)挖掘技術(shù)本身,而是數(shù)據(jù)挖掘方法的特定應(yīng)用和具體過程。對于現(xiàn)有個性化服務(wù)站點而言,收集用戶信息的主要用途包括四個方面:
a)記憶用戶基本信息,統(tǒng)一身份認證并友好快捷地提供個性化平臺。
b)使用用戶信息提供其所要求的個性化服務(wù),包括顯示定制內(nèi)容、郵件服務(wù)和廣告服務(wù)等。
c)將用戶信息用于審計、調(diào)研和分析,以運作和改善站點服務(wù)技術(shù)。
d)與第三方共享綜合性信息。
在隱式興趣挖掘過程中,尤其需要針對信息的用途實施有效的保護用戶隱私的策略,確保收集信息的合法化,平衡個性化和隱私保護的關(guān)系。
綜上所述,個性化服務(wù)中的隱私保護要考慮到個性化系統(tǒng)的特點。最根本的研究問題是在不明顯降低推薦質(zhì)量的情況下提高隱私保護的效果,改進算法的效率。
2 隱私保護相關(guān)標準
用戶一般都很注意個人信息的保密性,因此在收集用戶的信息之前,首先要分析用戶愿意提供什么信息,同時要向用戶說明信息收集后的用途和隱私保護策略。
目前在個性化服務(wù)中使用的主要有P3P標準和EPAL標準,它們對系統(tǒng)如何搜集用戶信息、收集何種用戶信息,以及收集用戶信息后用于何種目的進行了定義。用戶可以根據(jù)這些聲明來自主選擇服務(wù)以及要提供的信息。
2.1 P3P
W3C成立P3P(platform for privacy preference)工作組,力圖以向用戶明確隱私策略的契約方式規(guī)范并允許用戶有選擇地向Web站點提供自己的信息,可作為管理用戶隱私的第一步。以Google為代表的一些個性化站點已開始試行支持將此策略集成到瀏覽器中管理Web信息。
P3P方案通過為隱私策略提供一個標準的可機讀格式,以及一個能使Web瀏覽器自動讀取和處理策略的協(xié)議來解決問題[4]。P3P可以啟用可機讀的隱私策略,而該隱私策略可以由Web瀏覽器和那些能顯示符號、提示用戶或采取其他適當行動的用戶代理工具來自動獲取。其中的一些工具也可以將各個策略與用戶的隱私偏好相比較,并幫助用戶決定何時與Web站點交換數(shù)據(jù)。
P3P還有一種用于編寫用戶隱私偏好的標準語言,它被稱為P3P偏好交換語言(P3P preference exchange language, APPEL)。APPEL 文件可以指定用戶代理將采用的舉措,并基于Web站點公布的類型而有所不同。APPEL文件為P3P用戶代理所用,而這些用戶代理并不要求將其送往Web站點。APPEL并未設(shè)計成終端用戶可讀的形式,對于組織機構(gòu)(如隱私提倡組織、隱私封印供應(yīng)商或政府隱私代理)來說,他們不愿意使用P3P用戶代理提供的默認設(shè)置,他們可以開發(fā)出自己定制的P3P配置文件并發(fā)布給用戶。APPEL還可以幫助那些已經(jīng)創(chuàng)建了自己理想配置設(shè)置的用戶從用戶代理那里導(dǎo)出設(shè)置,并將設(shè)置導(dǎo)入到其他用戶代理中。
目前已有一些站點和瀏覽器支持P3P,如www.w3c. org,www.microsoft.com,www.aol.com,www.att.com等和Microsoft/ATT P3P瀏覽器等。P3P在更多隱私保護要素的描述能力上還有待加強。
2.2 EPAL
企業(yè)隱私授權(quán)語言(enterprise privacy authorization language,EPAL)是IBM公司提出的一種基于XML的形式化語言,它允許企業(yè)直接用標記語言來定義其隱私保護策略和規(guī)則[5]。已于2003年11月提交給W3C組織。
EPAL專注于核心的隱私策略,抽象出數(shù)據(jù)模型和用戶權(quán)限并用標記語言來描述其規(guī)則。在EPAL中定義一系列數(shù)據(jù)類型、用戶類型、目的、隱私動作、職責和情況,通過它們之間的關(guān)系來定義隱私策略。與以往的基于角色的訪問控制不同,EPAL采用基于商業(yè)目的的訪問控制來定義與保護隱私,簡化了訪問控制模型,可以對各種隱私策略進行詳細的描述。與P3P不同的是它不僅僅用來與用戶的客戶端交換隱私保護的信息,同時也定義企業(yè)內(nèi)部對信息處理的規(guī)則來達到隱私保護的目的,適用范圍更廣,描述能力也更強。缺點是與現(xiàn)有系統(tǒng)的整合較為繁瑣,需要作較多改動,相應(yīng)的工具也比較缺乏。
使用P3P或EPAL來保護用戶隱私都是個性化服務(wù)提供商的自主行為,缺乏公信力。因此出現(xiàn)一些第三方的組織來解決這個問題。例如TRUSTe隱私計劃(TRUSTe privacy program)是為促進平等誠信使用互聯(lián)網(wǎng)信息的非贏利組織提出的實踐計劃,它提供對一系列Web站點隱私保密相關(guān)承諾的認證和監(jiān)督,Microsoft最早成為該計劃的聯(lián)盟成員。TRUSTe作為第三方的權(quán)威認證機構(gòu),能促進各個Web服務(wù)站點公平公開地提供隱私保護的個性化服務(wù)。
3 隱私保護的關(guān)鍵技術(shù)
3.1 匿名技術(shù)
匿名技術(shù)是隱私保護中廣泛使用的技術(shù),通過隱藏或不收集用戶的身份敏感信息,允許用戶提交數(shù)據(jù)而不暴露自己的身份。因其處理簡單,在個性化服務(wù)中較容易使用。然而通過匿名技術(shù)收集的數(shù)據(jù)難以保證質(zhì)量,因為在沒有身份確認的情況下大量用戶會提交無用的隨機數(shù)據(jù)。并且系統(tǒng)容易受到競爭對手的攻擊。例如一個公司在個性化系統(tǒng)中輸入大量的偽造數(shù)據(jù)來使自己生產(chǎn)的產(chǎn)品獲得更多的推薦。因此在個性化服務(wù)中確認用戶的身份是十分必要的。
K匿名(Kanonymization)技術(shù)是普通匿名技術(shù)的擴展[6]。它是多站點共享用戶數(shù)據(jù)情況下保護用戶隱私的一種重要方法,能有效地防止鏈接攻擊。它的主要思想是:準標志符是能夠利用推演來標志個體信息的一組屬性。如果發(fā)布的多個個體數(shù)據(jù)具有相同的準標志符,則可以防止鏈接攻擊導(dǎo)致的隱私泄露。經(jīng)過K匿名化后,一個發(fā)布表中的一條記錄r至少有K-1條記錄與r在準標志符上的投影值相等。K匿名技術(shù)的缺點是當存在多個屬性組要進行隱私保護處理時,計算比較復(fù)雜,不能很好滿足個性化服務(wù)實時性的需要。K匿名化會導(dǎo)致信息損失,不同的K匿名化方法造成的信息損失不同。信息損失越大,K匿名化后數(shù)據(jù)的實用性越小。進一步研究的方向是降低多約束情況下計算的復(fù)雜度,并減少信息損失。
3.2 關(guān)聯(lián)規(guī)則中隱私保護技術(shù)
關(guān)聯(lián)規(guī)則挖掘是一種典型的數(shù)據(jù)挖掘方法,最早由Agrawal等人[7]提出。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)存在于數(shù)據(jù)庫中的項目或?qū)傩蚤g的有趣關(guān)系。這些關(guān)系是預(yù)先未知的和被隱藏的,也就是說不能通過數(shù)據(jù)庫管理系統(tǒng)所提供的邏輯操作或統(tǒng)計的方法得出。其在個性化服務(wù)中得到了廣泛應(yīng)用,如IBM WebSphere(www.ibm.com/websphere)、BroadVision (www.broadvision.com)、ILOG(www.ilog.com)等[1]。現(xiàn)有的各種關(guān)聯(lián)規(guī)則挖掘算法大致可分為搜索算法、層次算法、數(shù)據(jù)集劃分算法、抽樣算法等。
關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘中最重要的方法之一,已經(jīng)也在隱私保護方面取得了一定的研究成果,可以利用到基于關(guān)聯(lián)規(guī)則的個性化服務(wù)中。關(guān)聯(lián)規(guī)則中隱私保護的基本策略有數(shù)據(jù)干擾[8~11]和查詢限制[12,13]兩大類。
數(shù)據(jù)干擾策略就是對原始數(shù)據(jù)按照一定的規(guī)則進行預(yù)變換,然后在經(jīng)過干擾的數(shù)據(jù)上運行數(shù)據(jù)挖掘算法,得到所需的模式和規(guī)則。文獻[8,9]提出了一種基于隨機變換[10]方法,通過增加數(shù)據(jù)干擾項和對數(shù)據(jù)分布重構(gòu)來實現(xiàn)隱私保護的關(guān)聯(lián)規(guī)則挖掘,并且在隨機化參數(shù)的設(shè)置和支持度的計數(shù)方法等方面進行了優(yōu)化。文獻[11]也采用這一方法,在此之上提出了部分支持度的概念,通過更多的參數(shù)控制對項目集的支持度進行估算,進而實現(xiàn)了隱私保護的關(guān)聯(lián)規(guī)則挖掘。
查詢限制策略則是通過數(shù)據(jù)隱藏等方式來改變特定規(guī)則的支持度和置信度,然后用概率統(tǒng)計的方法或者分布式計算的方法得到所需的挖掘結(jié)果。文獻[12]提出了通過使用未知值來替代部分敏感的原始數(shù)據(jù),使得敏感規(guī)則不被發(fā)現(xiàn)的方法。文獻[13]也提出了針對特定的敏感規(guī)則對原始數(shù)據(jù)進行隱藏,降低敏感規(guī)則支持度,使其不被發(fā)現(xiàn)的方法。這些方法使一部分敏感信息得到了很好的保護。但由于所提供的所有數(shù)據(jù)都是真實的原始數(shù)據(jù),對整個數(shù)據(jù)集的隱私保護程度還有待提高。而且,有些方法需預(yù)先知道需要隱藏或者處理的敏感規(guī)則,但在通常情況下,具體的規(guī)則在挖掘結(jié)果出來以前都是未知的。
3.3 協(xié)同過濾中隱私保護技術(shù)
協(xié)同過濾推薦技術(shù)[14]基于相似用戶群的興趣向目標用戶產(chǎn)生推薦,是當前個性化服務(wù)中最成功、使用最廣泛的推薦技術(shù)之一。它只依賴于用戶對項目的評分矩陣,因此對于各種特定應(yīng)用都有很好的適應(yīng)性,可提高個性化系統(tǒng)的可擴展性和推薦質(zhì)量。與其他數(shù)據(jù)挖掘技術(shù)一起,在協(xié)同過濾算法中加入隱私保護機制近年來引起了越來越多學(xué)者的研究興趣,是一個嶄新的領(lǐng)域,需要得到更多的關(guān)注。目前協(xié)同過濾中隱私保護技術(shù)基本可以分為基于密碼學(xué)的方法和數(shù)據(jù)變換兩大類。
3.3.1 基于密碼學(xué)的方法
安全多方計算[15](secure multiparty computation,SMC)是分布式環(huán)境下的一種加密方法;針對個性化服務(wù)分布式數(shù)據(jù)的存儲結(jié)構(gòu),是目前個性化服務(wù)協(xié)同過濾中最行之有效的隱私保護方法。安全多方計算協(xié)議要解決的問題可以描述如下:一組參與者希望共同計算某個約定的函數(shù),每個參與者提供函數(shù)的一個輸入,出于安全考慮,要求參與者提供的輸入對其他人保密。如果存在安全可信第三方(trusted third party,TTP),則安全多方協(xié)議所要解決的問題可以輕易地得到解決:只需各參與者將各自的輸入交給TTP,由TTP計算出函數(shù)值,再將函數(shù)值公布給各參與者。但現(xiàn)實中很難找到這樣的TTP,從而使安全多方計算協(xié)議的研究應(yīng)運而生。目前安全多方計算已得到許多學(xué)者的研究,其在密碼學(xué)上的地位也日益重要。許多學(xué)者在如何提高安全多方計算協(xié)議的效率、如何對安全多方計算進行形式化的定義、如何對通用的安全多方計算協(xié)議進行減裁使之能更有效地適用于不同的應(yīng)用環(huán)境、新的安全多方計算協(xié)議的構(gòu)造方法、安全多方計算攻擊者結(jié)構(gòu)定義等方面進行了大量的研究。
Canny第一次提出了P2P環(huán)境下的協(xié)同過濾推薦隱私保護問題[16,17]。文獻[16]采用了SVD技術(shù)和極大似然技術(shù)產(chǎn)生推薦,并設(shè)計了一個基于安全多方計算的通信協(xié)議。假設(shè)P是用戶對項目的評分矩陣,Pij代表用戶i對項目j的評分,i∈{1,…,n}, j∈{1,…,m}。Pij=0代表用戶i沒有對項目j進行評分。模型基于矩陣的奇異值分解(SVD),將矩陣P投影到k維線性空間A上。所有的用戶擁有對自己數(shù)據(jù)的完全控制權(quán)。同一個社區(qū)中的所有用戶可以通過加密協(xié)議計算出他們數(shù)據(jù)的聚集而不用暴露個人的隱私數(shù)據(jù)。社區(qū)內(nèi)和社區(qū)外的用戶最終都可以通過計算得到推薦。Canny把協(xié)同過濾任務(wù)約化為用戶數(shù)據(jù)評分向量的反復(fù)相加,所以數(shù)據(jù)的隱私保護可以采用基于同態(tài)加密技術(shù)的多方安全計算完成。Canny又在文獻[17]中提出基于概率模型的隱私保護個性化系統(tǒng)。隱私保護技術(shù)雖然與前者一致,但它采用基于EM的因子分析技術(shù)產(chǎn)生推薦,進一步提高了協(xié)同過濾的精確度。兩篇論文都屬于基于模型的協(xié)同過濾推薦技術(shù)研究范疇。Ahmad等人擴展了Canny的工作,提出了普適計算環(huán)境下基于雙向聚類的隱私保護方法[18]。他們的主要改進有用基于交叉最小化的雙向聚類來替代SVD技術(shù),簡化了同態(tài)加密技術(shù)的復(fù)雜性,可實現(xiàn)增量計算,以及對原有加密系統(tǒng)的簡化和改進,進一步提高了算法實現(xiàn)效率。
3.3.2 數(shù)據(jù)變換
數(shù)據(jù)變換是對原始數(shù)據(jù)進行變換處理的方法。Clifton等人討論了幾種防止對數(shù)據(jù)過分挖掘的方法[19],主要包括對數(shù)據(jù)增加噪聲、消除數(shù)據(jù)中的附加信息、故意增加錯誤數(shù)據(jù)等。數(shù)據(jù)變換在協(xié)同過濾的隱私保護中得到了廣泛應(yīng)用。
Polat等人在文獻[20,21]中運用隨機擾亂的數(shù)據(jù)變換技術(shù)來進行基于用戶相關(guān)性的協(xié)同過濾的隱私保護。不同于Canny設(shè)計的系統(tǒng),他們設(shè)計的系統(tǒng)是集中式的,不像Canny提出的分布式系統(tǒng)中每個用戶都會參與計算。用戶將經(jīng)過隨機擾亂的數(shù)據(jù)發(fā)送到服務(wù)器進行運算。其具體過程如下:設(shè)Pij代表用戶i對項目j的評分。客戶端通過公式Zij=(Pij-Pi)/σi計算得到標準化后的評分,服務(wù)器給所有客戶端指定一個隨機變量的范圍[α,-α];客戶端在Zij上加上一個此范圍內(nèi)的隨機變量值得到Z′ij,然后將這個經(jīng)隨機變換后的評分值發(fā)送到服務(wù)端進行協(xié)同過濾的計算。在對MovieLens中隨機抽取的3 000個用戶的數(shù)據(jù)進行實驗后發(fā)現(xiàn),協(xié)同過濾的精度隨著數(shù)據(jù)集規(guī)模的增大逐漸提高,隨著隨機變量的取值范圍的增大而減小。因此根據(jù)數(shù)據(jù)集的規(guī)模選擇合適的擾亂強度,兼顧隱私保護的效果和協(xié)同過濾的精度是十分重要的。
Polat等人繼續(xù)擴展了隨機擾亂技術(shù)在基于SVD的協(xié)同過濾系統(tǒng)中進行隱私保護的工作[21]。文獻[22,23]對協(xié)同過濾中數(shù)據(jù)不同的分布方式對隱私保護的影響進行了研究。文獻[22]討論了數(shù)據(jù)水平分布情況下隱私保護的實現(xiàn)。文獻[23]討論了垂直分布數(shù)據(jù)情況下隱私保護的實現(xiàn)。水平分布指數(shù)據(jù)按記錄分布在不同的站點;垂直分布指數(shù)據(jù)按屬性分布在不同的站點。
3.4 其他隱私保護技術(shù)
Cissee等人[24]設(shè)計了一組模塊來構(gòu)建一個多代理的個性化推薦系統(tǒng),并加入信息過濾技術(shù)來保護用戶隱私信息。系統(tǒng)使用了企業(yè)隱私管理和安全數(shù)據(jù)庫技術(shù)并對用戶信息加上元標記,將所有用戶的配置文件進行模糊處理并分布式存儲。此技術(shù)應(yīng)用在Smart Event Assistant推薦系統(tǒng)上。Berkovsky等人利用層次鄰居拓撲來增強協(xié)同過濾中的隱私保護[25]。所有用戶節(jié)點被組織成節(jié)點組,并被超級節(jié)點管理;超級節(jié)點加密所屬節(jié)點的計算,系統(tǒng)攻擊者只能看到用戶組聚集后的屬性而不能看到每個原始的節(jié)點數(shù)據(jù)。多組數(shù)據(jù)集的實驗證明,在模糊后的用戶配置文件上也能產(chǎn)生較精確的推薦。Lam等人提出信息價值的概念[26],對不同個性化系統(tǒng)所需收集的信息進行評價,通過分析用戶數(shù)量、控制信息采集量以及丟棄用戶信息來平衡推薦質(zhì)量和隱私保護。Wang等人參照軟件生產(chǎn)線提出了一個基于建模技術(shù)的體系結(jié)構(gòu)[27],在此之上能進行系統(tǒng)結(jié)構(gòu)級的配置管理并動態(tài)選擇個性化方法來滿足隱私保護要求。
4 個性化服務(wù)現(xiàn)有隱私保護方法比較
從上面的介紹中可以看出,個性化服務(wù)中現(xiàn)有的隱私保護方法在不同應(yīng)用場景下表現(xiàn)出不同的適應(yīng)性和性能,很少有一種方法能同時用于若干不同的應(yīng)用背景。當然,有些方法在特定方面優(yōu)于其他方法,如性能、實用性方面。有了一定的標準,用戶可以根據(jù)持有的數(shù)據(jù)、需要的挖掘結(jié)果來選擇適合他們的方法。目前并無統(tǒng)一的評價體系,對于現(xiàn)有的個性化服務(wù)中的隱私保護算法,本文總結(jié)可以從以下幾個方面加以衡量:
a)算法性能:主要指時間上的性能,即對此算法,用來對一定信息進行隱私保護運算所需的時間。運算時間越短,越符合實際運用的需要。
b)數(shù)據(jù)實用性:用經(jīng)過隱私保護算法后信息的遺失來衡量。信息遺失越少,數(shù)據(jù)挖掘算法得到的結(jié)果精度越高。
c)隱私保護有效性:隱私保護是對原始信息進行處理,使其暴露程度降低到一定閾值下,被隱藏的信息還是可能在一定精度、一定級別上被推理,或被恢復(fù)回來。隱私保護的效果決定了恢復(fù)的難度和效果。
d)對其他挖掘算法的影響:針對某種算法的隱私保護不一定對其他算法有效。所以,應(yīng)該防備攻擊者和數(shù)據(jù)竊取者利用各種數(shù)據(jù)挖掘算法本身來發(fā)現(xiàn)和發(fā)掘隱私數(shù)據(jù)及信息。
針對本文介紹的各種個性化服務(wù)中的隱私保護方法,表1對它們進行了比較。
表1 個性化服務(wù)中隱私保護方法比較
名稱數(shù)據(jù)挖掘算法優(yōu)點缺點
P3P無機讀格式,允許瀏覽器自動讀取和處理,用戶可以按需配置需要特定瀏覽器支持,缺乏統(tǒng)一的監(jiān)督管理
EPAL無可對隱私保護策略進行詳細配置和描述與現(xiàn)有系統(tǒng)集成復(fù)雜
匿名通用簡單、適用性廣數(shù)據(jù)質(zhì)量難以保證,易受攻擊
K匿名通用有效防止鏈接攻擊多約束條件下處理復(fù)雜,且信息損失較大
數(shù)據(jù)干擾關(guān)聯(lián)規(guī)則挖掘適用性廣,實現(xiàn)容易對挖掘結(jié)果的精度影響較大
查詢限制關(guān)聯(lián)規(guī)則挖掘?qū)γ舾行畔⒂行щ[藏需事先知道敏感規(guī)則
加密技術(shù)協(xié)同過濾算法性能較高需所有用戶參與計算,適用于分布式環(huán)境
數(shù)據(jù)變換協(xié)同過濾適用性廣、可通過改變參數(shù)來平衡推薦質(zhì)量和隱私保護效果
用戶數(shù)量較小時會影響推薦質(zhì)量
可以看出以上方法的適用范圍和隱私保護效果都存在一定缺陷,對它們的改進還有相當大的空間。
5 研究趨勢
目前個性化服務(wù)中隱私保護研究的主要思路是在數(shù)據(jù)通信和數(shù)據(jù)挖掘過程中加入隱私保護的處理流程。大多數(shù)都針對于特定的應(yīng)用和具體過程,且不同程度會對個性化服務(wù)的質(zhì)量帶來影響。針對現(xiàn)有方法的不足,本文在總結(jié)個性化服務(wù)中隱私保護現(xiàn)狀的前提下結(jié)合個性化服務(wù)的發(fā)展和特點提出了今后隱私保護的幾個研究趨勢:
a)融合或組合不同的方法形成新的隱私保護方法,綜合利用現(xiàn)有隱私保護方法的優(yōu)點。
b)重點深入研究協(xié)同過濾中的隱私保護方法,尤其是普適計算環(huán)境下協(xié)同過濾中的隱私保護將成為將來研究的熱點問題。
c)引入隱私保護程度的通用標準和評價體系以及標準的數(shù)據(jù)集和實驗平臺,使得實驗結(jié)果更具有說服力和可比性。
d)繼續(xù)改進現(xiàn)有算法的性能,降低算法的復(fù)雜度,提升隱私保護的效果和個性化推薦的質(zhì)量。
e)個性化系統(tǒng)體系結(jié)構(gòu)上的研究。開發(fā)可對個性化推薦算法和隱私保護技術(shù)進行動態(tài)配置的平臺。
個性化系統(tǒng)中隱私保護的研究仍然面臨許多挑戰(zhàn),需要更深入的研究使其在實際系統(tǒng)中得到更多應(yīng)用,真正有效保護用戶的信息和隱私安全。
6 結(jié)束語
本文綜述了個性化服務(wù)中隱私保護研究的發(fā)展現(xiàn)狀,討論了用戶隱私數(shù)據(jù)的收集標準和個性化服務(wù)中隱私保護的數(shù)據(jù)挖掘算法。個性化服務(wù)中隱私保護的研究有非常廣泛的應(yīng)用前景,但其今后的發(fā)展也面臨越來越多的挑戰(zhàn)。個性化系統(tǒng)本身具有的復(fù)雜性、動態(tài)性、分散性,用戶數(shù)據(jù)的高維性、稀疏性都是將來隱私保護技術(shù)需要更多考慮的問題。目前的各種方法還大都停留在實驗的階段,難以得到大規(guī)模的應(yīng)用。因此將來對個性化服務(wù)中隱私保護技術(shù)的研究是一個熱點問題,越來越多的新方法會層出不窮,重點研究問題是更好平衡隱私保護的效果和個性化服務(wù)的質(zhì)量,提高隱私保護算法的效率,使之在實際應(yīng)用系統(tǒng)中得到更多的應(yīng)用。隨著信息技術(shù)的發(fā)展、個性化系統(tǒng)的廣泛應(yīng)用,個性化服務(wù)中隱私保護技術(shù)也會得到更多的重視和研究。
參考文獻:
[1] 曾春,邢春曉,周立柱.個性化服務(wù)技術(shù)綜述[J].軟件學(xué)報,2002,13(10):19521960.
[2]AGRAWAL R.Data mining: crossing the Chasm [C]//Proc of the 5th Int’l Conference on Knowledge Discovery in Databases and Data Minning .San Diego, California:[s.n.],1999.
[3]VERYKIOS V S,BERTINO E,F(xiàn)OVINO I N,et al.Stateoftheart in privacy preserving data mining[C]//Proc of ACM SIGMOD Record. New York:ACM Press, 2004:50-57.
[4]Platform for privacy preferences(P3P) project [EB/OL]. http://www .w3.org/P3P/.
[5]Enterprise privacy authorization language (EPAL 1.2) [EB /OL]. http://www.w3.org/Submission/EPAL/.
[6]SWEENEY L. KAnonymity:a model for protecting privacy[J].Int’l Journal on Uncertainty, Fuzziness and Knowledgebased Systems,2002,10(5):557-570.
[7]AGRAWAL R, IMIELINSKI T,SWAMI A. Mining association rules between sets of items in large databases[C]//Proc ofACM Sigmod Conference of Management of Data. New York:ACM Press, 1993:207216.
[8]RIZVI S J,HARITSA J R.Maintaining data privacy in association rule mining[C]//Proc of the 28th VLDB Conference. Hong Kong: Morgan Kaufmann Publishers, 2002:682-693.
[9]AGRAWAL S, KRISHNAN V, HARITSA J R.On addressing efficiency concerns in privacypreserving mining[C]//Proc of the 9th Int’l Conference on Database Systems for Advanced Applications. Jeju Island: SpringerVerlag,2004:113124.
[10] EVFIMIEVSKI A. Randomization in privacy preserving data mining[J].SIGKDD Explorations,2002,4(2):43-48.
[11]EVFIMIEVSKI A, SRIKANT R,AGRAWAL R,et al.Privacy preserving mining of association rules[C]//Proc of the 8th ACM SIGKDD International Conference on Knowledge Discovery in Database and Data Mining. Edmonton: ACM Press,2002:217-228.
[12]SAYGIN Y,VERYKIOS V S,CLIFTON C.Using unknowns to prevent discovery of association rules[J].ACM SIGMOD Record,2001,30(4):45-54.
[13]OLIVEIRA S R M, ZAIANE O R.Privacy preserving frequent itemset mining[C]//Proc of IEEE ICDM Workshop on Privacy,Security and Data Mining. Maebashi City, Japan:[s.n.],2002:43-54.
[14]CHEE S H S,HAN Jiawei, WANG Ke.RecTree:an efficient collaborative filtering method[C]//Proc of the 3rd International Conference on Data Warehousing and Knowledge Discovery.Germany:[s.n.],2001:141151.
[15]CANETTI R.Studies in secure multiparty computation and applications[D].Rehovot, Israel: Weizmann Institute of Science,1995.
[16]CANNY J.Collaborative filtering with privacy[C]//Proc of IEEE Symposium on Security and Privacy. Berkerley:[s.n.],2002:45-57.
[17]CANNY J.Collaborative filtering with privacy via factor analysis[C]//Proc of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Tampere,F(xiàn)inland:[s.n.],2002:238-245.
[18]AHMAD W,KHOKHAR A.Phoenix:privacy preserving biclustering on horizontally partitioned data amid malicious adversaries [C]//Proc of ACM SIGKDD International Workshop of Privacy, Security and Trust in KDD.San Jose:[s.n.],2007.
[19]CLIFTON C,KANTARCIOGLU M,VAIDYA J,et al.Tools for privacy preserving distributed data mining[J].SIGKDD Explorations,2002,4(2):28-34.
[20]POLAT H,DU Wenliang.Privacy preserving collaborative filtering using randomized perturbation techniques[C]//Proc of the 3rd IEEE International Conference on Data Mining.Melbourne,F(xiàn)lorida:[s.n.],2003:625-628.
[21]POLAT H,DU Wenliang.SVDbased collaborative filtering with privacy[C]//Proc of the 20th ACM Symposium on Applied Computing, Track on Ecommerce Technologies. Santa Fe,New Mexico:[s.n.],2005:791795.
[22]POLAT H,DU Wenliang.Privacypreserving topN recommendation on horizontally partitioned data[C]//Proc of IEEE/WIC/ACM International.2005: 725731.
[23]POLAT H,DU Wenliang.Privacypreserving topN recommendation on vertically partitioned data[C]//Proc of the 9th European Conference on Principles and Practice of Knowledge Discovery in Databases.Porto,Portugal:[s.n.],2005.
[24]CISSEE R,ALBAYRAK S.An agentbased approach for privacypreserving recommender systems[C]//Proc of AAMAS.Honolulu,Hawaii:[s.n.],2007.
[25]BERKOVSKY S,EYTANI Y.Hierarchical neighborhood topology for privacy enhanced collaborative filtering[C]//Proc of CHI 2006 Workshop on PrivacyEnhanced Personalization.Montreal:[s.n.],2006.[26]LAM S K,F(xiàn)RANKOWSKI D,RIEDL J.Do you trust your recommendations? An exploration of security and privacy issues in recommender systems[EB/OL].http://www.grouplens.org /publications.html.
[27]WANG Yang,KOBSA A.A software product line approach for handling privacy constraints in Web personalization[C]//Proc of the 10th International Conference on User Modeling.Edinburgh:[s.n.],2005:35-45.
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”