張毅 哈爾濱市信息化建設項目管理中心 周佩 黑龍江省財政信息中心 許斌 東北農業大學
數據挖掘隱私保護算法研究
張毅 哈爾濱市信息化建設項目管理中心 周佩 黑龍江省財政信息中心 許斌 東北農業大學
目前,隨著各領域的信息量暴漲,致使數據挖掘方面既存在機遇又存在挑戰,并且這種爆破式的增長導致用戶數據挖掘與儲存的安全隱私產生了極大的隱患。因此,對數據挖掘隱私保護成為了當前亟待解決的問題。本文主要對數據挖掘隱私保護的算法進行研究,通過擾動算法以及關聯規則隱藏算法兩種算法進行對數據挖掘隱私保護算法進行研究,以期使問題得到解決。
數據挖掘 隱私保護 算法研究 關聯規則隱藏算法
隨著網絡科技的快速發展,各種信息、資源能夠達到共享,使人們接受各類信息更加快捷方便,與此同時,信息量的暴增以及網絡的透明化也使用戶的數據挖掘隱私保護受到了威脅,用戶機密隱私信息遭到泄漏。數據挖掘的目的是為了對數據信息進行科學分析;另外,對需要保護的重要數據信息應該采取修改或刪除的方式來進行保密。本文主要對擾動算法以及關聯規則隱藏算法進行研究和介紹,對數據挖掘隱私保護算法的趨勢進行分析。
此算法主要包括隨機擾動以及乘法擾動兩個方面。前者的主要是通過加法的運算方法來對原始數據進行噪聲的添加,并且這種添加方式為隨機添加,除此之外,隨機擾動的算法還包括k-mean算法、數據轉換矩陣算法以及多重隨機算法等。而后者則包含投影擾動和旋轉擾動兩種算法。
1.1.1 隨機擾動
此算法通常是指針對已知數據中加入一定程度的噪聲,使單個數據恢復成原始數據的可能性消失。比如若存在一個原始數據r,在r中添加一定程度的噪聲d,從而得出附帶噪聲的數據s,可表示為s=r+d。可將s整體化,并以相應的算法,針對s實施數據挖掘,并對r進行的數據挖掘所產生的結果進行推斷。總體來講,噪聲的強度越高,隱私保護的安全性就越強,但與此同時數據挖掘的難度系數就越大,并且還會造成挖掘在準確性方面變差,所以需要對隱私保護的強度以及數據挖掘的準確程度的平穩性進行維持。
除了對數據添加噪聲之外,還可以對矩陣中數據進行隨機轉化,稱之為隨機擾動算法。相關研究人員還研究出對信號進行處理的擾動算法,就是將隨機項添入原始數據所形成的矩陣中,并通過另一矩陣與之進行相乘來進行干擾,然后將干擾后的數據進行發布。在數據發布后,客戶端需要對已發布的數據進行挖掘,并將挖掘的結果返回至服務器中,待服務器將此結果進行有效的處理后,才能夠將真實的結果進行返回。
1.1.2 乘法擾動
乘法擾動算法主要包含投影擾動和旋轉擾動兩種算法。其中,投影擾動主要是使數據在空間上由高維轉向低維的一個映射過程,最終獲得全新的數據集。而旋轉擾動的定義可按G(X)=RX這個方程式進行表示,在這個方程式中,R代表正交矩陣,X代表源數據矩陣,G(X)則代表數據被擾動后產生的矩陣。相關研究人員層得出研究結果,旋轉擾動能夠將原始數據進行分成若干個子數據,并且這些子數據相互獨立,通過對不同隨機正交矩陣進行使用,然后對分割后的各子數據進行旋轉擾動,能夠有效抵御通過獨立分量進行分析所形成的攻擊,效果較為良好。
這種算法一般具備一定的條件,這些條件就是數據項已給定,并且相應的記錄和數據項都在集合T之中,通過這些條件能夠找到各數據項間存在的關聯性,從而使數據項相應的置信度以及支持度高于用戶提出的最小置信度閾值和最小支持度閾值。這種算法大多都采用這樣一種策略,其是將自身的管理規則隱藏的主要任務進行分解,主要分解為兩個較為主要的子任務,這兩個子任務分別為頻繁項集的產生以及規則的產生,前者的主要目標是使最小支持度閾值能夠得到滿足的所有項集被發現,也就是說使事務數據庫之中全部的頻繁項集能夠被找出;后者的主要目標則是將頻繁項集之中包含的全部高置信度的關聯規則能夠被發現。
對于關聯規則隱藏算法較為常用的方法主要有三種:
(1)啟發算法:這種算法主要是根據經驗規則來進行解決問題的算法。
(2)邊界算法:這種算法主要是根據數據集之中存在的不頻繁算法和頻繁算法之間的邊界存在的原始邊界來進行實現的。
(3)精確算法:這種算法使規則隱藏的全過程成為一種線性規劃或是整數規劃來使問題得以解決。與啟發算法相比,此算法能夠使數據的隱藏更加具有優勢,但計算成本稍高。
綜上所述,數據挖掘往往與數據的隱私保護往往是相互對立的,但用戶的主要目的就是使自身的數據隱私得到保護,因此,需要克服數據挖掘的難點,通過科學的算法來完成數據的挖掘。本文中所提及的兩種方法在實際應用中,都具有良好的效果,具備數據挖掘隱私保護的水平,可以推廣應用。
[1]萬芊山.基于已知信息獨立分量分析和局部旋轉擾動的數據挖掘隱私保護研究[J].科學與財富,2014,11(4):247-248.
[2]方躍堅,朱錦鐘,周文.數據挖掘隱私保護算法研究綜述[J].信息網絡安全,2017(2):6-11.
張毅(1982.12—)男,漢族,河北省高陽縣人,大學本科學歷,工程師,研究方向:計算機軟硬件、網絡工程。周佩(1982.11—),男,漢族,山東省福山縣人,碩士研究生學歷,高級工程師,研究方向:計算機信息系統分析與應用。許斌(1982.11—)男,漢族,黑龍江省嫩江縣人,大學本科學歷,助理研究員,研究方向:通信工程、節能減排。