鄧 偉,許 放,張 濤,艾雪瑞,甄 珍
(北京中電飛華通信有限公司,北京 100000)
隨著互聯網的發展以及社會信息化水平的不斷提升,互聯網和人們的生活、工作變得密不可分。現階段,互聯網敏感信息主要是指危害社會公共安全的相關信息,主要涉及思想政治、經濟、社會、文化等多個領域。而相關的恐怖組織利用互聯網展開相關攻擊后,一旦互聯網敏感信息因攻擊而泄露,會嚴重擾亂社會秩序,對于經濟社會的安全穩定發展造成不利影響,進行互聯網敏感信息泄露檢測,并有針對性地設計相關的輿情方案具有重要意義。
針對互聯網敏感信息泄露檢測這一重要研究課題,文獻[1]設計了一種基于擴展權限組合的信息泄露檢測方法。該方法通過獲取互聯網敏感信息安全規則集,從多個特征出發獲取危險權限組合,結合危險權限組合對于信息泄露情況進行判斷,輸出信息泄露檢測結果。但是將該方法應用至實際中發現,這種方法存在泄露檢出率較低的問題。文獻[2]設計了一種基于局部差分隱私的物聯網敏感數據泄露檢測與控制方法。該方法通過獲取物聯網敏感數據鏈,結合數據鏈距離估計結果與檢索條件獲取敏感數據集,根據泄露檢測閾值判斷數據是否處于泄露狀態,利用局部差分隱私設計數據加密方法,實現數據泄露控制。但是這一方法存在檢測任務完成時間較長的問題,整體質量較差。
為了彌補傳統方法存在的不足,設計基于DBN模型的互聯網敏感信息泄露檢測方法。
利用分布式網絡爬蟲技術爬取互聯網網頁敏感信息,并結合近鄰策略對這些信息進行分組處理,保證每個組中所包含的敏感信息數量至少為k。假設第G組所包含的敏感信息用{X1,X2,…,Xk} 表示[3-5],互聯網網頁Xk中所包含的d維數據用表示,則第G組不同類的網頁敏感信息統計結果[6-7]分別用下述公式表示:
該組中敏感信息屬性之間的協方差通過下述公式計算得出:
式中,n(G)表示第G組不同類的網頁記錄統計記錄個數,Scij(G)表示第G組所有的敏感信息參量。
根據敏感信息以及信息屬性之間的協方差重新構造一個新的信息集合A,以此實現互聯網敏感信息捕捉[8-9]。
以互聯網敏感信息捕捉結果為基礎,對互聯網敏感信息集合中的數據進行去噪處理,以此保證后續互聯網敏感信息泄露的檢測效率與質量。
從互聯網敏感信息集合中隨機選取出m個樣本數據,用S={S1,S2,…,Sm}表示,每選擇出一個近鄰Si,就按照下述公式構造出一個新的樣本:
式中,rand 表示(0,1)區間內的一個隨機常數。
S和Si之間的歐氏距離通過下述公式計算得出[10-11]:
式中,xi與yi分別表示S和Si中的一個n維樣本。
結合式(5)的計算結果,從A中取出距離最近的k個樣本,從而得到一個新的互聯網敏感信息集合A(S),并從A中取出少數類信息樣本,構造另一個互聯網敏感信息集合B(S)。B(S)在A(S)中的所占比例通過下述公式計算得出:
假設存在一個互聯網敏感信息樣本N∈A(S),從這個數據集中隨機選擇出一個樣本U∈(B(S)-A(S)∩B(S)),計算這兩個數據之間的距離。如果Z×DN<DU,則需要將N加入到噪聲數據集中,若是該噪聲數據集不為空,需要從A中將該數據集中去除,完成互聯網敏感信息去噪處理。
文中以DBN 模型為基礎,研究了一種敏感信息泄露檢測方法,該方法的實現流程如下:
步驟一:信息編碼和序列化處理
對于去噪后的互聯網敏感信息進行編碼處理[12-13],具體的公式如下:
式中,s表示操作類型;t表示數據記錄量。
將互聯網敏感信息編碼結果進行序列化處理[14-15],將其轉換為一個數組作為DBN 模型的訓練數據。序列化處理過程如下:
式中,x對象數量;F表示儲存量。
步驟二:DBN 模型構建
深度信念網絡(DBN)[16]是深度學習方法的一種,DBN 由多個受限玻爾茲曼機(RBM)堆疊而成,建立的DBN 模型如圖1 所示。

圖1 DBN模型
RBM 由觀察層和潛層組成,這兩層之間的任何單元之間均不存在連接關系,RBM 組成如圖2 所示。

圖2 RBM組成
觀察層變量v由一組nv個二值隨機變量組成,潛層變量h由nh個二值隨機變量組成。
步驟三:DBN 模型訓練
對DBN 模型進行訓練,采用sigmod 函數計算出潛層的激勵值,計算結果如下:
將每個隱元的激勵值加上該層神經元的偏向,神經元只能處于開啟狀態與關閉狀態,用下述方程組表示:
式中,δ(hj) 表示激勵函數,e-x表示指數函數。通過更新權重實現DBN 模型訓練,結果如下:
式中,v(0)、v(1)分別表示將互聯網敏感信息訓練數據賦值給觀察層的不同結果,h(0)、h(1)分別表示將互聯網敏感信息訓練數據賦值給潛層的不同結果,λ表示重構次數。
步驟四:敏感信息泄露檢測結果輸出
將互聯網敏感信息信息編碼和序列化處理輸入至訓練好的DBN 模型中,該模型通過提取敏感信息泄露特征以及泄露判斷閾值實現敏感信息泄露檢測。
利用DBN 模型提取互聯網敏感信息泄露特征,具體公式如下:
結合互聯網敏感信息泄露特征提取結果設計泄露判斷閾值,該閾值如下:
式中,e表示指數函數,d表示攻擊者位置參量。
將互聯網敏感信息訓練數據輸入至DBN 模型,經過DBN 模型迭代處理得出互聯網敏感信息泄露檢測結果,具體如下:
式中,Ti表示序列化數據向量,A(x)表示數據編碼向量。
為了驗證提出的基于DBN 模型的互聯網敏感信息泄露檢測方法的有效性進行了實驗測試。設定實驗環境如圖3 所示。

圖3 實驗環境
采用DBN 模型對互聯網敏感信息進行分解,得到的分解序列如圖4 所示。

圖4 分解序列實驗結果
通過分解序列確定模態分量,以此實現互聯網敏感信息泄露檢測。
選用文獻[1]提出的基于擴展權限組合的信息泄露檢測方法以及文獻[2]提出的基于局部差分隱私的物聯網敏感數據泄露檢測與控制方法作為實驗對比方法。探究不同方法的互聯網敏感信息泄露檢出率,計算公式如下:
其中,m表示泄露的敏感信息;l表示正常傳輸的數據。
三種方法的互聯網敏感信息泄露檢出率比較結果如表1 所示。

表1 檢出率
根據表1 可知,所提方法的互聯網敏感信息泄露檢出率高達99.8%,能夠很好地識別出互聯網存在的泄露敏感信息,與實驗對比方法相比,檢測能力更佳,更適合應用在隱私保護領域。
三種方法的互聯網敏感信息泄露檢測任務完成時間比較結果如圖5 所示。

圖5 檢測任務完成時間
根據圖5 可知,與實驗對比方法相比,所提方法的檢測任務完成時間更短,效率更高,可以快速得到互聯網敏感信息泄露檢測結果。
互聯網敏感信息對于該領域來說至關重要,研究敏感信息泄露檢測方法可以極大提升互聯網的安全性。因此基于DBN 模型,研究了一種互聯網敏感信息泄露檢測方法。經實驗表明,所提出的互聯網敏感信息泄露檢測方法在檢出率和檢測任務完成時間方面具有良好性能,但該方法在魯棒性方面仍有不足之處,后續將圍繞此方面進行研究。