蔣 斌,黃恩銘
(南京中醫藥大學,江蘇 南京 210023)
高等教育不僅要求學生牢牢掌握理論知識,還要增強學生的實際操作能力。實驗教學是培養高素質人才的關鍵途徑,但傳統實驗室通常受到時間、空間以及設備等因素制約。虛擬實驗室則具備低成本、高效率等優勢,有效解決實驗教學受限問題,在高等教育中發揮重要作用。網絡虛擬仿真實驗室融合了Web技術與VR技術,建立了開放式、網絡化的教學系統,能夠讓學生在虛擬環境中模擬不同場景與設備配置,充分了解實驗過程,提高學生學習興趣[1]。但在為學生提供便利的同時,海量實驗數據在不斷被流轉。實驗室數據蘊藏較大價值,包含大量涉及隱私的數據信息。由于缺少通用的隱私界定標準,要實現某些數據在隱私層面進行“是”與“否”的判斷非常困難[2]。現階段,針對數據隱私定量問題已有很多研究成果。
文獻[3]提出基于度量空間與范數基本原理的數據隱私度量模型。該模型分析數據數值化處理方式,將數據表變換為矩陣形式,引入隱私偏好函數,研究敏感屬性隨時間的變換關系,建立度量空間,計算數據的隱私量。該方法針對數據的隱私進行設計,提升了數據的安全性,但該方法對數據因素定量考慮甚少,存在一定局限性。文獻[4]在隱私偏好基礎上實現數據隱私度定量計算。分析基于用戶隱私偏好的策略選擇,同時提出基于博弈隱私度量的計算模型,在混合模式下利用策略熵度量隱私度情況。該方法對隱私數據測算的精度較高,但該方法測算過程中考慮的因素較多,導致測算的時間較長。
為此,將差分隱私技術與神經網絡相結合,共同建立隱私度定量測算模型。差分隱私對數據隱私有著強大的定量控制性能,將該技術應用到決策樹模型中,可以對決策樹進行保護,不容易被使用者逆推出樹的結構,在實現數據保護的同時,還能將數據集合轉變為具有類似性質的數據集,實現隱私數據分類,提高定量測算效率。與傳統測算模型相比具有一定優勢。
虛擬實驗室是借助圖像仿真[5]和虛擬現實[6]技術,在計算機中搭建虛擬實驗環境。其中任意一個可視化物體均表示為實驗目標,利用鼠標進行點擊實現虛擬實驗操作。
網絡虛擬仿真平臺分為資源管理、實驗庫管理、過程管理、報告評估、互動系統等子系統,功能架構如圖1所示:

圖1 仿真實驗室功能模塊
分析上述實驗室功能結構,可以得出虛擬仿真實驗室具有如下特征:
1)開放性與選擇性:虛擬實驗室是在網絡基礎上構建的平臺,具有開放特征。對于用戶而言可以結合自己實際情況合理安排實驗時間,為實驗者提供更多自主選擇空間。
2)協同工作與實時反饋:虛擬實驗室屬于統一平臺,多個實驗者可共同操作,實驗與操作過程必須實時反饋并進行處理。
3)可操控性和人機交互:此特點相對于傳統實驗模式而言,在傳統實驗中對于實驗者來講更多的是“看”,實際操作較少。而在虛擬實驗室中能夠通過遠程計算機交互達到預期實驗目的。
4)信息共享:對互聯網而言其最大優勢在于信息共享,無論實驗者身在何地,均可以使用虛擬平臺提供的各類共享資源。
結合上述特征,可以確定虛擬實驗室的運行模式[7],如圖2所示。

圖2 虛擬實驗室運行模式
分析虛擬仿真實驗室的功能結構與運行模式,有助于了解隱私數據所在區域,實現實驗數據的全面收集,為數據分類提供依據。隨著網絡技術的不斷發展,利用虛擬實驗室進行實驗教學已發展為一種趨勢,同時也會成為未來實驗教學的主要方式。
3.1.1 差分隱私主要機制
差分隱私技術可以保證在數據庫中對任意單獨記載或刪除的數據不敏感。
假設某任意函數f符合ε-差分隱私,針對任意相鄰數據庫B1與B2(B1ΔB2=1),其任意輸出O∈Range(f)均滿足Pr[f(B1)∈O]≤eε×Pr[f(B2)∈O]。其中,B1和B2是相鄰數據庫,其中僅存在一條不同記錄,ε為隱私預算[8],其可以控制隱私登記。該值越小,需要加入的噪聲越大,保護力度也隨之增強。
差分隱私需符合可組合性與極大化兩個條件。其中,可組合性指若所有函數fi提供εi-的差分隱私保護,則與其有關的一系列函數fi(B)可提供(∑iεi)-差分隱私的保護。極大化性質可理解為若所有函數fi提供εi-的差分隱私保護,則與其相關的獨立函數[9]可以提供maxi(εi)-差分隱私保護。
現階段,主要有拉普拉斯與指數機制能夠實現差分隱私。這兩種方法均需要計算函數f的全局敏感程度。
函數f:B→Rd的全局敏感度為

(1)



(2)
針對不同類型數值,通過上述差分隱私機制能夠提高定量測算過程中隱私數據的安全性,確保數據不被破壞。
3.1.2 決策樹模型
決策樹模型是數據挖掘領域常用的分類方式之一,其核心思想是利用樹形結構將樣本集合引入到樹狀空間中,任意一個樣本Ii=(Ai=[ai,1,ai,2,…,ai,m],ci),均由一個屬性和一個類標簽構成。假設生成決策樹后,若已知樣本屬性,則可估計出樣本種類。
決策樹生成時,會反復選取最優屬性對訓練樣本分類,直至出現節點終止條件,不再繼續分裂,將終止條件用來終止樹的構成。此外,還能對決策樹進行剪枝操作,防止樹結構太過復雜,影響分類效率。生成后的決策樹中,隨機一片葉子節點均會被賦予不同類標簽,對于某個測試目標,綜合其屬性,將會被分配到某節點中,此節點的類標簽是此樣本的預測標簽。以嵌入差分隱私到決策樹中的模型如圖3所示。

圖3 決策樹模型
3.1.3 隱私數據分類
在決策樹模型中,打分函數[10]非常重要,它是選擇分類屬性的衡量方式。利用基尼指數評估分類的有效性,基尼指數越小,表示生成決策樹過程可以很好地完成分類。傳統的打分函數表達式為

(3)
式中,n*表示某個節點,t為n*子節點數量,Tj′為子節點j′包含的樣本數量。
為更好選擇分類結構,重新建立一個新的打分函數,同時對其全局敏感度進行分析。當從節點n*生成子樹st時,子樹分數表達式為

(4)
式中,Si與St分別表示st內部節點與葉子節點集合。
利用上述打分函數,將相同類型隱私數據合并在同一個集合中,這些數據隱私級別大致相同。在實現數據分類基礎上,再對實驗數據進行定量測算,有助于提高計算精度,同時可以檢驗出計算結果是否準確。
BP神經網絡屬于一種反向傳播的多層前饋式網絡[11],該方法核心思想是梯度下降法,通過梯度搜索技術,減小實際輸出與理想輸出的誤差均方差。BP神經網絡包含輸入層、隱含層與輸出層。神經元和下一層神經元互相連接,而同層神經元并無連接。
該網絡最大特性為可以學習并保持大量輸入輸出關系,同時不用事先已知這些關系。在正向傳播過程中,輸入信號經過隱含層作用,在輸出節點上,對其進行非線性轉換,形成輸出信號。如果實際輸出與理想輸出差距較大,則轉入反向傳播。誤差反傳即為將輸出誤差經過隱含層向輸出層傳遞,同時將誤差平均分配到所有單元,將從每層獲取的誤差信號當作權值調整依據。
為此,提出基于IE-BPNN(Information Entropy-BP Neural Network)的隱私度定量測試模型。其核心思路是將虛擬仿真平臺中的數據,按照上述分類結果,解析全部隱私要素,并將其進行規則化處理;再通過計算不同類別數據之間相同的二級隱私要素信息熵確定權重;最后計算一級隱私要素中隱私量,完成對隱私要素降維,并通過訓練好的神經網絡獲取最終隱私度測算數值。
3.2.1 隱私數據規則化處理
隱私的含義相對廣泛,根據上述對全局敏感度的分析,從內容(P1)、狀態(P2)與隱私詳情(P3)三個方面挑選具有代表性的要素作為隱私度定量測算的指標。


(5)
3.2.2 隱私度定量測算模型
對n′條記錄在三個不用維度上每個一級要素分別構建信息熵度量矩陣[12],如果某一級要素La含有b個二級要素,針對n′條記錄的測算結果,通過構建n×b大小的二級要素信息熵矩陣實現。詳細過程如下:


(6)
式中,bij是規則化處理后第i個記錄中第j個二級要素值,通常取值為0或1。
步驟二:對上述矩陣中元素進行轉換,即

(7)
則可以得到矩陣

(8)
步驟三:根據信息熵定量矩陣獲取每個二級要素j的信息熵為

(9)

步驟四:獲取要素lj的權重值

(10)
步驟五:計算一級要素La對于單條記錄di的定量值
②層黏土(Q3-4al+pl):灰黃色~黃色,局部上部為灰黑色,可塑~硬塑,局部底部含鐵錳質結核,稍有光澤,中等干強度,中等韌性,中等壓縮性;場區溝渠及北部有缺失。

(11)
Ldia值越高,表明隱私度越高。
根據上述構建步驟,完成了 隱私度定量測算模型的設計。
仿真在server上進行,其處理器為3.10GHz Intel Core i5,內存位36 GB。設定神經網絡訓練次數為1000次,學習效率為0.2,訓練誤差為0.01,結合下述公式確定初始隱含層節點數量

(12)
式中,I*與O*分別表示輸出層與輸出層節點數量,a為調節參數。最終確定隱含層節點數量為8。
訓練過程誤差曲線如圖4所示。由圖4可以看出,該網絡在經過200次訓練后可滿足誤差需求。

圖4 神經網絡誤差曲線
對提出的基于決策樹模型的隱私數據分類性能進行仿真,引入分類偏差程度概念,計算公式為

(13)


圖5 隱私數據分類結果
在確保測算誤差較小情況下,分別引入不同大小的隱私數據,對所提模型、結構化數據的隱私與數據效用度量模型與基于隱私偏好的隱私保護模型的測算效率進行對比,實驗結果如圖6所示。

圖6 不同方法測算效率對比圖
由圖6可知,隨著隱私數據量的不斷增多,三種方法測算時間均呈現上升趨勢。其中,所提方法增長速度較慢,且最短測算時間約為13 s,而其它兩種模型的測算時間始終高于所提模型。這是由于神經網絡訓練性能較好,能夠選取較為重要的定量要素,縮短了測算時間。
為保證網絡虛擬仿真實驗室數據的安全性,設計了一種新的隱私度測算模型。首先嘗試將隱私差分嵌入到決策樹中,在確保測算過程中隱私數據安全性的同時,實現數據隱私級別分類,使數據確定到一定范圍中,并進一步進行量化處理;再利用訓練的BP神經網絡,對隱私數據進行定量測算。與傳統該方法相比,所提模型看測算誤差控制在允許范圍內,且測算的最短時間約為13 s。