李 黎,梁 劍
(四川大學錦城學院,四川 成都 611731)
近年來在我國電子商務市場的迅猛發展下,從而帶動出一系列相應的服務中介機構,例如第三方支付系統,它的作用主要是完成第三方擔保的支付功能,同時也保證了雙方的買賣信用等類似問題,然而第三方支付系統的發展迅猛,信息泄露等問題也隨之而來?,F階段信息泄露風險逐漸增大,卻缺乏完整的信息泄露風險預警系統,對于買家而言存在巨大的信息泄露風險。買家的個人身份信息、設備信息、消費和產品的使用記錄以及瀏覽記錄等信息都暴露在所謂的大網絡數據庫中。
針對上述問題目前大部分改善方法如下:文獻[1]在神經網絡基礎上建立動態風險指標,輸入多種參數變量,使輸出結果的預警效果達到最優,但是該方法涉及變量較多,極易受環境影響產生巨大誤差。文獻[2]針對固定閾值難以應付復雜多變的數據行為,使用無監督學習發簡歷多維度模型,確定異常及可能泄露的區域,但是規劃時間窗口提取特征過于繁瑣,時效性較差。文獻[3]對歷史審計數據分類,精簡用戶特征描述,降低冗余計算量,然而大部分信息泄露的大數據環境中一定存在著相應的信息泄露節點,但是K-means和naive Bayes算法不易檢測出信息泄露點的具體位置,從而會導致影響整體檢測的進程以及準確率。
為此,分布式信息泄漏檢測模型必須要求檢測對象在檢測過程中保證運動軌跡無偏移,并且存在信息泄露精準度較低的情況。就此要求,本文設計的信息泄露預警模型相對于上述方法來說,不會出現此類精準度較低的以及不能確保檢測對象運動軌跡等問題,通過卡爾曼軌跡運動預測法明確下一目標運動狀態值,同時設定相應動態閾值檢測節點是否存在泄露情況,明確具體泄露點,建立的預警模型設定預警指標能級,能夠更有效確定風險范疇。
卡爾曼濾波原理[4]是對觀測對象的動態行為數據進行狀態估計,運用當前時刻的軌跡觀測數據和上一時刻的狀態估量值對當前狀態進行更進及估量計算,并利用一步推測法中遞推方程來實現迭代預測。從而判斷出下一時刻的動態軌跡[5]位置,動態信息分析方程步驟如下:
1)對動態檢測目標進行大體的軌跡數據分析,以及數據篩查、修改、坐標軸x、y的轉換等基本操作處理。同時用誤差方根公式來計算觀測對象的實際軌跡檢測點:

(1)

2)由系統數據中的動態軌跡方程和當下時刻的觀測方程來確定的動態軌跡模型參數,并初始化相應參數。
3)通過測量出的初始時刻(i=0)下的最佳狀態下的估量值X(0,0)和估量誤差組列P(0,0),可通過誤差方根公式得出運動軌跡對象下一時刻(i=1)的預測數值X(1,0),同時得到估量方差組列P(1,0),然后根據(i=1)狀態下當下時刻觀測值Z(1)得到(i=1)狀態下最佳估量X(1,1),和最新更進的誤差組列P(1,1),從而完成第一步的預測濾波;然后根據上述步驟依次推斷得出當下時刻的最佳狀態X(n-1,n-1),完成整個觀測過程。計算公式如下
Z(k)=H(k)X(k)+V(k)
(2)
式中Z(k)表示當下時刻的向量觀測數據值,k表達了當下狀態下的觀測數據值。H(k)表示當下時刻的觀測組列,X(k)則代表系統狀態向量表達了在同時刻k狀態下運動軌跡的矢量狀態[6]。V(k)為軌跡運動時產生的觀測噪聲。
4)根據之前步驟得到的最佳運動軌跡狀態估量X(n-1,n-1),以及通過當前狀態下預測得出運動軌跡第n+1個時刻下的式(3),并通過預測軌跡點p′與實際軌跡點p進行對比,得出預測誤差計算式(4),重復上述步驟依次計算完成運動軌跡點的預測,計算過程如下
X(k+1,k)=A(k)X(k,k)
(3)
Z(k+1,k)=H(k)X(k+1,k)
(4)
通過卡爾曼濾波得到的數據預測值準確性較差、誤差率高,所以本文結合動態閾值計算可能發生信息泄露的節點,提高準確率。當第三方支付系統中發生信息數據變換時,變換的數值超過設定的閾值范圍,則認為存在相應的泄漏點。在以上第三方支付時發生的分布信息數據濾波和相應特點基礎上,創建基于動態閾值的泄露點預測方法。這種檢測方法,可以根據自身支付系統信息的網絡歷史數據熵值的變化,對相對應的閾值的大小進行調整,再利用當下時刻的泄漏點數值、數據熵值平均值與相應動態閾值做對比,從而判斷出第三方支付系統中的數據信息是否存在泄漏點,具體應用步驟如下:
1)在第三方支付系統分布信息查詢的單位時間T內,對大致的信息采樣進行分布統計。
2)并在每一個時間單位T內計算出信息數據特征點分布的熵值E,并得到數據特征點E值的分布序列

(5)
在上述表達公式中N′表示在三方支付系統分布網絡查詢過程中的單位時間T內,不同的IP源地址出現的數量,Q代表為第i個IP源地址在查詢過程中出現的數據數目占總數的比值。
3)計算第三方支付系統下信息泄露節點在當前時刻中的檢測熵值ω和熵值平均值A之間的差值。例如兩個差值之間相差的數值小于k*D就判斷為正常,相反,如果兩個差值之間的數值大于k*D則為泄漏點。A表示在信息泄露檢測時當下時刻的ω個正常熵值的平均值,D表示熵值平均值A與ω的最新更進正常值E′i之間的最大偏差值;k表示信息泄漏檢測中最大偏差指數,此指數有關檢測泄漏點[7]的準確率以及靈敏度。計算公式如下

(6)
D=max(|E′-A|/ω),i=1,2,…,ω
(7)
如果第三方支付系統中沒有信息泄漏點,就可在分布序列中放置上述計算得出的熵值[8],并根據式(7)計算得的熵值平均值A和D進行更新,就可對下一時刻的分布數據進行泄漏點檢測。
如果第三方支付系統分布信息中有出現泄漏點,則就不對當下時刻的熵值平均值A和D進行更新。直接進行下一步對下一時刻的分布數據進行快速的信息泄露檢測,保證所有的數據檢測整體完成。
最后結合以上步驟對實際對象進行分步的信息泄漏節點檢測。
根據上述原理進行初步信息泄露預測,之后本文采用加權融合法對相關的目標進行篩查及采集控制,并進行統一的抽象標準化的處理,再構建一體實體化的預警模型。
假設H表示實體對象W的空間私密信息合集,Y代表私密信息的特征合集,O代表各個時刻私密信息的抽樣合集,綜上所述實體私密信息的時刻、特征、空間的合集組合為
W=(H,Y,O)
(8)
假設O表示n個的維度隊形中的一個私密信息密閉空間,則O就成為n個維度隊形中一個代表私密信息的超曲面,如果O表示一個私密性的空間信息則相應方程如下

(9)


(10)
當私密信息通過第三方支付系統進入檢測區域時,對私密信息進行線性到非線性的組合排列通過卡爾曼濾波以及動態閾值確定當前是否存在泄漏節點,同時輸出層需要一個傳遞信號來表示私密信息已轉入。函數公式為

(11)

例如G表示私密信息縱向函數的差值,則線性函數作為私密信息的實效激活函數就可表示為

(12)
假設xl代表私密信息的第個l輸入樣本,k代表樣本輸入的空間維度,ck代表機密信息的結合中心點,ωkj代表私密信息從輸入層到檢測層的連接值,m代表私密信息的縱向函數數目,yi代表實際輸出樣本數目,則在第三方支付系統私密信輸出預警的函數公式為

(13)
根據上述過程,第三方支付系統中發生信息泄露時,預警模型可以有較好的準確率和查全率。

表1 預警指標等級
在第三方支付系統中發生的信息泄露可按風險的嚴重程度劃分出五個等級分別如下:優、良、中、差、危這五個安全等級(表1),這五個安全等級也分別對應上述中的五個風險泄露的嚴重程度等級,在預測發生泄露風險時,給出相對應的風險等級就可發出相對應等級的安全警示,可讓此信息泄露預警系統安全有效地落實于實際應用中去。

表2 仿真環境參數

表3 參數結果解釋
假設風險預警精度用precision表示,查全率用recall表示,其中F-measure作為上述二者的調和均值,各個評估指標運算公式如下
(14)

(15)

(16)
方案針對文獻[1]、[2]、[3]以及本文預警模型,進行仿真,將在2000到9000組的不同規模測試組內進行分析比較。

圖1 預警準確率對比分析圖
預警準確率分析:根據圖1能夠看出,相比于另外方法本文模型的預警正確率最高,基本保持在70%上下浮動,并且未出現較大波動。這主要因為本文使用卡爾曼濾波動態軌跡預測法確定了數據下一階段狀態,在初始階段進行短暫濾波會對后期泄露風險監測和預警打下良好的基礎,減小后期出現的干擾信息,并且提高運算數據,增強準確率。
為了驗證設計的第三方支付系統信息泄露風險預警模型的性能,采用文獻[1]模型、文獻[2]模型、文獻[3]模型以及設計模型的CPU占用率如圖2所示。

圖2 各個數據集下運行時間利用率對比分析
由圖2可以看出,相比其它三種文獻方法,所提預警模型的CPU占用率增加較為平緩,且最高點也沒有超出整體的50%,比大多數方法更節省空間。這是因為,本文模型能夠更具不同數據環境動態調整泄漏檢測閾值,一邊適用于更多硬件中。
為了驗證設計的第三方支付系統信息泄露風險預警模型的性能,獲得預警的幅度波動率結果如圖3所示。

圖3 本文模型預警幅度波動率
預警幅度波動率能夠表達預警模型的結果是否平穩,判斷其是否容易受外界影響。從圖3中能夠看出,本文預警模型的波動率保持在[50,-50]區間,可證明該模型若在干擾條件下也能獲得較為穩定準確的預警結果,可應用于多種環境中。
為了驗證設計的第三方支付系統信息泄露風險預警模型的性能,采用文獻[1]模型、文獻[2]模型、文獻[3]模型以及設計模型的監控性能如圖4所示。

圖4 監控性能對比
隨著迭代數量的不斷增加,本文預警綜合性能比較高,這是因為通過動態閾值節點檢測能夠計算出可能發生泄漏節點,降低計算量的同時,提升查全率,最終使預警結果具有較高可信度。
為緩解日益嚴峻的第三方支付系統信息泄露問題,本文提出建立信息泄露預警模型進行改善。實驗結果表明無論是從預警準確率、CPU占用率、預警的幅度波動率以及最后預警效果來看,此預警模型在各種實驗中都占有一定優勢,并可運用到實際當中去達到可觀的效果。
但本方法也存在一定的局限性,例如在進行初步的信息泄漏預測時,可通過檢測閾值檢測出信息的泄露節點,但無法推斷出具體的信息泄露路徑,也就不能從根源上解決信息泄露問題,只能用預警的方法來緩解。同時為保障信息泄露預警模型的穩定性和準確率,在進行初步檢測以及后續預警時都必須保證網絡環境大致穩定,確保不會對檢測數據造成影響。