潘 偉,李新建,陳 飛
(湖北中煙工業有限責任公司,湖北武漢 430030)
遠程通信數據傳輸量逐漸增加,對遠程通信數據傳輸的完整性、安全性和穩定性提出了更高的要求。一些不法分子篡改遠程通信數據,不僅打亂了工業互聯網的數據傳輸秩序,還導致了用戶的大量信息泄露,甚至發生誤導用戶進入危險網站的現象,給用戶帶來了直接經濟損失,同時給網絡維護帶來了巨大困難。遠程數據傳輸技術不斷發展,不法分子的數據篡改技術日益精進,由傳統的協議棧篡改法發展成了現在的信道直接篡改法,尤其在數據傳輸過程中,被篡改數據混在多種數據中,給工業互聯網中遠程通信數據防篡改檢測工作帶來了巨大的挑戰[1-2]。
針對工業互聯網中遠程通信數據防篡改檢測,國內的相關專家進行了深入的研究。文獻[3]提出的基于模糊神經網絡的遠程通信數據防篡改檢測通過構建神經網絡系統,利用卷積層分析信道數據,并采用模糊層次法構建層次指標,通過計算信道權重,判斷是否發生數據篡改行為,該方法的檢測效率較高,但指標的選取缺乏合理性,導致檢測結果的準確率較低。文獻[4]提出一種基于分層聚合的分布式異常數據檢測方案,通過建立無線傳感器網絡模型,以頂點理論為基礎,在信道內部署無線傳感器進行數據采集,通過分析各個無線傳感器采集的數據,綜合判斷數據的傳輸狀態,整體檢測準確率較高,但計算量較大,導致其檢測結果缺乏實時性。為解決以上問題,提出了一種新型的工業互聯網中遠程通信數據防篡改檢測方法,并設計實驗進行驗證。
針對工業互聯網遠程通信數據的低通數據傳輸信道,進行遠程通信數據防篡改檢測優化設計,在特征提取技術的基礎上提出了基于特征提取的遠程通信數據防篡改檢測方法。
獲取工業互聯網中遠程通信信道的輸出功率,參考功率特征向量的提取原則,提取遠程通信信道的輸出功率特征向量。針對小部分稀疏數據,采取數據整合法進行特征提取,以保證數據覆蓋率[5-6]。數據輸出綜合特征向量的表示方法如下:

式中,t表示特征向量的提取時間;a表示提取范圍,具體到某一模塊;b表示遠程通信信道輸出功率的相對增益。
參考上述表達式,以相對相位偏移特征向量ψ(t)為因變量,找到當前工業互聯網中遠程通信數據序列的所有未被篡改數據集,根據未篡改數據的分布位置進行檢測節點設計,得到的遠程通信數據防篡改檢測節點的最優部署位置為:

式中,x和y表示節點在二維節點部署圖中的橫坐標和縱坐標[7-8]。根據以上得到的最優部署位置,在設計的遠程通信數據防篡改檢測的網格分布式特征提取模型的基礎上,部署遠程通信數據防篡改檢測節點。節點的活躍度計算方式如下:

式中,u(t)表示在t時間下節點的活躍度;T表示活躍度計算周期;Drect表示節點屬性值;K是整數。在數據防篡改檢測過程中,由于受網絡環境的影響,不可避免地存在一定噪聲干擾,假設在檢測過程中受到的噪聲干擾為h(t),則輸出的遠程通信數據防篡改特征向量為:

式中,t0表示特征向量的提取時延[9-10]。為了更好地描述遠程通信數據狀態,結合信道均衡調度法獲取目標特征提取點的沖擊響應特征向量,該特征向量的描述為:

式中,E表示信道的相對能耗;C表示沖擊響應系數。結合上述特征向量提取結果,考慮檢測過程中存在的強電磁干擾,采用擴頻處理法對上述特征向量進行擴頻處理,得到的強電磁干擾下數據傳輸信道沖擊響應值為:

式中,X為受電磁干擾數據的特征分布矩陣;β為信道的抗電磁干擾系數。由于檢測過程中可能存在重復檢測數據和冗余數據,因此需要對輸出的特征向量進行進一步優化,優化公式如下所示:

式中,C表示遠程通信數據的互信息熵。
針對上述提取的特征向量,基于LPP(Locality Preserving Projections)算法進行特征匹配,LPP 算法是一種非線性空間向量分析方法,全名為局部保持投影映射法。基于LPP 算法的特征匹配過程如下:
1)構建平面節點鄰接圖。假設共有N個節點參與特征向量提取,設任意兩個相鄰節點分別為z1、z2,兩節點間的相對距離為l,在兩個節點之間建立一條邊,則該邊的權重計算值為:

式中,x1和x2分別表示z1和z2在平面節點鄰接圖中的橫坐標[11-12],l表示平面節點權重,若該邊與兩個節點間的連接線重合,則權重值為0。
2)特征映射:特征向量與特征值之間的映射關系如下:

式中,α表示特征向量;λ表示映射參數;D表示映射矩陣。D的輸入值為邊的權重值,矩陣中每一列之和PF的表達式為:

式中,eij表示節點[13-14]。進行特征映射的目的在于對提取的特征向量進行降維處理可以有效降低篡改數據特征點的數量和特征向量維數,從而縮短數據防篡改檢測的時間。
3)特征向量匹配:特征向量匹配的基本策略是比較目標特征點與其相近特征向量描述點間的歐式距離比值,然后進行匹配。設定某一歐式距離閾值為H,則特征向量匹配關系式為:

式中,d1、d2均表示目標特征點與相近特征向量描述點間的歐式距離[15]。
若滿足式(12),則表示特征向量匹配成功,反之則表示匹配失敗。匹配目標提取點的每一個特征,就可以實現某一時間段內的數據防篡改檢測。該匹配方式的優點在于處理過程簡單、容易操作,且針對多處篡改數據的檢測效果較好。
在上述特征提取和特征匹配的基礎上,根據信息匹配結果,在工業互聯網環境下進行遠程通信數據防篡改檢測。參考工業互聯網下遠程通信數據各支路的數據傳輸信號G(O),其中,O表示所檢測的數據傳輸信道。當信道的衰落狀態滿足數據傳輸需求時,結合節點監測值和目標數據的信息熵確定代價函數,得到的遠程通信數據防篡改的代價函數為:

式中,Δθ表示遠程通信數據中被篡改數據的分布特征向量。根據以上函數進行計算,當計算結果F(t)為0時,表示在檢測時間段內被檢測信道內的數據未被篡改;當計算結果為1 時,表示在檢測時間段內被檢測信道內的數據完整性受到破壞,出現被篡改現象,將響應預警機制,向中央處理系統發送被篡改指令,并結合特征向量比對,鎖定被篡改數據的傳輸途徑和位置,及時中斷信息傳輸,完成整體的檢測過程[16]。
參考工業互聯網中各個檢測節點被篡改數據平均測量值,得到遠程通信數據傳輸信道的防篡改系數貝葉斯估計值s(t)為:

貝葉斯估計值越高,表明該信道的數據防篡改能力越強,由此完成工業互聯網中遠程通信數據防篡改檢測方法研究。
為了驗證提出的工業互聯網中遠程通信數據防篡改檢測方法的有效性,選用所提方法和文獻[3]基于模糊神經網絡的遠程通信數據防篡改檢測方法、文獻[4]基于分層聚合的分布式異常數據檢測方案進行實驗對比。
設定實驗參數如下:操作系統為Windows 10、處理器為四核處理器、處理容量為15 TB。為確保實驗結果的準確性,對內部的實驗參數進行統計,分別計算不同方法的篡改行為檢測準確率、防篡改成功率以及防篡改時間。每隔50 個節點做一次統計,比較不同方法檢測篡改行為次數,如表1 所示。

表1 篡改行為檢測結果
根據表1 可知,隨著篡改行為次數的增加,不同方法檢測到的篡改次數準確率在不斷下降,但是所提出的檢測方法與文獻[3]方法和文獻[4]方法相比,檢測能力更好,檢測準確率更高。對10 次實驗檢測結果進行統計可知,當篡改行為次數低于100 次時,所提出的檢測方法檢測結果準確率高達100%,在篡改行為次數低于500 次時,所提出的方法篡改行為結果檢測準確率始終在99.85%以上。
在檢測到篡改行為后,使用不同的檢測方法可進行防篡改操作。防篡改成功率計算公式如下:

式中,M為防篡改成功次數,F為檢測到的試圖防篡改次數。得到的防篡改成功率實驗結果如表2所示。

表2 防篡改成功率實驗結果
根據表2 可知,所提出的檢測方法的防篡改成功率始終在99%以上,高于文獻[3]方法和文獻[4]方法。所提出的檢測方法對于工業互聯網內部數據進行了充分分析,可以很好地確定遠程通信數據,因此能夠更好地實現防篡改檢測。檢測時間實驗結果如圖1 所示。
由圖1 可知,所提出的檢測方法檢測時間更短,因為所提方法在進行特征匹配過程中,能夠保證特征向量的完整性,剔除多余特征點,保留最具辨識性的特征進行匹配,因此可以有效縮短檢測時間,確保檢測效率。

圖1 檢測時間實驗結果
針對傳統遠程通信數據防篡改檢測方法出現的檢測準確度低、效率低、實時性差等問題,提出了工業互聯網下的遠程通信數據防篡改檢測方法。該方法通過提取特征向量、特征匹配等方式對信道內的傳輸數據進行深入挖掘。實驗結果表明,所提出的檢測方法檢測性能較好,能夠有效地抑制和防范遠程通信數據篡改現象的發生,為數據防篡改檢測工作提供的便利,有益于促進工業互聯網的進一步發展。但所提出的檢測方法還不適用于多個數據傳輸信道的同時檢測,檢測性能還需進一步增強。