高董英,孫浩淞,林德威,江美玲
(國網福建省電力有限公司信息通信分公司 福建 福州 350000)
互聯網在高速發展的同時,存在較大的安全隱患,其中云計算平臺由于存在大量的數據,同時存在異常行為數據,而其由惡意攻擊手段或者惡意代碼生成,嚴重影響了云計算平臺的安全性[1-2]。因此,需要回溯異常行為產生的數據,以此發現錯誤源,并修正異常行為數據。
檢測和溯源異常行為數據逐漸成為研究熱點,國外學者采用關聯數據技術和概要數據結構等方法進行數據溯源。國內學者袁曉平[3]提出基于大數據技術的網絡異常行為監測技術,該方法從大規模監控采集技術、大數據存儲技術和實時流事件處理技術3 個方面研究網絡異常行為數據,但是該方法溯源信息查詢的精準度較低。陳叢等[4]提出基于Python 爬蟲技術的虛假數據溯源,該方法根據一定的概率標記數據包,并且分析Python 爬蟲抓取過程,結合系統爬取數據流程,描述各軟件模塊的協作方式,建立協作關系區域。同時,利用布隆過濾器生成數據包,通過共享密鑰證明MAC 是否合法,實現異常行為數據的溯源。但是該方法的觸發機制構建較差,導致溯源精度低。
針對上述問題,本文設計基于感知哈希的云計算平臺異常行為數據溯源方法。該方法通過設計平臺異常數據觸發機制,構建數據溯源信息模型,進而結合PROV 數據處理模型和哈希處理的范圍,構建溯源數據的可信存儲結構,并且通過感知哈希算法中的選取均值哈希算法進行溯源分析,完成異常行為數據的溯源,以期提高云計算平臺異常行為數據溯源的有效性,為互聯網的安全發展作出貢獻。
溯源數據需要感知異常行為數據,因此,通過設置云計算平臺異常數據觸發機制區分數據,從而提取出異常行為數據的相關信息[5]。
第1 步設置觸發條件,將異常行為進行等級分類,一旦觸發設定的動作或者特定的關鍵詞,封閉處理產生的信息。這部分主要可以劃分為以下2 個部分:執行觸發和異常觸發。執行觸發通常在平臺實際應用的過程,對于正常功能模塊以及執行指令的觸發,具有一定的穩定性和系統性,而異常觸發則與之相反,當平臺出現故障或者異常時,平臺的數據可能發生損壞,造成不同程度的經濟損失。因此,異常觸發機制實際上是對平臺穩定運行的一種監督與管控。同樣在平臺被攻擊時,設備執行斷網操作,防止網絡系統癱瘓[6]。第2 步隔離管理數據,其是針對云計算環境的異常行為事件采取的機制,可以根據數據的執行應用以及傳輸的特征,制定具體的數據檢測范圍,并計算出實際的測定極限值,如公式(1)所示。
公式(1)中:K為測定極限值;d為觸發距離;α為傳輸轉換比值。通過上述計算,得到實際的測定極限值。該值具有雙向作用性,對應的極限標準在設定的過程是雙向的,可以劃分為最大值和最小值,同時根據極限數值,劃定感知的實際作用范圍,實現異常數據的隔離處理。針對這種異常事件還可以增加安全事件記錄和通知機制,并對其進行數據上的封鎖。最后,觀察并檢測觸發機制的數據,設計云計算下基于感知哈希的異常檢測流程,見圖1。
由圖1 可知,機制的建立能夠簡單高效地預處理數據,其優點是處理能力強,且不用逐個檢查數據,并且具備警示功能。定義觸發了監測機制的異常行為,包括超流量的數據或者超目標短空的數據,發生類似行為,則根據觸發機制進行處理。但是需要注意的是,異常數據的識別與描述也存在不同程度的差異,因此,先設定實際的有效范圍,并對異常區域進行監控,如果出現數據變化或者誤差等情況,及時警示并維修。
設置云計算平臺異常行為的觸發機制之后,產生大量的異常行為數據,溯源分析該信息,因此,建立數據溯源信息模型[7]。
首先,收集觸發了機制的異常數據。本文重點關注信息收集和內容方面。在數據量比較小的情況下,通過人工或者是智能自動化的方式收集信息,根據異常行為的等級進行不同方式的記錄[8]。為了自動地、高效地收集信息,需要在云計算平臺內添加相應的功能以及數據處理技術,同時對相關的執行指令進行定義,具體見表1。

表1 執行指令定義表
根據上述對平臺指令的定義描述,進一步完善優化相應的執行指令。但是上述設置的定義并不是固定不變,可以根據實際情況的變化,作出對應的描述,同時更改指令的定義條件,以此獲取與處理溯源信息,同時有利于收集異常數據。收集數據后,需要存儲該數據,該數據一般在觸發機制的時候就已經對來源以及產生過程有了簡單了解。這種異常的數據若未篩選,一般被視作元數據。該數據之間存在相互關聯的關系,但是可以在存儲的過程中將其視作一個單位。如果數據異常的行為一致,可以存儲到獨立的系統。在數據的存儲過程中,建立單獨的數據存儲空間,即數據倉庫。數據倉庫是對平臺出現的異常數據以及執行數據進行歸類分離,并與數據庫相關聯。同時,通過關聯平臺將異常數據傳輸至平臺數據庫之中,實現對應的管控。針對以上的數據處理提出了兩種管理辦法,依照各環境下的查詢要求制定。大部分的計算機網絡支持分開式的儲存方法,因為溯源信息的量比較大,因此,其對于數據的處理能力要求較高。
存儲過后的數據設計查詢功能。首先考慮接口部分,接口是查詢規則和定義,通過操作異常行為數據分辨數據的類型[9]。同時可視化處理異常行為數據,有助于互聯網用戶更加直觀地了解信息的來源。
在完成構建數據溯源信息模型后,構建溯源數據的可信存儲結構。通常情況下,對于溯源數據或者異常數據是不允許隨意處理的,并且出現平臺故障,還需要數據作相應的修復與處理。因此,存儲異常行為的相關數據。傳統的存儲方式主要是將數據導入特殊格式的文件之中,進行保存即可。這種方式雖然極為簡便,可以更加快速地完成目標的任務,但是在實際應用的過程中,由于外部因素以及網絡處理的不穩定,極容易出現文件丟失以及存儲信息不完整問題,一定程度上造成大范圍的數據異常,不利于平臺指令的處理與工作的完成。
基于此,根據上述對執行指令的定義,結合PROV 數據處理模型,來劃歸數據溯源的范圍。這實際上是對溯源覆蓋面積的更改和調整,通過跟蹤識別技術對異常區域定位,同時,將溯源數據存儲到區塊鏈上,在模型中進行實體訓練,此時,根據溯源數據的變化與調整,結合哈希處理的范圍,計算出實際的變化哈希值,具體見公式(2)所示。
公式(2)中:R表示實際的變化哈希值,?表示溯源覆蓋范圍,N表示溯源時間,V表示置換指數。通過上述計算,最終可以完成對實際變化哈希值的計算。以此來確定感知哈希的范圍,根據數據的變化情況,重新定義異常數據的溯源類別、格式和屬性,形成完整的溯源數據的可信存儲結構,結合云計算技術,形成更加完整且系統的處理結構,便于后續的設定與操作,提升了整體的異常行為數據的溯源效果。
在溯源數據的過程中,利用感知哈希算法精準地鑒別數據信息,并且通過溯源信息模型對數據進行收集、儲存以及查詢。依據模型提供相關數據信息,通過感知哈希算法中的選取均值哈希算法進行信息的溯源分析,這個算法的特點在溯源數據的時候速度和準確率比較均衡,有效地節省內存空間,進而加快檢測的速度。感知哈希算法是用于場景上的以圖識圖的技術,它的原理是在低維的網絡空間利用強度和縮放比例,規劃處理識別的數據信息。數據信息分割成網格狀,以網格的每個單元進行分析,具體以區域內的特征值計算,具體見公式(3)。
公式(3)中:(X,Y)為異常數據信息的區域范圍;rt為這個區域內第t個數據值;m為整個數據區域內的像素個數。公式(3)表示的是將數據區域內的中心點o與其他存儲的數據進行比較,從而得出異常行為數據的特征T。在上述的處理基礎之上,需要對存儲的數據進行二次處理。依據設定的異常數據信息的區域范圍,劃歸異常行為數據的定義層級,同時根據相關的執行指令,重新設定相應的溯源目標。需要注意的是,目標的設定保留初始的目標以及層級標準目標。這兩種目標相當于溯源的極限標準,可以劃分異常數據與執行數據,因此,根據定義,計算溯源的核心目標節點,見公式(4)。
公式(4)中:L為溯源的核心目標節點;a為哈希異常比;C為溯源輸出距離;θ為相似系數。通過上述計算,得到實際的溯源的核心目標節點。根據異常行為處理的總距離,在云計算平臺中設定相應的核心溯源節點,以此確保最終溯源結果的穩定性與可靠性。不僅如此,在對待異常行為數據時,要先通過本文算法提取信息,在數據庫中進行相似性的判斷與檢索。
基于感知哈希對于云計算平臺中異常行為數據的溯源的具體檢測流程。首先通過上述的公式(1)分類數據;其次通過相似性的判斷公式和檢測中的數據進行對比分析,提取異常行為數據;再選取比例參數進行特征融合,最終輸出溯源信息。
實驗搭建場景為某獨立企業的云平臺開發中心,利用云計算平臺進行數據溯源方法的對比實驗。基于感知哈希的數據溯源方式與傳統的標注法進行溯源速度上的對比分析,證明本文方法的高效性和可行性。本次實驗一共采取了50 組異常行為的數據進行對比。
實驗將50 組異常數據通過感知哈希的算法統計數據的特點,再按照特點進行數據分組。操作系統設定云計算平臺下的異常行為數據,如果觸發正常行為機制,則系統精確定位數據,實現了相應的隔斷管理。而利用大數據溯源的信息模式,系統可以通過精準進行對云計算資源的合理分配以及對異常行為的合理管理,進而實現了對外完成異常數據的清理,在內部完成大數據分析優化的全面功能,從而解決監測和預防云計算平臺下異常行為等問題,實驗測試方法見圖2。
為了驗證本文方法的數據溯源效率,應用兩種方法對50 組固定的數據檢驗溯源效率,對比結果見表2。

表2 溯源信息查詢對比
通過劃分溯源信息查詢的精準度,推斷感知哈希算法對于數據監測的精準度高于傳統的標注法,進而縮短檢測時間。根據統計原理,本文方法可以對云計算平臺下的異常行為進行數據的收集與分類,由于這樣的過程是即時運行的,并能夠隨著異常行為數量的變化而持續自動刷新,因此,實時數據的刷新時間極快,其既考驗了追溯方式的有效性與準確性,同時,又解決了在云計算技術下的異常行為監測與預防問題。因此,實驗表明,本文基于感知哈希算法的數據通過追溯方式檢測有效性更高,進而確保了數據的安全性。
綜上所述,總結了云計算平臺異常行為數據的溯源方法,目的是確保信息數據的安全性。通過本文方法清晰地展現數據從產生到存儲的整個演變過程,從而確保云計算平臺的安全性,并且增強了用戶對數據的信任感。在后續研究工作中,將繼續研究數據溯源的可行方法,進一步提高云計算平臺信息抓取的準確率。