(青海師范大學成人教育學院,青海 西寧 810008)
USB移動存儲設備中異常病毒數據檢測技術研究
郭道軍
(青海師范大學成人教育學院,青海西寧810008)
對USB移動存儲設備中的異常病毒數據進行檢測,可以延長USB移動存儲設備壽命,提高數據利用率,減少系統運行時間;當前方法利用軌跡點片段異常對USB移動存儲設備中的異常病毒數據進行檢測,將幾個獨立的USB移動存儲設備中的異常病毒數據屬性進行結合,針對現有的異常病毒數據點的異常軌跡進行檢測,以病毒數據的位置、速度以及方向為檢測對象;該方法對USB移動存儲設備中的異常病毒數據檢測效率低,不適用于大規模的USB移動存儲設備中的異常病毒數據檢測;為此,提出一種基于PATRICIA樹的USB移動存儲設備中異常病毒數據檢測方法;該方法利用K-means算法將USB移動存儲設備中的數據劃分為K個類,并利用歐幾里德距離對各個類間的相似度進行衡量,然后在獨立分量分析的基礎上加入遺忘因子,對USB移動存儲設備中異常病毒數據檢測時含噪進行測量估計,最后利用小波分析法,通過設置USB移動存儲設備中異常病毒數據判定閾值,以及標準化以后的小波系數內絕對值,與判定閾值的比較完成病毒數據的檢測;實驗結果證明,所提的檢測方法可以高精度地對USB移動存儲設備中異常病毒數據進行檢測,更加符合該領域發展實際意義。
USB移動存儲設備;異常病毒數據;檢測技術
隨著互聯網的不斷發展和普及,網絡安全形勢不容樂觀,敏感部門內網在理論上對其進行了安全性比較高的隔離,在現實中,U盤的濫用、USB移動設備的非法接入以及木馬的濫用等,威脅著各個組織單位的信息安全[1]。隨著移動硬盤的廣泛應用,系統中經常感染輪渡木馬等異常軟件,所以USB移動存儲設備中異常病毒數據檢測成為計算機發展的重中之重[2]。從數據自身的安全性看,數據所構成的破壞威脅主要為文件型病毒,它的特點是在網絡文件系統中。一般除了靜態策略查殺病毒以外,最需要的是實時地檢測以及防范病毒[3]。可以看出,最終數據的破壞或者失泄密主要根源都與主機信息安全的防護有關系。如果利用筑高墻,堵漏洞,防侵入等方式來解決現存的安全問題,會使問題多樣化,由此就需要用一些更加底層的手段,對計算機系統實現高效地防護[4]。而基于PATRICIA樹的USB移動存儲設備中異常病毒數據檢測方法,可以對USB移動存儲設備中異常病毒數據進行高效率地檢測,有擴展性好、透明性好、自我防護性能強等特點,是解決上述問題的有效手段[5]。由于互聯網和科學技術的驅動,USB移動存儲設備中異常病毒數據的檢測受到了有關人士的廣泛關注和高度重視,并對其進行深度研究[6],得到許多成果,為該領域后續的研究深造提供了堅實基礎,具有較好的應用價值[7]。
文獻[8]提出一種基于支持向量機的USB移動存儲設備中異常病毒數據檢測方法。該方法通過支持向量機的回歸估計模型,不傾向于除掉個別比較大的回歸誤差,從整體上對回歸曲線平滑程度進行考慮,利用對回歸估計值和實測值間殘差的比較,識別測量數據內的異常數據。該方法較為簡單,但檢測誤差大。文獻[9]提出一種基于投影追蹤的USB移動存儲設備中異常病毒數據檢測方法。該方法利用廣義的似然比檢驗模型,組建二元檢測算子,通過觀測數據對算子內表示背景的未知參數進行估計,算子關鍵參數和目標參數是采用投影追蹤算法,對USB移動存儲設備中的異常病毒數據點,進行搜索得到的。該算法不僅消除目標檢測法對先驗信息數據的依賴,而且增強檢測法的實用性,但是該算法利用投影追蹤法對目標參數的提取效率低,USB移動存儲設備中的異常病毒數據檢測過程繁瑣。文獻[10]提出一種基于DBSCAN的USB移動存儲設備中異常病毒數據檢測方法。該方法先根據DBSCAN獲取包括單類數據的球形邊界,且該球形邊界是最小的,其次利用該邊界,對未知的USB移動存儲設備中的異常病毒數據分類,依據最小閉包球算法,對DBSCAN分類器優化求解。該方法檢測準確率較高,但是存在運行時間較長的問題。
針對上述產生的問題,提出一種基于PATRICIA樹的USB移動存儲設備中異常病毒數據檢測方法。實驗證明,所提方法可以高精度、高效率地對USB移動存儲設備中的異常病毒數據進行檢測。具有較強地可行性和通用性。
利用多尺度核函數對USB移動存儲設備中異常病毒數據檢測,通過數據過濾的形式將USB移動存儲設備中的病毒數據進行檢測以及清除。

(1)

下面根據統計學方法過濾含有噪聲的USB移動存儲設備中異常病毒數據。假設一個光滑似然函數L,這個函數反映一個點:x∈R3隸屬于USB移動存儲設備中異常病毒數據P,采樣之后的曲面S表面上點的概率。通過均值漂移跟蹤算法的增強迭代模式,將置于似然函數L上的USB移動存儲設備中異常病毒數據點漂移至極大的似然位置。
定義似然函數L,就要對每個異常病毒數據采樣點pi∈P中的局部似然函數Li聚類。對某個特定點x似然值Li(x)進行計算,運算過程中要考慮x至pi空間域,擬合最小的二乘平面的平方距離。pi最小二乘平面能夠利用對權重協方差的計算來擬合,可表示為:
(2)


(3)
綜上所述,對橢圓球的權重函數局部鄰域以及最小二乘擬合的平面進行計算時,采取的是恒定核尺度h,但是,恒定核尺度也許并不適用于USB移動存儲設備中異常病毒數據采樣密度的變化,針對這種情況,可以利用每個采樣點pi中的K-鄰域對PCA進行分析,從而實現橢圓球核Ei的運算。因為函數L極大值比較偏離采樣的表面,導致病毒數據檢測中的噪聲沒有被大范圍地過濾掉,但通過自適應尺度h,可以將USB移動存儲設備中大規模的異常病毒數據檢測出來并清除。
本文利用K-means算法對USB移動存儲設備中的異常病毒數據進行分析。具體過程如下:
將USB移動存儲設備中異常病毒數據對象劃分成K個類,隨機在樣本中選擇出K個點,作為假設的中心點。把這些數據向離自己本身最近的中心點移動,一直到每組中的相似度都較高,而組和組間相似度最低。一般利用歐幾里德距離對其相似性進行衡量,評級劃分質量目標函數可定義為:
J= ∑i = 1k∑i = 1bidij(aj,zi)
(4)
其中,zi代表bi類聚類中心,是類的數據點,dij(aj,zi)代表a1與z1間的距離。所以J就表示各簇內點至該簇的中心距離和。當J越小,USB移動存儲設備中的數據聚類就越密集。
在K-means算法中,選擇初始點代表聚類中的假定中心,將要被聚類的USB移動存儲設備中數據樣本進行分類,依據假定中心調整輸出聚類結果。假設對每個樣本Xi找到離它本身最近的中心簇,公式為:
k=argmink∈{1,…,k}d(bk,Xi)
(5)
對每個數據簇中的數據點均值進行計算,這個均值的向量成為該數據簇新的中心。公式為:
bk= ∑i = 1nkXi(k)
(6)
其中,nk代表第k簇中包含的USB移動存儲設備中異常病毒數據樣本數。
從USB移動存儲設備數據中,得到兩個特征對象間的距離,利用歐幾米德距離當作距離度量標準,對數據簇中的中心點進行計算,以簇中全部對象平均距離計算中心點。得到算法中的準則函數值。當新舊函數值之間的差小于1,也就是準則函數值沒有明顯變化時,終止算法,遍歷所有USB移動存儲設備中異常病毒數據特征對象,把該對象加入至離它最近的數據簇中。特征對象加入后,更新每個數據簇中心點,找到最終合適中心點,由此對USB移動存儲設備中異常病毒數據進行成功分類。
根據2.1中所得分類結果,利用獨立分量分析,對USB移動存儲設備中異常病毒數據檢測的噪聲值進行測量。
假設從USB移動存儲設備異常病毒數據中選取去噪樣本,作為去噪的測量值,將測量值分為一維五層的分解,并在其中提取出比較高頻的成分當作測量噪聲,由此解決測量噪聲失真問題。另外,加入遺忘因子進一步對測量噪聲估計進行優化。假設,在長度為M滑窗內,小波變換提取的測量噪聲值為m1,m2,…,mM,那么M+1時刻噪聲測量值為:
(7)
其中,εω=(1-ε)/(1-εω)代表ω時刻,測量噪聲εω加權遺忘因子,ε∈(0,1)。
綜合2.1與2.2中的數據信息,為提高檢測效率,在K-means算法分類的基礎上,利用小波分析法對USB移動存儲設備中異常病毒數據進行檢測,具體方法如下:
按照自變量升序重新排列USB移動存儲設備中異常病毒數據樣本,經過重排的序列樣本集能夠作為離散的序列處理。
選取適當的Marr小波函數,通過數據樣本構成特點,對所有尺度參數集進行確定,參數集表達式為:
A={dμ,μ=1,2,…,n}
(8)
其中,μ代表對應的樣本編號,不同尺度參數dμ可以凸顯出不同類型的異常病毒數據,比較小的d有利于觀察到數據比較密集位置的異常病毒數據,比較大的d有利于觀察到數據比較稀疏位置的異常病毒數據,通過一種尺度對小波進行分析,經常沒有辦法觀察到所有USB移動存儲設備中異常病毒數據,所以需要根據不同尺度dμ對小波進行分析。假設:

(9)
其中,e代表數據樣本平均間距,Ov代表小波函數運算區間長度,該長度為6.2,η代表待定系數,該待定系數反映了,小波變換積分的區間可以覆蓋的樣本數。假設μ=1,dμ=d,通過修正算法對各個數據樣本所對應的,小波系數進行計算。按照式(10)將小波系數標準化:

(10)
其中,I代表基準值,此時為0,W代表標準偏差:
(11)
通過設置的USB移動存儲設備中異常病毒數據判定閾值,把標準化之后的小波系數內絕對值大于判定閾值的標,稱為異常病毒數據,對應的數據樣本代表異常病毒樣本。如果μlt;n,那么設定μ=μ+1,則通過修正算法對各個數據樣本所對應的,小波系數進行計算,如果μ≠μ+1,則USB移動存儲設備異常病毒檢測結束。
為了證明基于PATRICIA樹的USB移動存儲設備中異常病毒數據檢測方法的有效性,需要進行一次實驗。在Simulink的環境下搭建USB移動存儲設備中異常病毒數據檢測實驗平臺。實驗數據取自于10部小米4手機存儲磁盤,利用本文所提方法對這10部小米4手機存儲磁盤中異常病毒數據進行檢測,觀察本文所提方法的實用性。表1是不同方法USB移動存儲設備中異常病毒數據漏檢數(個)對比。

表1 不同方法異常病毒數據漏檢數對比
分析表1可知,文獻[9]所提方法利用廣義的似然比檢驗模型,組建二元檢測算子,沒有設置檢測指標,導致漏檢數比較多。文獻[10]所提方法根據DBSCAN獲取包括單類數據的球形邊界,但是該球形邊界并不光滑,使USB移動存儲設備中異常病毒數據的漏檢數較多。本文所提方法在對USB移動存儲設備中異常病毒數據檢測之前,利用了K-means算法,對USB移動存儲設備中的異常病毒數據進行了分析,所以漏檢數較少。該分析證明了本文所提方法具有較強的實際應用價值。表2是不同方法USB移動存儲設備中異常病毒數據誤檢數(個)對比。

表2 不同方法異常病毒數據誤檢數對比
由表2可知,文獻[8]所提方法利用對回歸估計值和實測值間殘差的比較,識別測量數據內的異常數據,但是比較效果并不理想,導致USB移動存儲設備中異常病毒數據誤檢數較多。文獻[9]所提方法根據觀測數據對二元檢測算子內表示背景的未知參數進行估計,估計的誤差大,導致USB移動存儲設備中異常病毒數據誤檢數較大。本文方法利用獨立分量分析,對USB移動存儲設備中異常病毒數據檢測的噪聲值進行測量,大大減少了誤檢數。圖1是不同方法USB移動存儲設備中異常病毒數據檢測運行時間(s)對比。

圖1 不同方法檢測運行時間對比
在圖1中,本文所提方法利用小波分析法,按照自變量升序重新排列USB移動存儲設備中異常病毒數據樣本,減小USB移動存儲設備中異常病毒數據檢測運行時間,明顯優于文獻所提方法。說明本文方法具有優秀的整體可行性。圖2是不同方法USB移動存儲設備中異常病毒數據檢測時含噪測量效率(%)對比。下式為含噪測量效率(%)計算公式。

(12)

圖2 不同方法檢測時含噪測量效率對比
分析圖2可知,文獻[10]所提方法依據最小閉包球算法,對DBSCAN分類器優化求解,期間并沒有專門對分類過程中所含噪聲進行很好地測量和去除,導致USB移動存儲設備中異常病毒數據檢測含噪測量效率低。本文所提方法從USB移動存儲設備中異常病毒數據中選取去噪樣本,作為去噪的測量值,將測量值分為一維五層的分解,并在其中提取出比較高頻的成分當作測量噪聲,解決測量噪聲失真問題,提高USB移動存儲設備中異常病毒數據檢測含噪測量效率。進一步證明所提方法的可實踐性。
實驗證明,所提方法可以安全快速地對USB移動存儲設備中異常病毒數據進行檢測,增加計算機安全性,降低異常病毒數據誤檢率,是一種切實可行的USB移動存儲設備中異常病毒數據檢測方法。
采用當前方法對USB移動存儲設備中異常病毒數據進行檢測時,由于檢測方式單一,檢測范圍小,導致USB移動存儲設備中異常病毒數據檢測效率低,精度低。提出一種基于PATRICIA樹的USB移動存儲設備中異常病毒數據檢測方法,該方法可以有效可靠地對USB移動存儲設備中異常病毒數據進行檢測,成為該領域發展的奠基石。
[1]于紅巖,岑凱倫,楊騰霄.云計算平臺異常行為檢測系統的設計與實現[J].計算機應用,2015,35(5):1284-1289.
[2]胡春雨,陸 翌,李 翔,等.充電設備移動檢測平臺的研究與設計[J].電源技術,2016,40(3):697-699.
[3]姜 濱,楊杰明.關于航空器異常數據檢測仿真研究[J].計算機仿真,2015,32(12):72-75.
[4]馬智遠,崔曉飛,黃裕春,等.辨識諧波電流監測數據中異常數據的一種方法研究[J].電力系統保護與控制,2016,44(21):96-102.
[5]張 銳,李留青.大型多媒體網絡數據庫異常數據高效檢測方法[J].科技通報,2015,31(10):163-165.
[6]陳佳俊,陳玉峰,嚴英杰,等.基于時空聯合聚類方法的輸變電設備狀態異常檢測[J].南方電網技術,2015,9(11):65-72.
[7]石 震,楊志強,馬 驥.基于雙位置的磁懸浮陀螺異常數據檢測[J].測繪科學,2015,40(10):102-105.
[8]楊宏波.物聯網環境下的差異網絡數據庫異常數據檢測[J].計算機測量與控制,2015,23(3):1008-1010.
[9]湯 義,黃建軍,賴勉力,等.基于積分通道特征的異常行為檢測算法[J].科學技術與工程,2016,16(21):284-288.
[10]何高攀,楊 桄,孟強強,等.基于圖像融合的高光譜異常檢測[J].電子設計工程,2016,24(2):165-168.
AbnormalVirusDataDetectionTechnologyResearchinUSBMobileStorageDevice
Guo Daojun
(Aduit Education College,Qinghai Normai University,Xi'ning 810008,China)
The detection of abnormal virus data in the USB mobile storage device to can extend the life of USB mobile storage device, improve the data utilization and reduce the running time of the system. Segments of current method using trajectory point anomalies of USB removable storage device detect virus data, several independent USB removable storage device when the virus data attributes, in view of the existing exception virus detect abnormal data points of trajectory, virus data position, speed and direction as test object. This method is less efficient in detecting abnormal virus data in USB mobile storage devices, and does not apply to the detection of abnormal virus data in a large number of USB mobile storage devices. To this end, an abnormal virus data detection method is proposed in a USB mobile storage device based on the PATRICIA tree. The method using the K - means algorithm to data in USB removable storage device is divided into K classes, and by using Euclidean distance to measure the degree of similarity between the classes, and then on the basis of the independent component analysis to join the forgetting factor, abnormal data virus detection of USB removable storage device when the measured signals with noise estimation, the use of wavelet analysis, by setting the USB removable storage device in abnormal virus data to determine the threshold, and standardized the wavelet coefficient absolute value, compared with the decision threshold to complete the data of the virus. The experimental results show that the proposed detection method in this paper can accurately for USB mobile storage devices, abnormal virus data for testing, more in line with the development of practical significance in this field.
USB mobile storage devices; anomalous virus data; detection technology
2017-05-16;
2017-06-12。
郭道軍(1967-) ,男,山東濟南人,講師,主要從事計算機基礎方向的研究。
1671-4598(2017)09-0005-03
10.16526/j.cnki.11-4762/tp.2017.09.002
TP393
A