楊全緯,唐向紅,鄭 陽,任甲舉
(貴州大學(xué) 現(xiàn)代制造技術(shù)教育部重點實驗室,貴陽 550003)
?
電機狀態(tài)異常數(shù)據(jù)檢測算法研究*
楊全緯,唐向紅,鄭陽,任甲舉
(貴州大學(xué) 現(xiàn)代制造技術(shù)教育部重點實驗室,貴陽 550003)
針對電動機狀態(tài)監(jiān)測中異常數(shù)據(jù)檢測存在的準確度低和測量值不精確等問題,文章提出一種基于區(qū)間數(shù)的不確定數(shù)據(jù)流異常檢測算法。在該算法中,首先引入?yún)^(qū)間數(shù)的方法描述電動機狀態(tài)監(jiān)測中測量信號的不確定性,再利用區(qū)間數(shù)的位置關(guān)系對當(dāng)前窗口的不確定數(shù)據(jù)進行剪枝,去除大多數(shù)正常的數(shù)據(jù),最后根據(jù)距離值重新排列當(dāng)前窗口的數(shù)據(jù),收縮數(shù)據(jù)點的K-最近鄰對象的查詢范圍。實驗結(jié)果表明,該方法具有較高的檢測精度和較低的計算復(fù)雜度,并能很好的運用到電動機狀態(tài)監(jiān)測中的異常數(shù)據(jù)檢測。
電動機電流;不確定數(shù)據(jù)流;滑動窗口;K-距離;異常數(shù)據(jù)檢測
目前,電機狀態(tài)檢測的采集信號主要是利用傳感器將包含故障特征的信號轉(zhuǎn)換成數(shù)字儀器可直接測量的電氣信號[1]。其特征不僅是數(shù)據(jù)到達速度極快、規(guī)模龐大[2-3],而且在實際系統(tǒng)中由于測試對象失效、測試儀器自身誤差[4]和高磁場干擾等問題引起了其具有不確定性,并且它已逐漸成為影響測試信息可信性和系統(tǒng)可靠性的主要因素之一[5]。因此,面向電機狀態(tài)檢測系統(tǒng)中不確定數(shù)據(jù)流分析與挖掘技術(shù)的研究,對克服數(shù)據(jù)的不準確性和保證更高的檢測精度具有非常重要的意義。
在不確定數(shù)據(jù)挖掘的研究領(lǐng)域中,異常點檢測是其重要的研究內(nèi)容之一,同時是數(shù)據(jù)挖掘處理過程的第1步[6]。一方面它對檢測到的異常數(shù)據(jù)進行分析,能獲取許多重要的信息[7];另一方面它對剔除的正常數(shù)據(jù)進行分析,可以得到更為準確的分析結(jié)果[8]。迄今為止,研究人員關(guān)于不確定數(shù)據(jù)異常點檢測的研究還很少。其中,Aggarwal和Yu[9]提出基于遍歷子空間和密度估計的不確定數(shù)據(jù)離群點檢測算法。該算法對不確定數(shù)據(jù)對象在一個密集區(qū)域出現(xiàn)的概率使用平概率進行量化,再設(shè)定特定閾值判定離群點,避免了在處理多維不確定數(shù)據(jù)過程中對不是離群點的對象進行誤判。文獻[10]提出基于距離的不確定離群點檢測的算法,該算法雖減少了檢測次數(shù),提高了效率,但在非均勻數(shù)據(jù)集的檢測過程中精度不高,并只適合概率數(shù)據(jù)流的異常檢測。姜元凱等人[11]提出基于密度的不確定數(shù)據(jù)離群檢測算法。該算法采用R2-tree結(jié)構(gòu),雖能有效降低了時間復(fù)雜度,但未考慮數(shù)據(jù)屬性級的不確定性且不適合流數(shù)據(jù)的異常檢測。文獻[12]研究了數(shù)據(jù)對象及其可能實例都具有不確定性,提出每個對象均由一些可能實例組成,再利用概率密度函數(shù)描述每個可能實例。同時假設(shè)具有相似屬性的不確定數(shù)據(jù)往往會有相似的可能實例。文獻[13]提出基于屬性級的不確定數(shù)據(jù)的異常點檢測算法。該算法首先定義了數(shù)據(jù)屬性級的不確定性的異常點,再通過動態(tài)規(guī)劃的方法,減少計算代價和存儲空間,最后采用基于SM-tree(statistics M-tree)的查詢方法,進一步提高查詢效率,但該算法的用戶參數(shù)不易設(shè)定。此外,上述算法對于數(shù)據(jù)不確定性均假定其概率密度[8-11]或概率分布函數(shù)[12-13]是已知的。然而,在大多實際應(yīng)用中,獲得數(shù)據(jù)完整的概率密度函數(shù)或概率分布函數(shù)是很難的。為此,采用區(qū)間數(shù)的方法科學(xué)而直觀地表示不確定性數(shù)據(jù),提出一種基于此方法的不確定數(shù)據(jù)流異常檢測算法,并且能有效地解決在電機狀態(tài)監(jiān)測系統(tǒng)中對不確定數(shù)據(jù)流的異常數(shù)據(jù)檢測。該算法采用滑動窗口分割數(shù)據(jù)流,并利用區(qū)間數(shù)的位置關(guān)系[14]進行剪枝,剔除一部分干凈的數(shù)據(jù);另外根據(jù)窗口內(nèi)所有數(shù)據(jù)與首數(shù)據(jù)點的距離值大小進行排序,優(yōu)化數(shù)據(jù)查詢范圍;最后基于K-近鄰的檢測方法對余下的數(shù)據(jù)進行異常檢測。
定義1:(區(qū)間數(shù)及其中點和半徑)[14]若給定AL、AR∈R,且AR≥AL,則集合A=[AL,AR]{u|AL≤u≤AR}可表示為一個區(qū)間數(shù),其中:AL為其下界,AR為其上界。若令αA=(AR-AL)/2,mA=(AR+AL)/2,則有:AL=mA-αA,AR=mA+αA,并稱mA為區(qū)間數(shù)A的中點,αA(αA≥0)是區(qū)間數(shù)A的半徑。故區(qū)間數(shù)A又可表示為[mA-αA,mA+αA]。當(dāng)上下界相等時,其可表示為一個確定數(shù)據(jù)。
定義2:(區(qū)間數(shù)之間的距離)[14]若給定兩區(qū)間數(shù)P=[mP-αP,mP+αP],O=[mO-αO,mO+αO],其中mP,mO,αP,αO∈R,則區(qū)間數(shù)P和O的距離可表示為D=[Dmin,Dmax](具體計算過程見文獻[14]),其中:
Dmax=|mp-mo|+αp+αo
(1)
這里通過引入相關(guān)系數(shù)λ[15],{λ∈R|0≤λ≤1},將上述兩個不確定數(shù)據(jù)的距離極值組合,則這兩個不確定數(shù)據(jù)之間的距離平方和D(P,O)2,可表示為:
通過相關(guān)系數(shù)λ不僅將距離度量與算法結(jié)合起來,而且能夠表示兩個不確定性數(shù)據(jù)之間各種情況下的距離值。如果λ為0,則可表示兩個不確定數(shù)據(jù)之間的區(qū)間距離的最大值,此時兩不確定數(shù)據(jù)最遠;如果λ為1,則可表示兩個不確定數(shù)據(jù)之間的區(qū)間距離的最小值,此時不確定數(shù)據(jù)最近。
定義3:(區(qū)間數(shù)P的K-距離(K-distance(P))在不確定數(shù)據(jù)集合G中,對于正整數(shù)K,區(qū)間數(shù)P的第K距離可記作K-distance(P)。如果存在某個區(qū)間數(shù)對象O與區(qū)間數(shù)P之間的距離可記作D(P,O),并滿足以下的條件:
(1)至少存在K個區(qū)間數(shù)對象O′,∈G,使D(P,O′)≤D(P,O);
(2)至多存在K-1個區(qū)間數(shù)對象O′,∈G,使D(P,O′) 那么認為K-distance(P)= D(P,O)。 定義4 :(區(qū)間數(shù)P的K-距離鄰域)給定區(qū)間數(shù)P的K-distance(P),則所有與區(qū)間數(shù)P之間的距離不超過K-distance(P)的對象集合稱為區(qū)間數(shù)P的K-距離鄰域,記作:Nk(P)。 在這一部分中,首先說明了不確定性數(shù)據(jù)流的區(qū)間表示方法,然后提出了基于滑動窗口和區(qū)間數(shù)的位置關(guān)系的剪枝方法,最后根據(jù)區(qū)間數(shù)距離排序的方法優(yōu)化了數(shù)據(jù)查詢,并闡述了基于k-近鄰的不確定數(shù)據(jù)流異常檢測算法及其實現(xiàn)。 2.1不確定數(shù)據(jù)流 2.2基于滑動窗口和區(qū)間數(shù)位置關(guān)系的剪枝方法 在不確定數(shù)據(jù)流DS中,異常數(shù)據(jù)是明顯偏離其他對象的數(shù)據(jù),并只占少部分且多為離散的,絕大多數(shù)數(shù)據(jù)為正常數(shù)據(jù)。為此如果能夠?qū)ふ乙环N方法在不確定數(shù)據(jù)流中快速地去除一部分正常的數(shù)據(jù),再對留下的可能為異常數(shù)據(jù)的數(shù)據(jù)進行檢測,則能在整個不確定數(shù)據(jù)的檢測過程中節(jié)省大量的時間。 在實際的電機設(shè)備運行診斷過程中測量值常與時間有關(guān)。如:在“電流—時間”關(guān)系中,電流I值是隨時間t變化的,是無限的、有序的、快速變化的、不精確的,在其數(shù)據(jù)流模型中,由于數(shù)據(jù)規(guī)模極大且到達速度和順序都無法控制,這將不允許數(shù)據(jù)全部存儲后再處理。為了能處理其數(shù)據(jù)流中到達速度不同的數(shù)據(jù),采用基于滑動時間窗口的處理方法。另外,在電機診斷系統(tǒng)中,很多采集信號為電流或電壓,根據(jù)采集的諧波信號計算在其正常工作情況下它的有效值,用符號X效表示。再根據(jù)電機設(shè)備的特性合理獲取基于有效值的一個閾值,用符號E表示,E=[X效-X1,X效+X2]。如果信號值的區(qū)間數(shù)P值處于E范圍內(nèi),則采集的數(shù)據(jù)點為正常,否則數(shù)據(jù)點可能為異常數(shù)據(jù)。鑒于此,先通過對電流的測量值進行不確定性處理,再基于滑動時間窗口將不確定數(shù)據(jù)流劃分成段以為后續(xù)工作做好準備,最后根據(jù)區(qū)間數(shù)的位置關(guān)系判斷在工作情況中其電流的區(qū)間數(shù)I值是否處于區(qū)間數(shù)E范圍內(nèi),若在某些特殊情況的出現(xiàn)時,其電流的區(qū)間數(shù)I值超過或相交于這個區(qū)域,那么這時其有可能為異常點。 2.3基于K-近鄰的異常檢測方法及其優(yōu)化 要判斷不確定數(shù)據(jù)流中經(jīng)剪枝而留下的不確定數(shù)據(jù)是否為異常數(shù)據(jù),這里采用不確定數(shù)據(jù)的鄰近性度量,并且在實際應(yīng)用中這很容易實現(xiàn)。在接下來的K-近鄰距離的檢測過程中僅需計算每個不確定數(shù)據(jù)與其它不確定數(shù)據(jù)之間的距離,得到不確定數(shù)據(jù)點的K-距離,最后用該不確定數(shù)據(jù)點到其K-最近鄰的距離值便可表示離群度量,表達其是否遠離大多數(shù)的正常點。 從這個計算過程中可以看出,在整個不確定數(shù)據(jù)的檢測過程中每個不確定數(shù)據(jù)都將依次計算與其它不確定數(shù)據(jù)之間的距離值,這樣會明顯的增加整個檢測過程的時間復(fù)雜度。為此通過空間換時間的方法對這個過程進行優(yōu)化。首先,對于經(jīng)剪枝過程而剩下的可能為異常的不確定數(shù)據(jù),利用開辟內(nèi)存空間保存這些不確定數(shù)據(jù),用符號L1表示,在需要用到的時候直接提取,優(yōu)化對象查詢;然后,對于當(dāng)前滑動時間窗口的所有不確定數(shù)據(jù),通過計算滑動窗口中所有不確定數(shù)據(jù)點與首數(shù)據(jù)點之間的距離值,依據(jù)其大小采用冒泡法進行排序,再開辟內(nèi)存空間L2保存記錄,在需要的時候則直接從內(nèi)存空間中提取。這樣做可以在計算某個不確定數(shù)據(jù)k-近鄰過程中,搜索其k-最近鄰的對象時,僅需從L1中提取,再在L2中以其為中心有規(guī)律地擴散搜索數(shù)據(jù)對象,這樣會大幅度地縮小其計算對象的查詢范圍,從而減少計算時間。 2.4算法描述 針對電機檢測系統(tǒng)中傳感器所采集的不確定數(shù)據(jù)流,我們根據(jù)滑動時間窗口中不確定數(shù)據(jù)流的有效值和利用K-近鄰距離對其進行在線檢測。在整個檢測過程中,不確定數(shù)據(jù)流流入時間窗口后,首先對這些不確定數(shù)據(jù)進行剪枝,去除一部分正常的數(shù)據(jù),再對留下的不確定數(shù)據(jù)采用基于k-近鄰的方法進行最后的異常檢測。算法描述如下: 算法:不確定數(shù)據(jù)流異常檢測的UIDSWK算法 輸入:不確定數(shù)據(jù)流DS,流數(shù)據(jù)的有效值T效,正整數(shù)K,滑動時間窗口的寬度d 輸出:不確定數(shù)據(jù)流中異常點的數(shù)據(jù)集合 ①初始化系統(tǒng)的各個內(nèi)存空間; ②掃描不確定數(shù)據(jù)流并存儲當(dāng)前時間窗口中的不確定數(shù)據(jù)直到當(dāng)前窗口滿; ③對當(dāng)前窗口的不確定數(shù)據(jù)進行剪枝,并去除在E范圍內(nèi)的不確定數(shù)據(jù); ④將窗口中可能的異常數(shù)據(jù)存到存儲空間L1中; ⑤計算窗口中所有數(shù)據(jù)點與首數(shù)據(jù)點的距離,再利用冒泡法依據(jù)距離大小排序,并保存記錄; ⑥調(diào)用L1中的數(shù)據(jù),計算當(dāng)前時間窗口內(nèi)可能為異常數(shù)據(jù)的K-距離以及Nk(P),并將其按從大到小的距離來排序; ⑦依次判斷L1中每個不確定數(shù)據(jù)的K-近鄰對象所屬類別,確定真正異常數(shù)據(jù)并輸出; ⑧在時間軸上將窗口滑向下一個單元; ⑨重復(fù)第2步至第7步,直到檢測完所有的不確定數(shù)據(jù)。 在整個算法的計算過程中,首先要計算出每個不確定數(shù)據(jù)點的區(qū)間數(shù)與E的位置關(guān)系進行剪枝,以此為依據(jù)來判斷其是否為可能的異常點。從這個過程中可以看出整個剪枝過程的時間復(fù)雜度,給定數(shù)據(jù)量為N的不確定數(shù)據(jù)流,其時間的計算復(fù)雜度為O(4N);接著在計算數(shù)據(jù)點排序過程中的時間復(fù)雜度為O(NlogN);最后要計算L1中的對象K-近鄰,其時間復(fù)雜度要遠低于O(KNlogN)。因此,整個計算過程的時間復(fù)雜度要低于O(4N+ 2KNlogK)。 在以下的內(nèi)容中,首先分析了相關(guān)系數(shù)、包含因子、K值和滑動時間窗口的寬度等參數(shù)對本文算法UIDSWK的檢測精確度和效率的影響,然后對該算法的檢測精度和效率進行評估以及與RLOF[11]和ODA[9]算法的比較,最后用人工合成的模擬數(shù)據(jù)進一步驗證該算法的必要性和可行性。在實驗中測試所用的數(shù)據(jù)分為真實數(shù)據(jù)和模擬數(shù)據(jù)兩種。并且實驗均在一臺PC機上完成,實驗硬件環(huán)境如下:CPU是InterPentiumG630,2.7GHZ,2G的內(nèi)存。軟件環(huán)境如下:操作系統(tǒng)為Windows7,編程的語言使用C++,開發(fā)環(huán)境為MicrosoftVisualStudio2010。 對不確定數(shù)據(jù)流中異常點的結(jié)果評估,采用離群點檢測算法有效性的評估標準[9,11],檢測準確度所采用表達式如下: 如果檢測準確率值越趨近于1,則說明該算法有較好的檢測結(jié)果。在實驗中使用的真實數(shù)據(jù)集為領(lǐng)域內(nèi)公認的數(shù)據(jù)集KDDCUP1999[9],即網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集,其有多達7×107個網(wǎng)絡(luò)連接記錄,每條記錄包含41個特征(如:持續(xù)時間、傳輸字節(jié)數(shù)、登陸次數(shù)等),并且其可分為5大類。從中選取2×104條連接記錄,每條記錄選取5個連續(xù)的數(shù)值型屬性作為不確定數(shù)據(jù)的值部分。然后生成(0,μσ2)的高斯白噪聲作為不確定數(shù)據(jù)流的標準差信息,其中μ是噪聲因子(通過改變μ的值獲取數(shù)據(jù)所具有不確定性程度的大小),σ2是數(shù)據(jù)的方差。最后將選取的數(shù)據(jù)集記錄的輸入順序模擬成數(shù)據(jù)流的到達順序,順序號記為對應(yīng)的時標,采用在線的處理方式對其進行檢測。 3.1相關(guān)參數(shù)λ對UIDSWK算法的影響 在不確定性異常檢測算法UIDSWK中,相關(guān)參數(shù)是采用用戶輸入的方式,且0≤λ≤1。通過不同的λ取值對UIDSWK算法在真實數(shù)據(jù)中進行異常數(shù)據(jù)檢測,設(shè)定包含因子η取值是1,K值取值是6,滑動時間窗口寬度d是0.1,同時選取真實數(shù)據(jù)中的每120條記錄進行檢測,運行20次的檢測準確度與相關(guān)參數(shù)值之間曲線如圖1所示。 圖1 檢測準確度隨相關(guān)參數(shù)λ變化曲線 從圖1可看出,相關(guān)參數(shù)λ對UIDSWK算法的檢測準確度有一定的影響。在相關(guān)參數(shù)λ值從0變化到1過程中,僅當(dāng)取值為0.7~1時,對UIDSWK算法的準確度有較壞的影響,由此看出區(qū)間距離取各不確定數(shù)據(jù)之間距離的最小值,因而準確度較小,而在其他情況下準確度基本相似。因此選取相關(guān)參數(shù)λ的值時,推薦從0~0.7內(nèi)取值較為合適。 3.2包含因子η對UIDSWK算法的影響 由文獻[14]可知,如果數(shù)據(jù)偏離其統(tǒng)計均值3倍標準,那么分布在其區(qū)間的概率是99.7%,而不確定性數(shù)據(jù)流中各個數(shù)據(jù)的范圍大小是由包含因子η決定的,因此η取值范圍為0~3。為了進一步驗證其對UIDSWK算法的檢測準確度影響,在實驗中選取不同的包含因子值進行對不確定數(shù)據(jù)流的異常數(shù)據(jù)檢測。其中相關(guān)系數(shù)λ取值為0.7、正整數(shù)K為6和窗口寬度d為0.1,檢測準確度與包含因子值之間曲線如圖2所示。 圖2 檢測準確度隨包含因子值η變化曲線 從圖2可看出,包含因子η對UIDSWK算法的檢測準確度有較明顯的影響,當(dāng)η取值從0.5增加到1時,算法的準確度值較高且變化不大,接著隨著η的增大,其值呈迅速下降趨勢。因此,在檢測過程中推薦包含因子的值選取為0.5~1比較合適。 3.3整參數(shù)K值對UIDSWK算法的影響 關(guān)于K值對算法的影響,實驗選取了不同K值,設(shè)定的相關(guān)系數(shù)λ、包含因子η、正整數(shù)K和窗口寬度d保持一致,實驗的結(jié)果如圖3所示。 圖3 不同K值時檢測的準確度 根據(jù)圖3可知,在K值從1變化到10過程中,僅當(dāng)K取值為4~8時,對UIDSWK算法檢測準確度值比較高,隨著K值增加,其準確度也逐漸增加,但是當(dāng)K值達到一定程度后,準確度又會呈下降趨勢。在K<4時,算法的準確率比較低,但其值隨著K值增加而迅速上升,當(dāng)K>8時,K值對準確度有較壞的影響,準確度會逐漸下降。其原因是因為在K值比較小的時候,不確定數(shù)據(jù)P的K-近鄰的對象數(shù)據(jù)量很少,很容易誤判這些數(shù)據(jù)中的正常數(shù)據(jù)為異常數(shù)據(jù);隨著K值的增加,不確定數(shù)據(jù)P的K-近鄰的對象數(shù)據(jù)量也會迅速增加,這時判斷這些數(shù)據(jù)中的異常點會比較容易,但當(dāng)K值增加到一定程度之后,算法會將某些異常數(shù)據(jù)誤判為正常的數(shù)據(jù),因此其準確率又會逐漸下降。 3.4滑動時間窗口寬度d對UIDSWK算法的影響 考慮到不同滑動時間窗口寬度d對UIDSWK算法執(zhí)行時間的影響。實驗數(shù)據(jù)和檢測的其它各個參數(shù)的選擇均相同,實驗的結(jié)果如圖4所示。 圖4 不同滑動窗口寬度算法的執(zhí)行時間 從圖4可以看出,對于同一不確定數(shù)據(jù)流而言,隨時間窗口的寬度變大,整個算法的執(zhí)行時間會迅速增加。這是因為隨時間窗口的寬度變大,在每個時間窗口段中需要處理的不確定數(shù)據(jù)量會隨之增多,因此這樣導(dǎo)致了整個算法的計算時間的增加。 3.5針對真實數(shù)據(jù)檢驗不同算法的優(yōu)劣 為了分析UIDSWK算法的優(yōu)劣,通過與ODA和RLOF兩種不同算法的比較得以驗證。其中ODA算法是采用類似區(qū)間的不確定數(shù)據(jù)異常點檢測。RLOF算法是基于密度的不確定數(shù)據(jù)異常點檢測。雖然這兩種算法的檢測過程不在數(shù)據(jù)流中,但是可以采用基于時間窗緩沖區(qū)的處理方法,然后與本文算法進行比較。 首先,對UIDSWRK算法進行執(zhí)行效率的性能測試。實驗結(jié)果表明,在相同數(shù)據(jù)量的情況下各種算法的所執(zhí)行時間如圖5所示。 圖5 不同算法之間執(zhí)行時間的比較 從圖5可以得出,ODA算法所用的時間最多,UIDSWK算法是所用時間最少的。ODA算法是最耗時,這是因為該算法為基于密度的檢測算法,絕大部分計算時間都用在計算數(shù)據(jù)密度上,所以執(zhí)行時間很高。而RLOF算法要比ODA算法優(yōu)越,這是因為RLOF算法構(gòu)建R2-tree樹優(yōu)化了數(shù)據(jù)查詢,雖然這樣會增加內(nèi)存空間消耗,但是從時間的角度來看,可以為整個算法過程節(jié)約大量的時間。與這兩個算法相比較,UIDSWK算法優(yōu)化了K-近鄰方法的數(shù)據(jù)查詢,并且采用剪枝方法,去除了大多數(shù)正常的數(shù)據(jù),因此減少了用在絕大部分的正常數(shù)據(jù)上面的計算時間,從而使其時間復(fù)雜度要低于其它兩個算法。 為了說明UIDSWK算法的準確度優(yōu)劣,采用在不同噪聲因子μ值和不同算法的情況下進行試驗,實驗所得的結(jié)果如圖6所示。 圖6 不同算法不同噪聲因子值μ檢測準確率對比 從圖6可看出,三種檢測算法的準確度隨噪聲因子μ的增加呈不斷下降的趨勢。這是因為隨噪聲因子μ的增大,數(shù)據(jù)的不確定性程度變大,因而不確定性數(shù)據(jù)間的距離變大,因此準確度值也隨之變小。同時可以看出 ,在這三種檢測算法中,UIDSWK算法的準確度高于其它兩種算法,這是因為在其剪枝過程中剔除了部分的干凈數(shù)據(jù),而留下的數(shù)據(jù)多為全局異常,在進行K-近鄰檢測過程中誤判可能性較小。 3.6模擬的實驗數(shù)據(jù)的實驗 為了進一步驗證算法的可行性,假設(shè)電機檢測系統(tǒng)中要檢測的某一電流信號,其表達式如下: (2) 從式(2)可以看出要檢測的電流信號的周期為0.02s,頻率為50Hz,給此信號施加一個沖擊信號m(t),即為原始的信號產(chǎn)生的異常點。m(t)信號是均值為0,方差為3的高斯函數(shù),此時電流信號的數(shù)據(jù)流變化的關(guān)系式如下: Y(t)=I(t)+m(t) (3) 然后在電流屬性上繼續(xù)疊加均值為0,方差為μσ2的高斯白噪聲,通過調(diào)節(jié)μ值來對比本文提出的UIDSWK算法和其它兩種算法在模擬實驗數(shù)據(jù)的異常檢測的準確度性能。根據(jù)前4節(jié)所做的關(guān)于各參數(shù)值大小對于檢測結(jié)果的影響,設(shè)定相關(guān)系數(shù)λ取值為0.7,包含因子η值為1,K值為6,滑動時間窗口寬度d值為0.1。實驗的結(jié)果如圖7所示。 圖7 不同算法不同噪聲因子值μ檢測準確率對比 從圖7可知,在噪聲因子較小時,這三種檢測算法的準確度相差不大,隨著噪聲因子值增大而不斷下降。但是在同等噪聲水平的干擾下, UIDSWK算法的準確度優(yōu)于其它兩種算法,這是因為其使用的剪枝方法去除了大多數(shù)正常的數(shù)據(jù),對于剩下的數(shù)據(jù)的檢測誤判可能性小,故其準確度較高。 鑒于不確定數(shù)據(jù)流的異常檢測是一個非常重要的研究領(lǐng)域,具有廣泛的應(yīng)用前景。本文提出了一種用到電機監(jiān)測控制系統(tǒng)中的不確定數(shù)據(jù)流的異常數(shù)據(jù)檢測算法。該算法首先利用區(qū)間數(shù)和標準差來表示不確定性數(shù)據(jù);然后利用基于滑動窗口和區(qū)間數(shù)位置關(guān)系的剪枝方法,剔除了當(dāng)前滑動窗口中的大多數(shù)正常的數(shù)據(jù);最后優(yōu)化了計算K-近鄰距離的對象查詢。實驗結(jié)果表明,相比其它兩種算法在不確定數(shù)據(jù)流上UIDSWK算法的檢測準確度和效率均有優(yōu)勢。下一步工作,將繼續(xù)優(yōu)化與完善UIDSWK算法,并且充分考慮更加復(fù)雜的不確定數(shù)據(jù)流情況下的異常檢測。 [1] 安國慶. 異步電動機早期故障特征檢測技術(shù)的研究[D].天津:河北工業(yè)大學(xué),2013. [2] Babcock B, Babu S, Datar M, etal. Models and issues in data stream systems[C]. Symposium on Principles of Database Systems,2002:1-16. [3] 張晨,金澈清,周傲英.一種不確定數(shù)據(jù)流聚類算法[J]. 軟件學(xué)報, 2010, 21(9):2173-2182. [4] 黃美發(fā),景暉,匡兵,等.基于擬蒙特卡羅方法的測量不確定度評定[J].儀器儀表學(xué)報,2009,30(1):120-125. [5] 周帆,李樹全,肖春靜,等. 不確定數(shù)據(jù)Top-k查詢算法[J]. 電子測量與儀器學(xué)報,2010,24(7):650-657. [6] 蘇衛(wèi)星,朱云龍,胡琨元,等.基于模型的過程工業(yè)時間序列異常值檢測方法[J].儀器儀表學(xué)報,2012,33(9):2080-2087. [7] 周大鐲,劉月芬,馬文秀.時間序列異常檢測[J].計算機工程與應(yīng)用,2008,44(35):145-147. [8] Lozano E, Acufia E. Parallel algorithms for distance-based and density-based outliers[C]. International Conference on Data Mining, 2005:767-776. [9] Aggarwal C C, Yu P S.Outlier detection with uncertain data[C].Siam International Conference on Data Mining,2008:483-493. [10] Hao Y,Wang B,Gang X,etal.Distance-Based Outlier Detection on Uncertain Data[J].Journal of Computer Research and Development, 2009,1(3):293-298. [11] 姜元凱,鄭洪源,丁秋林.一種基于密度的不確定數(shù)據(jù)離群點檢測算法[J].計算機科學(xué),2015,42(4):172-176. [12] Jiang B,Pei J.Outlier detection on uncertain data:Objects,instances, and inferences[J].Proceedings of the 2011 IEEE 27thInternational Conference on Data Engineering,2011,6791(4):422-433. [13] Cao Keyan, Wang Guoren,Han Donghong,et al.An algorithm for outlier detection on uncertain data stream[C]//LNCS 7808: Proceedings of the 15th Asia-Pacific Web Conference Heidelberg: Springer,2013:449-460. [14] 彭宇,羅清華,彭喜元.UIDK-means:多維不確定性測量數(shù)據(jù)聚類算法[J].儀器儀表學(xué)報,2011,32(6):1201-1207. [15] Habich D,Volk P B,Dittmann R,et al.Error-aware density-based clustering of imprecise measurement values[C].The 23nd IEEE Int’l Conf. on Data Mining,2007:471-476. [16] 羅清華,彭宇,彭喜元.一種多維不確定性數(shù)據(jù)流聚類算法[J].儀器儀表學(xué)報,2013,34(6):1330-1338. (編輯李秀敏) The Outlier Data Detection Algorithm in the Control System of Motor YANG Quan-wei,TANG Xiang-hong,ZHENG Yang,REN Jia-ju (Key Laboratory of Advanced Manufacturing Technology, Ministry of Education, Guizhou University, Guiyang 550003, China) Aiming at the inaccuracy of outlier data and measured data in the control system of motor, an outlier detection algorithm based on interval data was proposed in uncertain data stream. In this algorithm, firstly, the interval data introduced was used to express the inaccuracy of measured signal; Then all the data in the sliding windows was pruned by the position between two interval data, to dislodge most of the normal data; Finally, the current window data based on their distance with the first data was reordered, to reduce query data ink-close distance. Experiment results showed that the algorithm not only possessed better clustering precision with low computing complexity but also applied to outlier data detection in the motor monitoring system well. motor current; uncertain data stream; sliding window;K-close distance; date detection 1001-2265(2016)08-0034-05 10.13462/j.cnki.mmtamt.2016.08.010 2015-08-23; 2015-08-28 國家科技支撐計劃(2012BAF12B14);貴州省重大科技專項(黔科合重大專項字(2012)6018);貴州省科學(xué)技術(shù)基金項目(黔科合J字[2011]2196號);貴州省工業(yè)攻關(guān)項目(黔科合GY字(2013)3020) 楊全緯(1989—),男,湖北荊門人,貴州大學(xué)碩士研究生,研究方向為先進制造技術(shù)、自動控制,(E-mail)825537796@qq.com;通訊作者:唐向紅(1979—),男,湖南永州人,貴州大學(xué)副教授、碩士生導(dǎo)師,研究方向為實時數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)挖掘,(E-mail)txhwuhan@163.com。 TH39;TG506 A2 UIDSWK異常檢測方法
3 實驗結(jié)果分析








4 結(jié)束語