鐘成原 和 健
?
基于大數據異常分析的運維數據分析初探
鐘成原 和 健
民航云南空管分局,云南 昆明 650200
民航云南空管分局自2012年6月28日轉場到新機場運行以來,幾年的運維中產生了大量的設備維護數據,由于目前采用的正常值范圍的檢測方式不能滿足日益提高的運維要求。因此,嘗試利用大數據挖掘中的統計方法對防雷接地電阻的測試進行異常分析,找出在大數據條件下的數據分析的方法。
異常分析;大數據;數據挖掘;運維
民航云南空管分局自2009年開始使用電子值班系統(即運維系統),電子值班系統的使用,大大方便了數據的記錄和查詢。2012年6月28日昆明新機場投入運行以來,系統記錄了數十萬條設備維護記錄,這些記錄都是寶貴的財富,但它們靜靜的躺在數據庫里,沒能為設備的故障預測和更新改造等工作提供更多的幫助。
在現有的維護體系中采用的是取值范圍的檢測方式,例如防雷接地電阻,要求是小于4 Ω,如果測試值在此范圍內都是正常的。但像防雷接地電阻,在工程實施完畢以后,這個值應當穩定在一定范圍內,例如1 Ω,如果某次測量發現突增到3.5 Ω,雖然仍然在規定范圍內,但仍值得引起注意。
因此,采用目前的數據處理方式已經不能滿足數據日益增長的需要了,大數據處理,數據挖掘為民航設備保障提供了新的思路和方法。
2.1 異常值的定義
異常值在統計學上常稱為離群值,對于離群值的定義一般采用統計學家Douglas Hawkins的定義,即異常值是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑他由不同的機制產生的。
大多數情況下異常點的處理在統計學中是將其視為噪音而丟棄,然而在設備維護中,異常點的檢測比正常值的檢測更具指導意義。這是因為這種變化有可能預示著設備發生了某些改變,或者運行環境產生了變化,也有可能是測試人員使用了不同的方法或者工具等等。
2.2 異常分析的基本過程
異常分析的過程大體可以分為以下過程:
(1)獲得和存儲數據。這是一切大數據處理的基本,沒有數據就沒有分析的可能,可喜的是現在民航云南空管分局已經使用運維系統多年,積累了大量的數據。
(2)整合數據。在大數據中數據的量是巨大的,但不是所有數據都是有用的,也不是一次性要把所有數據都分析完。應該按照需要,整合所需的數據。例如本次我們只分析防雷接地電阻,我們就只需要提取取感興趣的部分即可。
(3)建立模型。數據挖掘技術在異常點的檢測上大體分為三類:統計學方法,基于距離的方法,基于偏移的方法,每種方法中又包含了多種處理模型,因此,在處理前必須建立模型,以方便后續的處理。本文中由于處理的僅僅是一個維度的防雷接地電阻,因此采用統計學的正態分布模型可以方便的檢測出異常值。
(4)利用模型進行分析,建立模型后就需要通過模型進行異常點的分析,這也是對模型的驗證。
(5)查找原因和應用,發現異常點后要查找異常點發生的原因,以提高維護質量和安全保障裕度。
3.1 基本情況
由于一個設備的同一個參數在周期維護中測試數量是有限的,而安裝在同一機房內的設備防雷體系是一致的,如果采用相同的測試方法,應該可以得到較為接近的結果。為保證采樣的樣本量,在本文采用3倍標準差方法對民航云南空管分局技術保障部通信網絡室安裝在長水機場航管樓中心機房內的設備接地電阻測試情況進行分析。自2012年6月28日轉場后共取得了462個測試數據。
3.2 檢測過程
3.2.1 對數據進行直觀密度分析
我們采用散點圖直觀地反映數據的分布情況,散點圖如圖1所示:

圖1 接地電阻分布散點圖
由圖中可以看出,防雷接地電阻主要分布在2.5Ω以下,其中3.5 Ω以上的有4個測試值,最大值為4.3 Ω,已經超出了規定范圍[1]。
3.2.2 數據定量分析
計算結果如表1所示:

表1 接地電阻統計計算結果表
超過3倍標準差的數據共有4個,占0.87 %,超過的值如表2所示:

表2 超過3倍標準差的數據統計表
對于1號檢測值,當時的測量人員已經辭職,測試日期正好在當事人準備辭職期間。我們認為當事人當時的心態、工作熱情可能是導致本次測試結果超標的直接原因。
對于2號和4號測試值,由于發生在轉場初期,防雷接地不完善,在2013年初對防雷接地進行全面的梳理檢查后,一直都相對穩定。
對于3號測試結果,維護規程要求測試時使用環形地阻儀進行測試,但測試人回憶當時采用的是萬用表進行測試,而且測試值在標準之內,于是當事人便進行了記錄。在之后的測試一直使用環形地阻儀測試,測試值穩定在1.1 Ω左右[2]。
4.1 測量數據盡可能的數據化
在分析中我們發現在維護記錄中有很多測試值仍然采用“正常”等定性的測試結果,這些數據由于只有“正常”、“不正常”兩個值,無法進行數據分析,不利于發揮大數據分析的作用。
4.2 合理安排異常檢測標準
異常數值的取值是異常分析中最困難的部分,以本例中使用的標準差方法中,通過統計學原理可以知道即使按照3倍標準差分析將有0.3 %的異常值。別小看這0.3 %,如果100萬條數據中將有3000條數據需要調查。因此在實際中應當根據實際情況靈活的確定異常的標準[3]。
4.3 不放過任何一個異常點
對檢出的異常值,應盡可能尋找產生異常值的原因,作為處理異常值的依據。每一個異常都有可能是一個安全隱患,數據分析只能找到這些異常點,但無法告訴我們為什么會發生異常。本著四不放過的原則,應當組織人員進行排查,徹底消除隱患,對于一時無法找到問題的根源,也應當增加檢測密度,密切關注。
4.4 今后的檢測應該朝著多維度發展
本文僅對一維數據進行了分析,但實際工作中很多指標是相互關聯的,例如一個100 W的5 V電源,如果電壓允許1 V誤差,那么輸出電壓范圍是4~6 V,電流可以在0~25 A之間,如果單獨測試6 V電壓,25 A電流都是正常的,但如果同時出現,電源的功率為150 W,大大超出了額定功率。因此,今后應當提高多維度的檢測,以滿足日益增加的維護需求[4]。
[1]統計學術語:GB/T 3358.1—1993[S].
[2]數據的統計處理和解釋正態樣本異常值的判斷和處理:GB 4883—85[S].
[3]Tan P & M Steinbach.范明,范宏建,譯.數據挖掘導論[M].北京:人民郵電出版社,2011:403-418.
[4]張曉,基于密度聚類算法的異常檢測[J].伊犁師范學院學報(自然科學版),2010,2010(4):52-53.
F832.2
A
1009-6434(2016)12-0113-02