單顯明
(沈陽炮兵學院 沈陽 110161)
數據挖掘是從大量的、不完全的、有噪聲的、模糊的數據中,提取隱含在其中的有價值的知識。數據挖掘技術是基于大型數據庫或數據倉庫的新型信息分析技術,目前已在很多領域已得到成功應用。某型炮兵雷達自裝備部隊以來,在使用過程中的故障明顯增多,往往是一個很小的故障就可能導致整個雷達無法正常工作,已影響到了該雷達的日常訓練和戰斗力的形成。針對這一問題研制了基于數據挖掘技術的炮兵雷達故障診斷系統,實現了雷達故障的快速檢測及定位,提高了該雷達的綜合保障能力。
炮兵雷達故障診斷技術的發展經歷了三個階段。由于以前機器設備比較簡單,第一階段故障診斷主要依靠領域專家或維修人員的感覺器官、個人經驗及簡單儀表,對診斷信息只作簡單的數據處理。第二階段以傳感器技術和動態測試技術為手段,以信號處理和建模處理為基礎的現代診斷技術,在維修工程和可靠性工程中得到了廣泛的應用。第三階段隨著計算機技術、數據挖掘、機器學習和人工智能技術特別是專家系統的發展,故障診斷技術進入以知識處理為核心的智能診斷技術階段。
數據挖掘(Data Mining),又稱為數據庫中的知識發現,就是從大量數據中獲取有效的、新穎的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識[1]。數據倉庫(Data Warehouse)就是一個用以更好地支持企業或組織決策分析處理的、面向主題的、集成的、不斷更新的數據集合[2]。數據挖掘是面向數據庫的,數據挖掘算法的大部分時間都花費在對數據庫的訪問上。數據倉庫技術可以大大減輕數據挖掘中對數據管理的壓力,并能提供超大規模長時間的歷史數據,基于數據倉庫的數據挖掘技術更有利于有價值模式的挖掘,是數據挖掘的重要發展方向。
數據挖掘的工作過程如圖1所示,數據挖掘的過程主要包括數據的清理與集成、數據的選擇與變換、數據挖掘及模式的評估與表示等四個步驟[3]。

圖1 數據挖掘的過程
a.清理與集成
首先對炮兵雷達分系統的狀態數據進行采集,由數據輸入端送到數據挖掘系統,根據用戶的數據挖掘請求,消除噪聲或不一致數據,組合多種數據源數據,提取相關數據,形成數據倉庫或數據庫。
b.選擇與變換
對數據倉庫中的狀態數據進行相應的選擇與變換,如消除噪音、數據標準化、數據變換(平滑、聚集、概化)、數據歸約(離散化),通過匯總或聚集等操作將數據變換或統一成適合挖掘的形式。
c.數據挖掘
根據炮兵雷達系統的特點,使用相應的數據挖掘算法提取數據模式。
d.模式的評估與表示
使用可視化和知識表示技術,識別表示知識的真正有趣的模式,向用戶提供挖掘的知識。
數據挖掘主要包括關聯分析、序列模式分析、聚類分析、分類分析等算法[4,5]。
a.關聯分析
關聯分析利用關聯規則進行數據挖掘,其目的是挖掘隱藏在數據間的相互關系,生成所有具有用戶指定的最小置信度和最小支持度的關聯規則。在數據挖掘研究領域,對于關聯分析的研究開展得比較深入,人們提出了多種關聯規則的挖掘算法,如Apriori、Stem 等算法。
b.序列模式分析
序列模式分析目的是為了采掘出數據之間的聯系,但序列模式分析的側重點在于分析數據間的前后關系。如運用序列模式分析銷售記錄,可以發現客戶潛在的購物模式,例如客戶在購買微波爐前常購買何種商品。
c.聚類分析
聚類分析法的輸入集是一組未標定的記錄,輸入的記錄沒有進行任何分類,其目的是根據一定的規則,合理地劃分記錄集合,并用顯式或隱式的方法描述不同的類別。主要的聚類技術包括基于劃分的聚類、層次聚類和基于模型的聚類。另外還有預測模型、偏差檢測、數據庫分段、聯系分析、可視化等相關算法。
d.分類分析
分類分析就是通過分析示例數據庫中的數據,為每個類別做出準確的描述或建立分析模型或挖掘出分類規則,然后用這個分類規則對其它數據庫中的記錄進行分類。目前主要的分類方法有判定樹歸納、貝葉斯分類、后向傳播的神經網絡技術、k-最鄰近分類法、基于案例的推理、遺傳算法、粗糙集理論和模糊集方法等。
基于數據挖掘技術的某型雷達故障診斷系統架構如圖2所示。用戶通過軟件接口輸入雷達診斷信息至智能診斷子系統,信息處理與診斷推理模塊利用知識庫中的知識,根據故障信息診斷故障設備,最后利用知識庫對所有診斷方法得到的結果綜合決策,判斷具體的故障類型,并將診斷結果在用戶界面顯示。其中知識庫是基于征兆庫、傳統專家經驗診斷規則和數據挖掘診斷規則的混合系統,各診斷機制充分發揮各自的優點。征兆庫存放經過數據庫處理并提取的系統推理所需要的征兆事實,知識庫的維護包括擴展、修改和刪除操作。知識庫采用傳統經驗、專家經驗、粗糙集知識及關聯規則等數據挖掘方法來獲取診斷知識。關聯規則挖掘從特征數據中挖掘出特征變量間隱含的因果或關聯關系,可用于故障趨勢預測的挖掘。

圖2 故障診斷系統架構
故障診斷的目的是從大量的炮兵雷達監測信息中發現潛在的規律,提取有用的知識,智能地判斷雷達當前運行狀態,發現隱含的或已經存在的故障。故障診斷模型如圖3所示。

圖3 故障診斷模型
數據挖掘是一個需要經過反復多次處理的過程,它可利用不斷充實的診斷知識庫和恰當的算法,逐步挖掘真實的故障機理及診斷規則。首先將原始數據整理為與挖掘主題相關的信息,然后根據關聯規則算法對指定數據集進行知識的提取。通過對挖掘結果進行一致性、合理性檢查,與預期目標進行對比。如果結果與預期目標偏差較大,返回算法設計階段,調整或重新設計挖掘算法。如果偏差較小,返回算法設計階段,對挖掘算法進行調整。如果結果理想,返回數據階段,擴大數據集,重新開始一次挖掘過程。重復上述步驟,直至達到最優結果。
關聯規則挖掘能發現隱藏在海量數據中的有關聯關系對故障診斷有價值的數據,對決策的生成具有重要的實用價值。由于炮兵雷達各單元間存在著緊密的聯系,某一單元設備故障會導致與之聯系的其它設備工作于非正常狀態之下,因此在異常數據中采用關聯規則進行挖掘是非常合適的,首先發現異常數據,按置信度從高到低的規則排序,從數據中發現那些置信度和支持度都大于給定值的強壯規則,即可能為引起故障的原因。數據挖掘關聯規則采用Apriori算法實現,首先根據某型雷達接收系統電路圖及故障現象進行信號檢索建立檢測屬性表,然后對檢測屬性表進行處理得到故障統計表,如表1所示。其中編號1-9分別為-15V電壓、調幅1電壓、中頻信號、調相電壓、本振信號、+12V電壓、+5V電壓、跟蹤板電壓、激勵信號。仿真時支持度和置信度的閾值過小,則產生大量弱關聯規則并延長挖掘時間,反之則可能遺漏有價值的關聯規則,應用中應先在較小的樣本中通過修改閾值進行交互式挖掘,以確定合適的閾值,然后再對海量數據進行挖掘,并采用支持度或置信度排序技術。本文采用支持度為14.6%,置信度為65%,相關度為1。

表1 故障統計表
對以上故障結果數據采用Apriori算法多次掃描得到的幾組異常變量及挖掘結果,篇幅所限以下僅列出二組數據挖掘結果,如表2所示。

表2 異常數據挖掘結果
分析以上數據可知,接收系統某一設備故障時會導致與之聯系的其它設備工作異常,例如 5號設備異常時,1、3、6、7 異常的概率為 100%,4、8、9異常的概率為 17%,3、6、7、1同時異常的概率為100%;9號設備異常時,2、3、1異常的概率為100%,5、6、7 異常的概率為 50%,2、3、1 同時異常的概率為100%。分析結果與雷達實際故障相同,說明仿真算法是正確的。
本系統利用數據挖掘的思想,建立了基于數據挖掘的雷達故障診斷系統。利用該方法建立的故障診斷系統具有自學習的能力,隨著在線故障數據不斷地加入數據庫中,系統故障診斷的準確性會不斷提高,實踐證明該系統具有較高的實用價值。
[1]施曉華.數據挖掘技術在圖書館學科數據館藏分析中的應用[J].情報雜志,2011,40(1):53-55.
[2]李潔,楊金會,滕振芳.數據倉庫及數據挖掘技術在超市中的應用[J].煤炭技術,2010,25(2):36-38.
[3]賀清碧,胡久永.數據挖掘技術綜述[J].西南民族大學出版社(自然科學版),2006,25(3):56-58.
[4]王光洪,蔣平.數據挖掘綜述[J].同濟大學學報(自然科學版),2004,55(2):12-15.
[5]王光洪,蔣平.基于關聯規則數據挖掘技術的電網故障診斷[J].電力系統保護與控制,2009,37(9):8-14.