李 季 孫 凱 白 文
(1.軍械工程學院 石家莊 050003)(2.63871部隊 華陰 714200)
?
復雜設備維修保障數據預處理技術研究*
李季1孫凱2白文2
(1.軍械工程學院石家莊050003)(2.63871部隊華陰714200)
摘要復雜設備維修保障數據的預處理是其正確性與準確性的重要保證,決定著后續維修保障工作的質量與效益。論文分析了復雜設備維修保障數據的應用需求及特點,對其預處理過程中的相關技術和方法進行了歸納,并在此基礎上總結建立了維修保障數據預處理的基本流程,最后結合某設備維修性數據采用信息熵理論進行了數據規約實例分析。
關鍵詞復雜設備; 維修保障; 數據清洗; 數據規約
Class NumberTP391
隨著設備復雜化程度的逐步提高,對于其維修保障工作提出了更高的要求,開展維修保障決策所需數據的重要性也日益凸顯。復雜設備維修保障數據的正確性與準確性決定著后續維修保障工作的質量與效益,因此在開展RMS分析、維修決策、保障資源規劃等各項維修保障工作之前必須要進行所需基礎數據的預處理工作。
數據預處理相關理論與方法很多,在許多領域也進行了應用[1~2]。然而,在復雜設備的維修保障方面,目前并沒有與之適切的維修保障數據預處理流程規范以及相應理論與技術方法的探索研究。因此,為了便于復雜設備維修保障工作的順利高效進行,本文首先分析復雜設備維修保障數據的應用需求及特點,結合以上分析對其預處理過程中的相關技術和方法進行歸納,并在此基礎上總結建立維修保障數據預處理的基本流程,最后基于上述研究成果開展實例應用分析。
作為資產管理的重要內容之一,維修保障工作的好與壞決定著設備的完好率和生產率的高低,也影響著設備的綜合效能。現代設備維修保障科學化精確化的發展趨勢,尤其是信息化技術與手段的成熟,使得維修保障數據所發揮的決策支持作用越來越大,其應用需求也越來越廣泛。
2.1復雜設備維修保障數據的應用需求
復雜設備維修保障數據的用途很廣,從不同的角度也可有不同的分類方式[3]。本文從設備使用過程中信息統計的角度,重點探討其故障規律、維修器材消耗規律、使用維修性分析等應用需求問題。
2.1.1設備故障規律
根據設備的使用信息、故障信息、技術狀態信息等,統計分析設備及其零部件的故障率、平均壽命等參數,進行故障原因分析,研究確定設備及其零部件的壽命分布規律。根據故障規律分析結果,評估設備維修方案的科學性和合理性。研究設備維修項目優化的內容、程序、方法和模型,為優化設備維修工作項目的類型、級別和間隔期提供技術支持。
2.1.2維修器材消耗規律
根據設備使用與維修中維修器材消耗品種、數量等數據,統計分析設備使用過程中不同時間階段維修器材需求率、配套率等,研究維修器材消耗量分布規律。根據維修器材消耗規律分析結果,預測維修器材消耗品種和數量,制訂和修訂維修器材儲供標準,優化維修器材庫存,提高維修器材儲供決策的科學性和器材供應保障的準確性。
2.1.3使用維修性分析
根據設備的維修事件、維修工序、維修時間、維修人員、資源消耗等數據,統計分析設備及其零部件的維修時間參數、維修工時參數、維修費用參數等,研究確定設備及其零部件的維修時間分布規律。根據設備使用維修性分析結果,研究設備使用維修性評估目標、評估參數體系、評估模型,為設備維修性改進提供技術支持。
2.2維修保障數據的特點
復雜設備維修保障數據的特點影響數據預處理流程的確定以及相關分析技術的選擇,本文將復雜設備維修保障數據的特點歸納如下:
1) 多屬性并存
如2.1節所述,設備維修保障中存在故障規律、維修器材消耗規律、設備使用維修性分析等各種需求,在許多情況下同一數據是多種需求的綜合體現,也可以發揮多方面的作用,兼具多種屬性。因此在設備維修保障方面,多屬性并存是需要考慮的問題。
2) 單位量綱不一致
設備維修保障的模型中所需的參數眾多:時間、人力、費用等,因此存在不同的單位。即使是相同的單位,量綱也存在不同,如時間參數有日歷時間:秒、天、年等,也有使用時間:行駛里程、運轉次數等。在后續處理之前需要進行單位量綱的一致化。
3) 多層次結構
設備維修保障中數據針對的層次也存在不同,有對單個零部件,有對局部分系統,也有對全系統等。低層次的數據是高層次數據的基礎,高層次數據是低層次數據的融合,同一層次數據之間又存在相輔互補關系。
在數據采集過程中,會受到環境、使用情況等方面的影響,導致所采集的數據并不能直接作為一個理想樣本來處理,尤其是現場數據,因此在對其進行正式分析與應用之前,必須采取相應的手段進行預處理,以提高數據源的正確性與準確性。通常來說,數據完成收集后,需要進行規格化、清洗、規約等處理,才可作為有效的數據源[4],如圖1所示。

圖1數據預處理一般流程
3.1維修保障數據的收集
信息的采集是進行信息分析的基礎,在維修保障工作中會產生描述產品可靠性和維修性水平及其質量狀況的各種數據[5],復雜設備維修保障數據的來源主要有:
1) 設備基本信息
設備(系統)在出廠之時都附帶有設備的使用說明書,其中就包括設備的基本信息:設備的性能參數、設備的兼容性、設備附件的使用等。
2) 設備故障信息
設備發生故障都是由維修人員進行保障,在此期間維修人員會對設備故障的信息進行統計,如設備故障率、設備零件更換次數、設備部件實際使用壽命等。
3) 設備維修信息
維修保障人員在維修過后會對設備使用的情況進行統計,如設備報廢前維修次數、維修費用、維修周期等。
3.2維修保障數據的規格化
設備維修保障模型屬性較多,尤其是不同采集人員極易導致數據的格式、單位量綱等存在混亂,因此需要數據規格化。數據規格化主要有以下兩種:
1) 數字格式規格化
當在數據源中數據存在不一致格式時應用多種格式函數、變換函數、標準函數庫和匯總分解函數去實現數字格式的一致性。
2) 單位量綱規格化
統一采用單位無量綱化,默認為國際標準的單位量綱,在數據源中進行數據的轉換,如15min,無量綱化時應該數據轉換為15/60,即0.25,此時默認的單位應該為國際單位小時(h)。
3.3維修保障數據的清洗
數據清洗的就是利用現有的技術手段和方法檢測出數據源中的“臟數據”,并將“臟數據”轉化為滿足數據使用者要求的數據[6~7]。結合設備維修保障數據的應用與特點,初始獲得的維修保障數據主要有以下幾種情況需要處理:
1) 含噪聲數據
從工程學的角度講,噪聲是一個測量變量中的隨機錯誤或偏差,包括錯誤的值或偏離期望的孤立點值。由于其會導致錯誤的分析結果,因此需要通過數據清洗,去除空值數據、不一致數據以外的其他不準確、不客觀數據。
2) 錯誤數據
錯誤數據,即在數據源中與其他的數據有著明顯的差異,格式或形式等存在錯誤。設備維修保障數據有不同的屬性,可采用不同屬性間的約束來檢測和修正錯誤。在沒有有效的工具支撐的急迫情境下,也可以人工檢測與修正數據的錯誤。
3) 重復數據
重復數據一般是由于在數據源中產生人為的失誤,在記錄過程中存在重復現象。此類數據可采用優先隊列算法來處理,該算法幾乎不受數據規模的影響,能很好地適應數據規模的變化。對于某條記錄存在多條重復記錄的情況,優先隊列也有更好的適應性。
4) 缺失數據
在數據收集的過程中或者一些其他偶然因素,使得數據源記錄不完整,不符合數據的規律性,就會導致缺失數據。目前對其處理多采用忽略缺失值,但該方法在記錄多個屬性存在缺失值或每個屬性缺失值的百分比變化很大時性能不是特別明顯。
3.4維修保障數據的規約
數據規約是對海量數據的壓縮和簡約,形成小型的數據且不影響數據完整性。數據規約的主要目的是解決元組規約中屬性的提取以及屬性重要性排序,同時也解決屬性規約中的屬性離散化。
1) 數據的屬性離散化
屬性離散化通過將屬性值域劃分為區間,利用數據離散化技術來減少給定屬性值的個數[8]。此時,區間的標記可以替代實際的數據值,用少數區間標記替換連續屬性的數值,從而減少和簡化了原來的數據。
2) 屬性重要性排序
對數據屬性的重要性也要進行排序,這是后續信息處理的必要準備工作,常用理論依據有信息熵、粗糙集等[9~10]。之后進一步實施屬性提取,包括人工甄別、小波變換、投影尋蹤、多維標度等較為復雜的處理方式,在此不作詳細介紹。
將上述過程采用更為直觀形象的形式進行描述,可得到維修保障數據預處理流程如圖2所示。

圖2 復雜設備維修保障數據預處理流程
為便于理解應用,下面對某設備維修性數據進行規約處理,采用信息熵理論,對其數據屬性重要度進行排序,并利用Matlab進行功能實現。
4.1基于信息熵的數據屬性重要度排序原理
按照信息熵理論,一個信息系統可表示為:S=(U,R,V,f)。其中,U為對象的非空有限集合,即論域;R為屬性的非空有限集合;V為屬性r的值域;f是一個信息函數,指定U中各對象的屬性唯一值。
在粗糙集理論研究中,Duntsch等建立了知識與信息熵的關系,引入了信息熵和條件熵概念[11]。信息熵是信源總體的平均不確定性的量度。定義知識{屬性集合}P的熵H(P)和知識{屬性集合}Q相對于知識{屬性集合}P的條件信息熵H(Q/P)為:
式中,P(xi)為P在論域U上的劃分X=(x1,x2,…,xn)上的概率。
P(xi)=|xi|/|U|
P(yj/xi)=|yj∩xi|/|xi|
其中,i=1,2,…,n;j=1,2,…,m。
這樣,就可以利用每個條件屬性對決策屬性的條件信息熵大小來判斷該條件屬性與決策屬性的影響程度。
4.2設備維修性數據規約實例分析
表1為某設備生產能力的各個屬性構成以及所對應的各屬性值,如可靠度、保障性、返修率等數據。基于維修性的特點,每個屬性值均用1和0來表示。具體含義為系統配套1表示配套齊全,0表示配套不齊;可靠度1表示可靠度高,0表示可靠度低;維修間隔期1表示維修間隔期長,0表示維修間隔期短;保障性1表示保障性好,0表示保障性差;零部件使用壽命1表示使用壽命長,0表示使用壽命短;返修率1表示返修率低,0表示返修率高;裝生產能力1表示生產能力好,0表示生產能力差。

表1 某設備生產能力屬性統計表
在Matlab軟件中依據表格數據形成txt文件,在命令窗口中輸入rsdav3命令啟動程序界面,得出如圖3所示對話框[12]。在Browse按鈕讀入信息系統決策表,給出C屬性和D屬性所需列號,則可以進一步分析。單擊Redu進行簡約,結果將在Results欄目顯示。

圖3 粗糙集數據分析界面
圖3所表示的含義為:屬性2、3的重要度最高,即可靠度以及維修間隔期是影響設備生產能力的重要因素。
本文主要分析研究了復雜設備維修保障數據預處理的相關理論與技術方法,總結了維修保障數據預處理的基本流程,并結合實例數據進行了應用分析,為后續維修保障工作的順利與有效開展奠定了基礎。由于復雜設備維修保障數據預處理是一項龐大的系統性、全局性工程,工作量大、涉及知識面廣,對于數據的預處理理論與技術在其中的應用以及所構建的流程框架,還需在今后進一步深化和細化。
參 考 文 獻
[1] 劉云霞.數據預處理[M].廈門:廈門大學出版社,2011.
LIU Yunxia. Data Preprocessing[M]. Xiamen: Xiamen University Press,2011.
[2] 關大偉.數據挖掘中的數據預處理[D].長春:吉林大學碩士學位論文,2006.
GUAN Dawei. Data Preparation for Data Ming[D]. Changchun: Master Degree Thesis of Jilin University,2006.
[3] 方幼林,楊冬青,等.數據倉庫中數據質量控制研究[J].計算機工程與應用,2003(13):1-4.
FANG Youlin, YANG Dongqing, et al. Data Quality Management in Data Warehouse[J]. Computer Engineering and Application,2003(13):1-4.
[4] 和春慧.數據倉庫中數據預處理的研究與算法實現[D].長春:吉林大學碩士學位論文,2004.
HE Chunhui. The Research and Implementation of Algorithms on Data Preprocessing in DW[D]. Changchun: Master Degree Thesis of Jilin University,2004.
[5] 韓慶田,劉夢年.軍用裝備現場數據收集應注意的問題[J].質量與可靠性,2002(6):38-41.
HAN Qingtian, LIU Mengnian. The Problems in Field Data Collection of Military Equipment[J]. Quality and Reliability,2002(6):38-41.
[6] 田芳,劉震.數據倉庫清洗技術討論[J].青海師范大學學報(自然科學版),2005(4):50-53.
TIAN Fang, LIU Zhen. The Discussion about Data Cleansing of Data Warehouse[J]. Journal of Qinghai Normal University(Natural Science Edition),2005(4):50-53.
[7] 王武.數據清洗方法研究及工具設計[D].上海:上海交通大學碩士學位論文,2009.
WANG Wu. Research on Data Cleansing and Tool Designing[D]. Shanghai: Master Degree Thesis of Shanghai Jiaotong University,2009.
[8] 汪慶,張巍,劉鵬.連續特征離散化綜述[D].上海:上海財經大學碩士學位論文,2004.
WANG Qing, ZHANG Wei, LIU Peng. Summary of Continuous Feature Discretization[D]. Shanghai: Master Degree Thesis of Shanghai University of Finance and Economics,2004.
[9] 劉菁,解大.基于粗糙集理論和信息融合的變電站故障診斷方法[J].繼電器,2007,35(6):5-9.
LIU Jing, JIE Da. Substation Fault Diagnosis Method Based on Rough Set Theory and Information Fusion[J]. Relay,2007,35(6):5-9.
[10] 謝春明,肖露欣,等.基于粗糙集和TS-ANN的柴油機故障診斷推理[J].計算機測量與控制,2013,21(1):54-56.
XIE Chunming, XIAO Luxin, et al. Research on Fault Diagnosis for Diesel Engine Based on Rough Set and TS-ANN[J]. Computer Measurement and Control,2013,21(1):54-56.
[11] 張文修,吳偉志.粗糙集理論與方法[D].北京:科學出版社,2001.ZHANG Wenxiu, WU Weizhi. The Theory and Method of Rough Set[D]. Beijing: Science Press,2001.
[12] 王琦,高軍鋒,常春藤.等.MATLAB基礎與應用實例集粹[M].北京:人民郵電出版社,2007.
WANG Qi, GAO Junfeng, CHANG Chunteng, et al. The MATLAB Foundation and Application Study[M]. Beijing: People’s Posts and Telecommunications Press,2007.
收稿日期:2015年10月8日,修回日期:2015年11月27日
作者簡介:李季,男,碩士研究生,講師,研究方向:裝備維修工程。孫凱,男,碩士,工程師,研究方向:裝備試驗與鑒定。白文,男,碩士,工程師,研究方向:裝備試驗數據分析。
中圖分類號TP391
DOI:10.3969/j.issn.1672-9722.2016.04.033
Maintenance Support Data Preprocessing Technology for Complex Devices
LI Ji1SUN Kai2BAI Wen2
(1. Ordnance Engineering College, Shijiazhuang050003)(2. No. 63871 Troops of PLA, Huayin714200)
AbstractThe preprocessing of maintenance support data for complex devices is an important guarantee of its correctness and accuracy, which also determines the quality and effectiveness of the subsequent maintenance support work. The application requirements and characteristics of complex equipment maintenance support data are analyzed, the related technologies and methods are summarized, and the basic process of data preprocessing is constructed. Finally, a numerical example is analyzed with the information entropy theory for data protocol.
Key Wordscomplex device, maintenance support, data cleaning, data protocol