999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進Apriori算法對試車臺監(jiān)測數(shù)據(jù)的關(guān)聯(lián)挖掘

2015-11-15 07:35:18劉自然王律強李愛民張躍春顏丙生甄守樂
中國測試 2015年4期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

劉自然,王律強,李愛民,張躍春,顏丙生,甄守樂,熊 偉

(1.河南工業(yè)大學機電工程學院,河南 鄭州 450007;2.河南工業(yè)大學工程訓練中心,河南 鄭州 450007;3.中航工業(yè)湖南南方宇航高精傳動有限公司,湖南 株洲 412002)

0 引 言

航空發(fā)動機傳動附件作為航空發(fā)動機的關(guān)鍵部件,在裝機前需采用試車監(jiān)視系統(tǒng)進行試驗,試車過程中得到的數(shù)據(jù)存儲在傳動附件試車臺監(jiān)測軟件中。然而,這些數(shù)據(jù)只用于一般的查詢或統(tǒng)計處理,沒有進行深刻的分析理解;如何從這些數(shù)據(jù)中找出(或發(fā)現(xiàn))對試車工作有指導意義的規(guī)則(或知識)非常有工程應用價值。將關(guān)聯(lián)規(guī)則技術(shù)應用于航空發(fā)動機傳動附件的試車監(jiān)測數(shù)據(jù)挖掘[1]中,可以有效地發(fā)現(xiàn)航空發(fā)動機傳動附件各變量間的關(guān)聯(lián)規(guī)則,監(jiān)測試車臺狀態(tài)的變化,以便更好地管理試車臺。針對原有Apriori算法對數(shù)據(jù)集掃描次數(shù)過多,產(chǎn)生候選集多導致效率不高的問題,提出了一種改進的Apriori算法,并應用于某試車臺監(jiān)測數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘中。

1 關(guān)聯(lián)規(guī)則技術(shù)的原理及方法

假設 I={i1,i2,…,im}是 m 項的集合,即數(shù)據(jù)庫中屬性的集合。事務 t也是項的集合,即 ti?I,i=1,2,3,…,m。T 為事務的集合,即 T={t1,t2,…,tm},ti?I。設 X是一個項集,其中含有k個項的項集稱之為k-項集。當且僅當X?Ii時,事務ti包含X。事務集T中項集X的支持度Sup(X)是集合T中包含X的事務的頻率,即 Sup(X)=P(X)。若 Sup(X)≥min-sup,其中min-sup是給定的最小支持度,則稱X為頻繁項集[2]。設Y是I中另一個項集,則關(guān)聯(lián)規(guī)則就是形如X?Y的表達式,其中X?I,Y?I,并且X∩Y=Φ。關(guān)聯(lián)規(guī)則X?Y在事務集T中的置信度conf(X?Y)是T中同時包括X和Y的事務的頻率,即conf(X?Y)=P(Y|X)。

因此,關(guān)聯(lián)規(guī)則挖掘可以分以下兩步完成:

1)通過事先設定的min-sup,找出所有的頻繁項集,即找出支持度大于或等于給定的最小支持度閾值的所有項集,從而遞歸查找1到k的頻繁項集。

2)由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則,即找到滿足最小支持度(min-sup)和最小置信度(min-conf)的關(guān)聯(lián)規(guī)則。步驟2)實現(xiàn)簡單,關(guān)聯(lián)規(guī)則挖掘算法的性能主要集中在步驟1)上,大多數(shù)算法都集中在怎樣高效發(fā)現(xiàn)頻繁項集[2-3]。

在眾多的現(xiàn)成關(guān)聯(lián)規(guī)則挖掘算法中,由R.AGRAWAL等首先提出的Apriori算法是一種有效的頻繁項集挖掘算法,之后的算法基本是在其基礎(chǔ)上的改進。該算法是利用遞歸迭代方法來完成頻繁項集的挖掘工作,即利用k-項集來生成(k+l)-項集,用候選項集Ck找頻繁項集Lk。首先,找到頻繁1-項集的集合,記作L1。然后用Ll去找頻繁2-項集的集合L2,得到的L2用于找L3,如此遞歸,直到k足夠大以至不能找到頻繁k-項集。找到每個Lk需要進行一次數(shù)據(jù)庫掃描。從事務集T中找出頻繁項集后,再根據(jù)最小置信度直接產(chǎn)生強關(guān)聯(lián)規(guī)則。經(jīng)典Apriori算法的缺陷[4]是:可能需要產(chǎn)生大量的候選項集和重復地掃描數(shù)據(jù)庫,需要檢查一個很大的候選集合。

2 Apriori算法的改進

2.1 Apriori算法改進思路

提高經(jīng)典Apriori算法的效率,關(guān)鍵在于減少候選集的產(chǎn)生。基于這種思路,提出了減少事務的改進Apriori算法,其目標是減少用于未來掃描的事務集的大小。改進算法的基本原理是不包含任何k-項集的事務不可能包含任何(k+1)-項集,因而在產(chǎn)生j-項集(j>k)時,可以不再掃描這些事務。這樣,其后在考察這種事務時,可以直接刪除。

改進的 Apriori算法思路是:首先,對數(shù)據(jù)庫進行一次全面掃描,確定記錄數(shù)量并對記錄進行排序,然后在生成候選集C1的同時,刪除事務集中不支持L1的事務以及事務中的項目;第3步是對數(shù)據(jù)庫中項目集進行二進制編碼,編碼的長度為記錄數(shù)量,項目在事務集的某個記錄中出現(xiàn)時用“1”表示,沒有出現(xiàn)時則用“0”表示;第4步是將得到的編碼表進行轉(zhuǎn)置,生成關(guān)于項集編碼的表格,并對關(guān)于項集Ii編碼中“1”的個數(shù)進行累加計數(shù),由給定的最小支持度與“1”的計數(shù)進行比較,若count(1)≥min-sup,則得到的為頻繁1-項集;第5步是將頻繁(k-1)-項集中的項編碼進行“與”運算。在產(chǎn)生的新編碼中統(tǒng)計“1”的個數(shù),如果count(1)≥min-sup,則產(chǎn)生頻繁k-項集。最后重復第5步,直到找到需要的頻繁項集L。

圖1 改進Apriori算法舉例示意圖

2.2 改進后的Apriori算法舉例

為更好說明改進算法的工作過程,以4個項集,4個事務為集合進行關(guān)聯(lián)規(guī)則挖掘說明。假定最小支持度為2,根據(jù)改進后的Apriori算法,具體的過程如圖1所示。首先掃描數(shù)據(jù)庫,對事務集中的項目進行編碼,由事務項目編碼表在垂直方向的項轉(zhuǎn)置成項集一個二維表,表中的編碼是項在事務表中每條記錄中是否出現(xiàn)的編碼序列,“1”代表出現(xiàn),“0”代表不出現(xiàn)。根據(jù)項目表計算頻繁1-項集,統(tǒng)計編碼中“1”的個數(shù),由于I4的編碼計數(shù)為1,小于最小支持度2,所以進行項目壓縮,刪除項目I4,由頻繁1-項集的項目編碼進行與運算,最終得到頻繁2-項集。

從上述分析可以看出,改進的算法在第1步掃描數(shù)據(jù)庫并對每個項目編碼,后續(xù)的過程都是針對編碼進行“與”運算,不需要對數(shù)據(jù)庫進行重復掃描。同時由于刪除了小于最小支持度的項以及含有該項目的事務,可以有效地減小系統(tǒng)的開銷,從而提高挖掘效率。

3 監(jiān)測數(shù)據(jù)關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘

在試車臺監(jiān)測系統(tǒng)中,考慮成本和可行性,分為兩大系統(tǒng):以Wincc為平臺組建的監(jiān)測壓力、流量、溫度等低頻參變量的監(jiān)控系統(tǒng)和以LabVIEW為平臺搭建的測量振幅的振動測試系統(tǒng)。兩套系統(tǒng)在物理上相互獨立,其隱藏的參量關(guān)聯(lián)必須通過關(guān)聯(lián)規(guī)則進行挖掘。同時,因為LabVIEW和Wincc自身并沒有自帶數(shù)據(jù)挖掘功能,必須將其所存儲的數(shù)據(jù)進行轉(zhuǎn)換,亦即數(shù)據(jù)預處理,才能在統(tǒng)一的專業(yè)挖掘軟件進行挖掘。圖2為用改進的Apriori算法挖掘監(jiān)測系統(tǒng)關(guān)聯(lián)規(guī)則的技術(shù)路線圖。在某試車臺試驗過程中采集到一周左右的壓力、流量、溫度等參量記錄,原始數(shù)據(jù)形式如表1所示。

圖2 關(guān)聯(lián)規(guī)則挖掘技術(shù)路線圖

表1 試車臺系統(tǒng)監(jiān)測記錄

3.1 數(shù)據(jù)選擇和屬性編碼

考慮到數(shù)據(jù)挖掘時樣本規(guī)模及計算機的計算能力,沒有必要將監(jiān)測得到的所有數(shù)據(jù)都用于挖掘,有些數(shù)據(jù)對象和數(shù)據(jù)屬性對建立模型的作用可能是重復的,這些數(shù)據(jù)的引入對挖掘效率會產(chǎn)生較大的影響,甚至還可能導致挖掘結(jié)果的偏差。因此,選擇有效的數(shù)據(jù)很有必要。數(shù)據(jù)選擇包括屬性選擇和數(shù)據(jù)抽樣。由于傳動附件試車臺系統(tǒng)中振動系統(tǒng)自成一體,振動這一屬性必須予以考慮。在監(jiān)控系統(tǒng)中,齒輪箱出口壓力與油箱壓力基本一致,若將其考慮進來,得到的關(guān)聯(lián)規(guī)則基本是與這個參量相關(guān)的強規(guī)則,導致較大偏差,應該予以刪除。而電機功率以及輸出轉(zhuǎn)速是通過輸入轉(zhuǎn)速、傳動比、扭矩計算出來的,本身就存在函數(shù)關(guān)系,在挖掘時,不予考慮。基于此,最終選擇了試車數(shù)據(jù)壓力、流量等28個對挖掘有用的參數(shù)進行挖掘。參照文獻[5]對各個屬性進行編碼,如表2所示。

表2 屬性編碼表

表3 轉(zhuǎn)換后的事務數(shù)據(jù)片段表

3.2 空缺值處理

試車過程中數(shù)據(jù)也不總是完整的,有時在某些記錄的屬性上可能出現(xiàn)空缺值。在數(shù)據(jù)的采集過程中,無論傳感器還是采集系統(tǒng)某個部分的故障均有可能導致空缺值的出現(xiàn)。對于空缺值的處理比較簡單,可以采取忽略、人工填寫空缺值、使用屬性的平均值填充等方法[6]進行處理。由于試車過程中,溫度是緩變的,若溫度出現(xiàn)空缺值,使用人工填寫較為合適。對于像振幅這樣的高頻參量,可以使用振幅的平均值來補充空缺值。

3.3 數(shù)據(jù)離散化

挖掘關(guān)聯(lián)規(guī)則的關(guān)鍵在于將連續(xù)型數(shù)值合理離散化,然后將其轉(zhuǎn)化為布爾關(guān)聯(lián)規(guī)則進行處理,常見的屬性離散化方法有等寬離散法、等頻離散法、基于距離劃分法[7]。從監(jiān)控系統(tǒng)中導出的如流量、壓力、溫度等由于是緩變信號,可以采用等寬離散法進行離散。而對于從振動系統(tǒng)中導出的振幅數(shù)據(jù),則采用等頻離散法[8]更為合適。經(jīng)數(shù)據(jù)預處理后的數(shù)據(jù),形成以振幅、溫度、流量、壓力等為項目集的事務數(shù)據(jù)集,如表3所示。將所得到的事務數(shù)據(jù)集項目根據(jù)改進后的Apriori算法進行編碼,分別用yes和no來表示相應代號出現(xiàn)、不出現(xiàn),這樣初步完成數(shù)據(jù)的預處理。

表4 監(jiān)測數(shù)據(jù)挖掘產(chǎn)生的部分關(guān)聯(lián)規(guī)則

3.4 改進算法的關(guān)聯(lián)規(guī)則挖掘

采用Weka3.7.0分別運行原Apriori算法及改進的Apriori算法,選用試車臺一周左右的試車數(shù)據(jù)。經(jīng)反復試驗并參考文獻[9]設置兩種算法,設置關(guān)聯(lián)規(guī)則的支持度均為0.8,置信度均為0.9,得到了按置信度排序的前30條規(guī)則,選取部分有效的關(guān)聯(lián)規(guī)則,如表4所示。

在系統(tǒng)中,增壓出口1溫度與增壓出口1流量有較高的關(guān)聯(lián)性,置信度為100%。振動幅值與增壓出口有一定的負相關(guān)性,振動值低的時候溫度反而高,由此可見增壓出口1溫度在后續(xù)的試車過程中應予以重視。齒輪箱入口壓力與溫度關(guān)聯(lián)度很高,置信度為100%,在試車臺子系統(tǒng)齒輪箱潤滑系統(tǒng)中,這兩個參數(shù)在再次試車時也應重點關(guān)注。

用改進的算法進行挖掘,得到的規(guī)則支持度與置信度相同,但運行時間減少,改進前后所運行的時間如表5所示。可以看出,支持度小時,兩者相差的時間較大;支持度大時,兩者相差的時間較少。這是因為支持度小的時候,產(chǎn)生的候選集多,而改進的算法使候選集減少最終減少了運行的時間。由于兩種算法的支持度和置信度均一樣,可以看出改進后的算法降低了運算時間,節(jié)約了系統(tǒng)開銷。

4 結(jié)束語

針對某試車臺監(jiān)測系統(tǒng)監(jiān)測數(shù)據(jù)進行了關(guān)聯(lián)規(guī)則的挖掘,引進Apriori算法,得到具有單獨特征量監(jiān)測不到的規(guī)則,這些規(guī)則為后續(xù)的安全試車提供了重要參考。提出了Apriori改進算法,用采集的數(shù)據(jù)進行實驗,采用相同的支持度和置信度,挖掘結(jié)果表明,改進的算法可以減少候選集從而降低運算時間。

表5 改進算法與改進算法運算時間比較

[1]彭興慧.WS9發(fā)動機試車數(shù)據(jù)庫數(shù)據(jù)挖掘技術(shù)研究[D].西安:西北工業(yè)大學,2005.

[2]陳文慶,許棠.關(guān)聯(lián)規(guī)則挖掘Apriori算法的改進與實現(xiàn)[J].微機發(fā)展,2005,15(8):155-157.

[3]高海洋,沈強,張軒溢,等.一種基于數(shù)據(jù)壓縮的Apriori算法[J].計算機工程與應用,2013,49(14):117-120.

[4]龍冰瑩,陳小惠.改進Apriori算法在醫(yī)院監(jiān)護中心的研究與應用[J].計算機技術(shù)與發(fā)展,2013,23(8):137-140.

[5]Kusiak A,Verma A.A data-mining approach to monitoring wind turbines[J].IEEE Transactions on sustainable energy,2012,3(1):150-157.

[6]李峰,姜麗莉.關(guān)聯(lián)規(guī)則挖掘在煤礦安全監(jiān)測中應用[J].軟件,2011,32(2):85-86.

[7]龔舒.橋吊動態(tài)性能參數(shù)的統(tǒng)計特征分析及關(guān)聯(lián)規(guī)則挖掘[D].上海:上海海事大學,2005.

[8]王志欣.岸橋機械動態(tài)特征信息的數(shù)據(jù)挖掘與狀態(tài)識別[D].上海:上海交通大學,2008.

[9]李瑤,陳佳,陳羅峰.改進的Apriori算法在服裝營銷中的知識發(fā)現(xiàn)研究[J].信息技術(shù),2013(3):100-104.

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
數(shù)獨的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
主站蜘蛛池模板: 青青草国产一区二区三区| 中文字幕日韩丝袜一区| 国产浮力第一页永久地址 | 99这里只有精品免费视频| 国产在线观看成人91| 国产成人禁片在线观看| 国产迷奸在线看| 欧美影院久久| 日韩无码精品人妻| 日韩中文精品亚洲第三区| 亚洲乱伦视频| 美女毛片在线| 亚洲香蕉在线| 日本在线视频免费| 国产成人做受免费视频| 久久超级碰| 日韩av手机在线| 免费毛片a| 亚洲欧美日韩另类| 国产在线日本| 亚洲妓女综合网995久久 | 亚洲精品桃花岛av在线| 亚洲欧美日韩天堂| 亚洲妓女综合网995久久| 国产欧美日韩另类| 国产91透明丝袜美腿在线| 国产精品性| 午夜激情婷婷| 亚洲日韩精品无码专区97| 91色国产在线| 国产二级毛片| 免费jjzz在在线播放国产| 婷婷色丁香综合激情| 欧美在线伊人| 久久黄色视频影| 在线观看免费国产| 国产精品护士| 国产精品所毛片视频| 九九热这里只有国产精品| 国产精品免费电影| 欧美一区国产| 在线a网站| 爱做久久久久久| 国产亚洲精品va在线| 青青草久久伊人| 国产高清精品在线91| 98精品全国免费观看视频| 中文国产成人精品久久| 91精品国产情侣高潮露脸| 欧美国产日韩另类| 亚洲一区二区三区在线视频| 国产aⅴ无码专区亚洲av综合网| 国产激情无码一区二区APP| 午夜人性色福利无码视频在线观看| 99热这里都是国产精品| 又大又硬又爽免费视频| 久久综合亚洲色一区二区三区| 国产人前露出系列视频| 久久黄色视频影| a级毛片在线免费观看| 国产精品一老牛影视频| 久久国产拍爱| 精品视频91| 欧美影院久久| 亚洲自偷自拍另类小说| 国产日本欧美亚洲精品视| 日韩不卡高清视频| 国产日韩欧美在线视频免费观看| 香蕉eeww99国产精选播放| 四虎免费视频网站| 亚洲国模精品一区| 国产一在线| 国产欧美专区在线观看| 99热国产这里只有精品无卡顿"| 国产不卡在线看| yjizz国产在线视频网| 全部免费毛片免费播放 | 日本精品视频一区二区| 国产sm重味一区二区三区| 国产后式a一视频| 国产欧美日韩视频一区二区三区| 亚洲精品色AV无码看|