仝部雷
(山西省煤炭職工培訓中心, 山西 太原 030006)
針對提升機工作中出現的故障,目前常見的診斷方法主要包含解析模式,信號處理模式,智能處理技術。其中譜聚類方法是智能處理技術中的一項研究重點,其基于對數據集中的數據進行特征向量及特征值的求解方式進行算法實現。譜聚類方法的優點包含有:數據集合大小的敏感性和數據集合維度的無關性,從而不會產生因為維度問題帶來的奇異解。此外該方法不以假設方式構建數據的全局結構,從而不會生成局部最優解的情況。首先通過數據場模型對樣本集合中的孤立數據進行清除,然后再根據數據場模型的設計確定聚類節點個數及聚類分類數,最后再通過K-means算法進行無監督方式下的樣本點劃分。文中通過UCI公開數據集與提升機發生軸承故障時所產生的數據集進行了方法驗證,實驗結果顯示將譜聚類技術與數據場模型的融合有效提升了提升機的故障診斷能力。
數據場模型,主要是對對象間的非直觀作用所產生的數據進行建模,從而生成提升機工作中所各個數據間的聚類特性。故文中對故障數據采用了數據場建模方式來對數據間的關系進行描述。同時分別從勢、場強及梯度等特征進行了研究。
數據集合中,已知樣本集為{X1,X2,…,Xn}和樣本數據所生成的數據場。該數據集中的樣本個數值為n,那么由這些樣本所生成的勢值計算公式為:
(1)
影響因子作用于每個樣本值的勢。式中的δ與e值成正比例關系,在兩者的均極小的情況下所得到的勢值之和也會是最小值,反之同樣成立。因此為式子選取一個符合要求的δ,對于確定樣本勢值的分布具有重要意義,文中對該參數的選取采用勢熵法。
針對無監督譜聚類算法所存在的問題,文中基于數據場模型研究了譜聚類算法的改進方法。首先通過數據場模型對樣本集合中的孤立數據進行清除,然后再根據數據場模型的設計確定聚類節點個數及聚類分類數,最后再通過K-means算法進行無監督方式下的樣本點劃分。
數據集中的孤立點值與正常樣本點存在較大差異,其分布一般偏離于正常樣本點數據。文中通過多次實驗得到了一個可用于確認是否為孤立點的閾值,若閾值范圍內的點所計算出的勢值偏小,即可將其認為是孤立點。孤立點檢測的主要方式是根據數據的勢值大小來確認,對于滿足孤立點定義條件的點稱之為孤立點,然后將該點標記為可剔除點。算法步驟為:
輸入:樣本數據集{X1,X2,…,Xn};
輸出:孤立點數據集合。
步驟:
1) 根據數據集{X1,X2,…,Xn}的值生成數據場;
2) 通過式子(1)分別生成各樣本數據點的場內勢值;
3) 對勢值進行倒排,取最后值所對應的數據點,然后將其從數據集{X1,X2,…,Xn}中剔除,另存放置孤立點的集合;
4) 重復上述步驟(1)~(3),直到樣本內所有孤立點被剔除完畢。
數據場的大小可以體現出數據各樣本間所存在的互相作用關系,勢值是通過對樣本點的作用力進行求和所得,其值大小對于數據在整個樣本空間的重要性進行了解釋,同時勢心的大小確定了數據樣本的重心,一般情況下可稱之為“準數據重心”。勢心值的大小直接確定出了合理的聚類個數及中心點值,有利于后期進行無監督分類的組數確定。無孤立點所構成的純凈樣本點,其初始參數確認的流程為:
輸入:不包含孤立點之外的其他樣本數據集{X1,X2,…,Xn};
輸出:合理的聚類數k,各聚類的中心點集合
步驟:
1) 根據數據集{X1,X2,…,Xn}生成樣本數據場;
2) 通過式(1)分別生成各個樣本數據點的勢值,構建勢值矩陣F;
3) 通過Hesse矩陣的計算方式生成矩陣特征值及最大值點,最后對聚類數k和中心點進行計算。
改進譜聚類方法下的故障診斷技術的流程為:
1) 生成數據樣本集{X1,X2,…,Xn}的相似矩陣W∈Rn×n,其中Wij=exp[-d(xi,xj/2δ2)]。
2) 對相似矩陣構建拉普拉斯矩陣L,L=D-1/2WD-1/2,其中D表示為有Wij所構建的對角矩陣。
3) 基于2.2部分計算初始化K及中心點的方式求得中心數據集為C=[c1,c2,…,ck]。
4) 生成拉普拉斯矩陣的特征值和特征向量,選取前k個特征值所對應的特征向量構建矩陣Z∈Rn×k。
5) 對最終構建的矩陣Z采用歸一化方式進行值處理得到矩陣Y。
6) 其中矩陣Y的行對應于某一個樣本數據,通過步驟(3)中的處理方式生成樣本中心集合C,并根據C值和初始化k值進行聚類處理。
7) 對數據樣本集進行類別的劃分,若Xi被聚類到第j類中,即表示矩陣Y中的i行被分到了j聚類中。
文中通過UCI公開數據集與提升機發生軸承故障時所產生的數據集進行方法有效性的驗證。另外也將K-means聚類算法,傳統譜聚類NJW作為驗證文中所提出的算法有效性baseline。文中實驗平臺中的處理器為2.94 Hz,內存和硬盤大小分別為3GB和320GB,采用Matlab編程方式在window 7系統中進行程序的處理,最后對每個實驗進行30次處理,取其平均值作為最終結果。另外采用F-measure作為性能評判的指標。
Iris數據集根據其分布可將其劃分為3類,平均每類中的數據樣本個數為50,其中每個類別表示的是不同的鳶尾花類型。Wine數據集根據其分布可將其劃分為3類,每類中的數據樣本個數根據其特征的不同而不同。Zoo數據集根據其分布可將其劃分為7類,樣本總大小為101。圖1所示為Iris數據集分別在3種不同聚類算法中的F-score大小,從曲線變化中可以看出,與K-means聚類算法相比,NJW算法更加略勝一籌;NJW-Fields算法的效果比另兩者算法結果都好。

圖1 Iris數據集在不同算法下的F-score
圖2所示為Wine數據集分別在3種不同聚類算法中的F-score大小,與圖1聚類所得的效果相似,即NJW-Fields算法的聚類結果優于傳統的K-means聚類算法和傳統譜聚類NJW。再一次說明了文中針對譜聚類算法的改進是有效的,即能夠擁有比較好的數據聚類結果。
圖3所示為Zoo數據集分別在3種不同聚類算法中的F-score大小。從變化曲線可以看出,該樣本數據之間存在線性不可分的關系,因此在傳統的K-means聚類算法對于聚類個數3類和7類所得到的聚類結果與其他的相比,結果相對來說比較差,另外NJW譜聚類算法在聚類個數為3類時的結果不理想,當聚類個數為其他值時,另外兩者傳統聚類算法也未得到比較好的結果。但是文中所提出的改進方法NJW-Fields聚類算法對于不同的聚類個數,其結果表現的都比較均勻,聚類效果也好于其他聚類結果。

圖2 Wine數據集在不同算法下的F-score

圖3 Zoo數據集在不同算法下的F-score
表1對文中所采用的3個聚類算法在不同數據集中的MacroF1值進行統計說明,對于在聚類開始執行之前,通過設置默認參數的方式加入了聚類個數k及每個聚類中的中心點,其所得的聚類結果優于其它未加入設置默認參數的聚類結果。表2對文中所采用的3個聚類算法在不同數據集中的所用時長進行了統計說明,從其結果顯示來看,K-means算法所消耗的時間是3個算法中最長的,而NJW聚類算法由于在其處理過程中加入了Laplace矩陣,同時根據其特征值排序選取前k個向量,使其成為聚類數據集,因此對于聚類所需的時長有明顯的縮短,所需處理時間變小。此外對于改進的NJW-Fields算法,其在聚類開始執行之前,通過設置默認參數的方式加入了聚類個數k及每個聚類中的中心點,從算法處理時長的對比上來看,該類型算法所消耗的時長明顯減小。
對提升機在日常生產中的故障數據進行搜集和整理,對數據集中的數據進行了清洗及預處理操作,對數據集中的數據通過選取的方式生成了文中需要研究的故障數據集。整理后數據集中總共分為5種常見的故障,不同故障下的數據樣本個數為1 630,每個數據均通過10個維度的特征進行表示。表3對整理的故障數據進行了部分舉例說明。分別對搜集得到的故障數據進行K-means聚類算法、傳統NJW譜聚類算法、改進后的NJW-Fields聚類算法處理,所需消耗的時間與生成結果的MacroF1值如表4和5所示。

表1 不同算法在不同數據集中的MacroF1結果比較

表2 不同算法在不同數據集中的運行時長結果比較
表4為采集所得提升機在發生故障時的數據集,該數據樣本集分別在K-means聚類算法、NJW譜聚類算法、文中改進的NJW-Fields聚類算法所消耗的時長統計,從統計結果來看,K-means聚類算法在聚類處理過程中需要較長的時間,NJW譜聚類算法所需要的時長明顯小于K-means聚類算法在聚類處理過程中的所需時長。此外,文中所提出的NJW-Fields聚類算法是3個算法中所需消耗時間最短的方法。

表3 代表性故障信號的數據信息

表4 不同算法運行所需時間對比

表5 不同算法聚類結果的MacroF1值對比
表5為采集所得提升機在發生故障時的數據集,該數據樣本集分別在K-means聚類算法、NJW譜聚類算法、文中改進的NJW-Fields聚類算法所得結果的F-measure統計,從表中可以看出,K-means聚類算法所得到的分值最低,為0.572 8;NJW譜聚類算法所得的F-measure分值為0.618 3,其值屬于中等;文中所提出的NJW-Fields聚類算法所得到的F-measure分值為0.657 1,其值是3種算法中的最大值。由于F-measure分值的大小往往表示的是算法效果的強弱,由此可以看出文中所設計的NJW-Fields聚類算法優于其他兩種傳統方式的聚類算法。
文中采用將譜聚類技術與數據場模型進行融合技術,通過遷移數據場模型的優勢與改進譜聚類算法在聚類過程中的劣勢的方式,對提升機出現的故障問題診斷進行了有效的提升。改進的譜聚類算法首先通過數據場模型對樣本集合中的孤立數據進行清除,然后再根據數據場模型的設計確定聚類節點個數及聚類分類數,最后再通過K-means算法進行無監督方式下的樣本點劃分。
通過UCI公開數據集與提升機發生軸承故障時所產生的數據集進行了有效的實驗驗證,實驗結果顯示將譜聚類技術與數據場模型的融合有效提升了提升機的故障診斷能力。