李宏 王靜 李躍波 李富



摘 要 針對局部線性嵌入(Locally Linear Embedding,LLE)算法在挖掘數據結構時未考慮特征權重且僅局限于數據的線性擬合關系,導致特征提取效果不佳的問題,提出一種基于熵權距離的圖正則局部線性嵌入(Graph Regular Local Linear Embedding Algorithm Based on Entropy Weight Distance,EWD?GLLE)算法。首先,采用信息熵加權的余弦距離劃分樣本鄰域,減小不重要特征對鄰域劃分的影響,提高了鄰域劃分的準確性;然后,利用融合熱核權重與余弦權重的拉普拉斯圖約束低維嵌入,以保留更多的原始數據信息,進而提取到更顯著的特征。在兩種軸承數據集上的實驗結果表明:EWD?GLLE算法的特征提取性能明顯優于LLE、LTSA、LDA算法。
關鍵詞 局部線性嵌入 拉普拉斯特征映射 熵權距離 余弦高斯核函數 軸承故障診斷 特征提取
中圖分類號 TP391? ?文獻標識碼 A? ? 文章編號 1000?3932(2023)02?0216?08
隨著信息時代的到來,數據量常以指數形式增長,這將導致“維數災難”[1,2]。因此有必要對高維數據進行維數約減[3]。流形學習是基于拓撲流形概念發展而來的一類數據降維方法[4],可以從原始高維數據中挖掘出低維流形結構,是數據挖掘領域的一種重要方法。在圖像識別[5]、故障診斷[6]等領域,流形學習被學者們廣泛地應用和研究。主成分分析(Principal Component Analysis,PCA)[7]、局部切空間(Locally Tangent Space Alignment,LTSA)[8]、線性判別分析(Linear Discriminant Analysis,LDA)[9]、拉普拉斯特征映射(Laplacian Eigenmaps,LE)[10]及局部線性嵌入(Locally Linear Embedding,LLE)[11]等都是流形學習的典型算法。其中,LLE算法利用鄰域內樣本之間的線性關系,實現了數據從高維空間到低維空間的投影,算法具有實現簡單、計算復雜度小等優點,在實際中應用廣泛[12]。
然而LLE算法在實際應用過程中也存在著缺點,它是一種無監督的數據處理方法,對近鄰參數敏感[13,14]。為了解決上述問題,大量算法被相繼提出。為了解決不同的近鄰點參數k值對檢測效果影響較大的問題,文獻[15]通過引入確定合理k值的方法,利用更加合理的k值,提高運行效果。文獻[16]采用以流形距離代替歐氏距離度量數據間相似度的方法,創建能夠正確反映流形內部結構的鄰域圖,解決以歐氏距離作為相似性度量時對鄰域參數敏感的問題。文獻[17]利用均勻化距離代替傳統的歐氏距離,使樣本點的總體分布趨于均勻化,減少了相鄰點的影響,選擇有效鄰域點構造權矩陣有助于降維,同時引入監督學習機制。以上算法都取得了很大的成功,但未考慮不重要特征對鄰域劃分的影響以及如何保留更多數據信息的問題。
筆者提出了一種基于熵權距離的圖正則局部線性嵌入算法[18]。其中,熵權距離是由信息熵對特征進行權重預評估后進行加權的距離,能夠較好地區分特征的邊緣性,從而增強重要特征對數據的表征能力。因此,筆者引入熵權余弦距離進行鄰域劃分以解決特征權重占比不應相同的問題;另外,為了保留更多原始數據信息,利用改進權值的拉普拉斯特征映射來重構損失函數,在保持數據間線性關系的同時保持數據間的相似性,可以有效地表示非線性數據的流形結構。從后續實驗可以看出,筆者所提算法具有較好的特征提取效果。
3 實驗數據及分析
為證實算法的有效性,分別在凱斯西儲大學(CWRU)軸承數據中心的數據集和東北石油大學軸承故障模擬平臺(OL)數據集上進行可視化評估、定量聚類評估、聚類精度評估和魯棒性評估實驗,驗證筆者算法的優良性能。
3.1 實驗數據集
數據集1。數據集是由凱斯西儲大學的軸承數據中心的測試平臺采集的。如圖1a所示,該測試平臺由一臺電機(左側)、一個轉矩傳感器(中間)、一個轉矩傳感器(右側)和電子控制設備組成。該數據在采樣頻率為12 kHz下獲得,分為4類:正常數據、滾珠故障、內圈故障和外圈故障。每類數據采集100個樣本,1 024維特征。
數據集2。數據集2由實驗室平臺采集,該平臺由電機、軸承和齒輪箱組成,如圖1b所示。該數據在采樣頻率為10 kHz下獲得,分為4類:正常數據、滾珠故障、內圈故障和外圈故障。每類數據集采集100個樣本,1 024維特征。
3.2 可視化評估
嚴格按照對照原則,在數據集1上進行了LDA、LTSA、LLE算法和筆者提出的EWD?GLLE算法的可視化實驗。圖2為三維可視化結果,圖中紅點表示正常數據,綠點表示內圈故障數據,藍點表示滾珠故障數據,黑點表示外圈故障數據。
從圖2可以看出,LTSA和LLE算法存在不同水平的類分性較差的情況,即不同類之間存在重疊。LDA算法類可分性較好,但類內緊致程度稍遜色,且分類水平不穩定。LTSA算法具有較好的類內緊致性,不同類之間的分離性有待提高。筆者所提出的EWD?GLLE算法具有很好的類間分離性和類內緊致性,優于以上算法?;谝陨戏治?,與其他3種算法相比,EWD?GLLE算法具有更好的嵌入效果。
3.3 定量聚類評估
為了充分評估筆者所提算法的性能,引入Fisher測度作為評估指標。該指標由類間距離Sb和類內距離Sw構成,可用于衡量同一類別的靠近程度和不同類別樣本的區分程度。具體定義如下:
其中,C表示樣本的總類別數,x表示第i類樣本,n表示x的樣本數目,C表示第i類的樣本數,[x][-]表示x的樣本均值向量,[x][-]表示總樣本的均值向量。
F值與算法性能正相關。筆者分別在兩種數據集上,將所提出算法與其他經典算法進行了對比分析,結果見表1。
從表1中可以看出,筆者所提EWD?GLLE算法在兩種數據集上F值均最大,證明了該算法的優越性。LDA、LTSA、LLE算法在不同程度上都存在特征分布稀疏、類間分離性差的現象,而EWD?GLLE算法在保持類內緊致性的同時也能很好地處理類間可分性。
3.4 聚類精度實驗
分別在兩種數據集上進行4種算法的聚類精度實驗,其中,每類樣本選擇80%進行訓練,剩余20%用于測試。實驗結果如圖3、4所示,可以看出EWD?GLLE算法具有優良的聚類精度。
3.5 魯棒性評估
傳統流形學習算法對樣本鄰域的選擇較為敏感,近鄰參數選取對低維空間的聚類效果會產生很大的影響,為全面衡量筆者提出的EWD?GLLE算法的魯棒性,在CWRU數據集上進行不同k值的可視化評估,如圖5所示。
從圖5中可以看出,EWD?GLLE算法在CWRU數據集上表現出對鄰域參數的非敏感性,k值的變化沒有影響到低維空間的聚類效果,證明該算法對參數k具有較好的魯棒性。
4 結束語
筆者提出了一種基于熵權距離的圖正則局部線性嵌入算法,該算法使用熵權距離來度量數據之間的相似性,提高鄰域劃分的準確性,此外,該算法利用拉普拉斯圖正則約束保持數據間相似性。因此能夠獲得良好的效果。在CWRU和OL兩種軸承故障數據集上的對比實驗表明,該算法具備較好的可視化、類內聚集、類間分離的效果,且對鄰域參數具備魯棒性,明顯優越于其他算法。
參 考 文 獻
[1]? 潘恪謹,胡建華,宋燕,等.不完整張量上基于流形學習和張量分解的特征提取[J/OL].小型微型計算機系統,2022:1-10[2022-04-21].DOI:10.20009/j.cnki.21?1106/TP.2021?0573.
[2]? ? ZHOU Y H,WANG H F,LIU Y Y,et al.Accelerating MR Parameter Mapping Using Nonlinear Compressive Manifold Learning and Regularized Pre?Imaging[J].IEEE Transactions on Biomedical Engineering,2022,69(10):2996-3007.
[3] WAN Z T,YANG R,HUANG M J,et al.EEG fading data classification based on improved manifold learning with adaptive neighborhood selection[J].Neurocomputing,2022,482:186-196.
[4] SHAH M,HU L,AHMED Z.Modified LPP based on Riemannian metric for feature extraction and fault detection[J]. Measurement, 2022, 193:110923?1-110923?18.
[5]? 汪明昕.基于圖像識別的一類工業組裝產品質量檢測方法研究[D].長春:吉林大學,2021.
[6]? 孫康,岳敏楠,金江濤,等.基于改進變分模態分解與流形學習的滾動軸承故障診斷[J].熱能動力工程,2022,37(3):176-185.
[7]? 張穎,馬承澤,楊平,等.基于小波變換和改進PCA的人臉特征提取算法[J].吉林大學學報(理學版),2021,59(6):1499-1503.
[8]? 佘博,田福慶,梁偉閣,等.增量式監督局部切空間排列算法及齒輪箱故障診斷實驗驗證[J].振動與沖擊,2018,37(13):105-110;129.
[9]? LI B,DING H Y,ZHOU M J.Semi?supervised LDA and Multi?distance Metric Learning for Person Reidentifi?cation[J].Journal of Physics:Conference Series,2022,2171(1):012054.
[10]? 李響,呂勇.結合拉普拉斯特征映射的權重樸素貝葉斯高光譜分類算法[J].分析測試學報,2020,39(10):1293-1298.
[11]? 王波,劉太安,樊建聰,等.基于局部線性嵌入極限學習機的人臉識別新方法[J].計算機應用與軟件,2020,37(3):178-183.
[12]? HU Z B,YIN H S,LIU Y H.Locally linear embed ding vote:A novel filter method for feature selection[J].Measurement,2022,190:110535.
[13] NIU G,MA Z M.Tensor local linear embedding with global? subspace projection optimisation[J].IET Com? puter Vision,2021,16(3):241-254.
[14]? 劉均,宮子棟,吳力.基于信息熵度量的局部線性嵌入算法[J].吉林大學學報(理學版),2022,60(1):143-149.
[15] 蔣濤.基于局部線性嵌入的免疫檢測模型研究[D].哈爾濱:哈爾濱理工大學,2018.
[16]? 馬麗,董唯光,安志龍.流形距離與壓縮感知核稀疏投影的局部線性嵌入算法[J].計算機與數字工程,2020,48(3):523-527;727.
[17] WANG G B,LUO J,HE Y L,et al.Fault Diagnosis of Supervision and Homogenization Distance Based on Local Linear Embedding Algorithm[J]. Mathematical Problems in Engineering:Theory,Methods and Appli?cations,2015(Pt.19):981598.1-981598.8.
[18]? 張忠平,劉偉雄,張玉停,等.ERDOF:基于相對熵權密度離群因子的離群點檢測算法[J].通信學報,2021,42(9):133-143.
[19]? GAO T,MA Z M,GAO W X,et al.Dimensionality reduction of tensor data based on local linear embed?ding and mode product[J]. Journal of Intelligent & Fuzzy Systems,2021,41(2):2779-2796.
[20]? MIAO J Y,YANG T J,SUN L J,et al.Graph regularized locally linear embedding for unsupervised feature selection[J].Pattern Recognition,2022,122(6):108299.
[21]? 楊鵬飛,陳梅,張忠帥,等.自適應鄰居和圖正則的表示學習[J].小型微型計算機系統,2023, 44(3):553-559.
(收稿日期:2022-08-06,修回日期:2023-02-17)
Graph Regular Local Linear Embedding Algorithm Based on?Entropy Weight Distance
LI Hong1, WANG Jing1, LI Yue?bo2,LI Fu3
(1. School of Electrical and Information Engineering, Northeast Petroleum University;
2. Digital Operation and Maintenance Center,? No. 1 Oil Production Plant of Daqing Oilfield;
3. No.1 Drilling Company,? Daqing Drilling Engineering Company)
Abstract? ?Considering the fact that the locally linear embedding (LLE) algorithm doest consider the feature weight and is limited to the linear fitting relationship of data when mining the data structure and it results in poor effect in the feature extraction , a graph regular local linear embedding algorithm based on e?ntropy weight distance(EWD?GLLE) algorithm was proposed. Firstly, it has the cosine distance which weighted by information entropy adopted to divide the sample neighborhood so as to reduce the influence of unimportant features on the neighborhood division and improve its accuracy thereof;? then, it has the Laplacian graph which combining the thermal kernel weight and cosine weight employed to constrain the low?dimensional embedding and to retain more original data information and extract more significant fea?
作者簡介:李宏(1969-),教授,從事油氣管道泄漏檢測和信號處理的研究。
通訊作者:王靜(1998-),碩士研究生,從事機器學習和軸承故障診斷的研究,wj446587180@163.com。
引用本文:李宏,王靜,李躍波,等.基于熵權距離的圖正則局部線性嵌入算法[J].化工自動化及儀表,2023,50(2):216-222;261.