基于譜聚類的軌道電路故障文本主題聚類研究

2024-04-10 05:22:58姚新文鄭啟明王小敏

蘭州交通大學(xué)學(xué)報(bào) 2024年1期

姚新文,侯通,鄭啟明,王小敏,3

(1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,成都 611756;2. 中國鐵道科學(xué)研究院集團(tuán)有限公司運(yùn)輸及經(jīng)濟(jì)研究所,北京 100081;3. 四川省列車運(yùn)行控制技術(shù)工程研究中心,成都 611756)

在鐵路運(yùn)營過程中,現(xiàn)場站段積累了大量人工記錄的軌道電路故障日志,這些故障日志是對現(xiàn)場故障情況的真實(shí)反映,其中故障描述信息及處置經(jīng)驗(yàn)等內(nèi)容蘊(yùn)含著許多有價(jià)值的故障信息。目前,軌道電路歷史故障日志主要依賴人工分析獲取經(jīng)驗(yàn)知識。由于人工分析易受主觀因素影響,且軌道電路故障日志數(shù)據(jù)量大、故障因素繁雜,存在對故障日志信息挖掘不足,人工分析效率較低等問題,導(dǎo)致大量有價(jià)值故障文本數(shù)據(jù)資源未能得到充分利用。

文本聚類分析是文本挖掘領(lǐng)域的重要方法之一,是從非結(jié)構(gòu)化或半結(jié)構(gòu)化文本數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值知識或模式的過程[1],其目的主要是根據(jù)特定文本的特征相似度將文本聚為合適的簇,進(jìn)而有效挖掘文本中蘊(yùn)含的信息及模式。Deng等[2]應(yīng)用K-Means聚類分析從大量事故文本信息中獲取危險(xiǎn)化學(xué)品事故類型及規(guī)律,并根據(jù)聚類挖掘結(jié)果制定相應(yīng)措施,預(yù)防事故發(fā)生。胡小溪等[3]針對地鐵信號設(shè)備故障文本,融合詞項(xiàng)空間K-Means聚類算法和語義空間LDA(latent dirichlet allocation)算法,基于關(guān)鍵詞特征實(shí)現(xiàn)信號設(shè)備故障文本自動聚類處理。傳統(tǒng)K-Means算法具有聚類效果好,結(jié)果可解釋性強(qiáng)等優(yōu)點(diǎn)[4],但K-Means要求數(shù)據(jù)集具有凸數(shù)據(jù)分布,當(dāng)數(shù)據(jù)集非凸時(shí),易陷入局部最優(yōu)。而譜聚類算法具有識別非凸數(shù)據(jù)分布、收斂于全局最優(yōu)解等特點(diǎn)[5],且將聚類過程與譜圖劃分過程對應(yīng),最終轉(zhuǎn)換為數(shù)據(jù)間相似矩陣的譜分解問題,對于處理高維稀疏數(shù)據(jù)聚類非常有效[6]。Zhang等[7]應(yīng)用譜聚類算法對Word2vec語義空間表示的相似關(guān)鍵詞進(jìn)行聚類,實(shí)現(xiàn)高效的同義詞提取。吳銀昊等[8]針對在線評論中負(fù)向評論數(shù)據(jù),利用主題模型實(shí)現(xiàn)負(fù)向評論的主題向量化表示,通過譜聚類算法實(shí)現(xiàn)負(fù)向評論的主題聚類,獲取的代表性負(fù)向評論主題類型具有較高的可區(qū)分度。

軌道電路故障日志是由鐵路現(xiàn)場電務(wù)專業(yè)人員以自然語言形式記錄的設(shè)備維護(hù)管理臺賬。軌道電路故障專業(yè)領(lǐng)域性較強(qiáng),對于繁雜軌道電路故障因素中相似故障因素導(dǎo)致的故障,現(xiàn)場電務(wù)人員的故障日志描述在語義表達(dá)上具有共性特征,而目前對軌道電路故障日志在語義空間上挖掘分析研究較少。通常在文本聚類分析中高維的文本特征表示向量會導(dǎo)致運(yùn)算消耗的增加,而軌道電路故障文本數(shù)據(jù)量較大,經(jīng)特征表示后文本特征向量維度較高;因此在文本聚類分析中通常采用先降維后聚類的方式,但降維過程會導(dǎo)致部分文本特征的丟失,影響文本聚類效果。

對于以上問題,本文采用譜聚類算法對軌道電路故障日志進(jìn)行故障主題聚類挖掘分析:針對人工記錄的軌道電路故障文本數(shù)據(jù),在語義空間上分析現(xiàn)場人員對于軌道電路故障描述的共性特征,通過譜聚類算法實(shí)現(xiàn)在特征空間上對軌道電路故障主題類型的高效聚類分析,以提高軌道電路故障文本數(shù)據(jù)利用率,并將有價(jià)值故障信息反饋至現(xiàn)場軌道電路設(shè)備維護(hù)過程中,以形成良性循環(huán),為現(xiàn)場工作人員開展軌道電路維護(hù)及制定相應(yīng)預(yù)防性維護(hù)措施提供輔助決策。

1 軌道電路故障文本特征及預(yù)處理

軌道電路設(shè)備結(jié)構(gòu)復(fù)雜,其工作狀態(tài)易受多部門作業(yè)維修、設(shè)備器材質(zhì)量及天氣環(huán)境等因素影響[9]。依據(jù)軌道電路故障性質(zhì)及故障歸屬,導(dǎo)致軌道電路故障的因素可分為電務(wù)、工務(wù)、供電、廠家設(shè)備質(zhì)量、外界干擾及自然災(zāi)害等。隨著對我國鐵路綜合維修體系運(yùn)行機(jī)制的不斷研究,綜合維修參與主體主要涉及電務(wù)、工務(wù)及供電等部門,綜合維修體系的構(gòu)建對各部門協(xié)同合作,提高綜合維修質(zhì)量及效率具有重要意義[10]。軌道電路與電務(wù)、工務(wù)及供電等部門設(shè)備維護(hù)管理密切相關(guān),因此本文選取電務(wù)、工務(wù)及供電因素故障文本數(shù)據(jù)為研究對象,對其中包含的故障主題信息進(jìn)行聚類挖掘。

1.1 故障文本特征

通過對軌道電路故障文本數(shù)據(jù)的分析可知,故障文本記錄中通常包含故障現(xiàn)象、故障原因、處置過程、設(shè)備信息等內(nèi)容。作為專業(yè)領(lǐng)域文本數(shù)據(jù),軌道電路故障文本有以下特征:

1) 故障文本含有噪聲信息。故障文本中包含的時(shí)間、車次號、區(qū)段名稱、器材編號等噪聲數(shù)據(jù),不利于提取有效文本特征,因此需要對故障文本數(shù)據(jù)進(jìn)行清洗。

2) 故障文本記錄不規(guī)范。人工記錄的故障文本具有口語化、不規(guī)范化的特點(diǎn),不同人員對故障日志的自然語言表述方式因人而異,存在多詞一義的現(xiàn)象,但對相似故障記錄的描述存在共性語義結(jié)構(gòu),可歸納出語義主題信息。

3) 故障文本數(shù)據(jù)不均衡。現(xiàn)場易發(fā)、高發(fā)性軌道電路故障記錄數(shù)據(jù)較多,且特征詞匯在不同故障類型文本中的分布情況具有差異性,存在一些特征詞在特定類別中出現(xiàn)頻次較高,而在其他類別中出現(xiàn)頻次較低,反映出了軌道電路在實(shí)際工作運(yùn)行中的薄弱環(huán)節(jié)。

1.2 故障文本預(yù)處理

文本預(yù)處理是實(shí)現(xiàn)高效文本聚類的重要過程,預(yù)處理后的故障文本數(shù)據(jù)質(zhì)量直接影響后續(xù)文本特征表示效果。文本預(yù)處理過程主要包含分詞、去停用詞、詞性標(biāo)注及過濾等。與英文文本由空格自然分隔不同,中文文本數(shù)據(jù)增加了分詞步驟。本文針對軌道電路故障文本特點(diǎn),首先對故障文本中包含的時(shí)間、車次號、區(qū)段名稱及數(shù)字編號等噪聲數(shù)據(jù)進(jìn)行清理;其次考慮到故障文本包含大量鐵路專業(yè)詞匯,為實(shí)現(xiàn)對專業(yè)詞匯的準(zhǔn)確切分,減小文本噪聲項(xiàng)對后續(xù)文本特征提取的干擾,利用Jieba分詞工具結(jié)合鐵路專業(yè)詞庫進(jìn)行分詞處理,并過濾文本中標(biāo)點(diǎn)符號和無實(shí)際意義的詞匯。

2 軌道電路故障文本主題聚類模型

依據(jù)軌道電路故障文本特征,采用譜聚類算法對軌道電路故障文本進(jìn)行故障主題聚類挖掘,從語義層面實(shí)現(xiàn)對軌道電路電務(wù)、工務(wù)及供電3種故障因素文本數(shù)據(jù)的聚類分析,獲取各故障因素下的故障主題類型及規(guī)律。聚類模型流程如圖1所示。

圖1 軌道電路故障文本主題聚類模型

首先,采用Word2vec對預(yù)處理后的不同故障因素文本數(shù)據(jù)在語義空間上進(jìn)行特征向量表示;然后,通過文本表示向量相似矩陣計(jì)算其圖Laplacian矩陣,并采用譜聚類算法進(jìn)行故障主題聚類,獲取3種故障因素下的故障文本數(shù)據(jù)在語義空間上的相似特征,實(shí)現(xiàn)對不同故障主題類型的表征。

2.1 文本向量化表示

Word2vec基于分布式表示將數(shù)據(jù)集中每個(gè)詞映射成向量,通過對大量語料庫的訓(xùn)練學(xué)習(xí),依據(jù)相似位置的詞具有相似含義的分布假設(shè)推斷詞的含義,最終實(shí)現(xiàn)根據(jù)目標(biāo)詞預(yù)測上下文中的詞或根據(jù)上下文預(yù)測目標(biāo)詞。Word2vec模型可將文本數(shù)據(jù)處理過程轉(zhuǎn)化為向量空間中的向量運(yùn)算,通過向量相似度表征不同文本間的語義相似度。因此,在故障文本聚類中采用基于Word2vec的文本分布式表示方法挖掘文本語義特征信息,并利用Word2vec向量表示的故障文本特征矩陣計(jì)算圖Laplacian矩陣。

為更直觀地表明語義相似性,利用主成分分析(principal component analysis,PCA)方法,將經(jīng)過Word2vec模型獲得的詞向量降至二維,并在平面中展示。圖2中選取“絕緣節(jié)”“電纜”“發(fā)送器”為目標(biāo)詞,可以看出:與目標(biāo)詞語義相近或相關(guān)的詞,在二維平面中距離較近,形成比較明顯的簇,而語義相差較大的詞距離較遠(yuǎn),說明Word2vec模型對軌道電路故障文本中語義相似及相關(guān)的特征詞匯具有較好學(xué)習(xí)效果。

圖2 在二維平面中Word2vec語義相似度降維效果

對于每條故障文本數(shù)據(jù),將文本j中所有詞的平均詞向量vj作為此條文本的向量表示,即:

(1)

式中:ωij為模型訓(xùn)練后文本j中第i個(gè)詞的詞向量。

為衡量文本間的語義相似度,采用歐式距離[8](見式(2))作為故障文本間相似性的度量,以此獲得故障文本間相似矩陣。

dist(v1,v2)=|v1-v2|

(2)

式中:v1、v2為某兩條故障文本的多維向量表示。

為減少故障文本人工記錄不規(guī)范及多詞一義現(xiàn)象對文本語義特征學(xué)習(xí)的影響,本文對故障文本進(jìn)行字符級分詞,并作為Word2vec模型的輸入獲取字向量表示,以提高對此類噪聲干擾的魯棒性。

2.2 圖Laplacian矩陣及其聚類特性

Laplacian矩陣是一種帶權(quán)無向圖的矩陣。Laplacian矩陣L定義公式為[11]:

L=D-W

(3)

式中:D為度矩陣,W為圖的鄰接矩陣。

從圖論角度分析,可將聚類問題轉(zhuǎn)換為圖的切分問題,因此,基于無向圖的聚類等價(jià)于尋找最優(yōu)切圖算法:將圖分割成若干子圖(對應(yīng)聚類結(jié)果中的簇),使不同子圖間的權(quán)重和最小,而子圖內(nèi)部的權(quán)重和盡量大,即可實(shí)現(xiàn)聚類目標(biāo)。

定義切圖后的簇間距離lcut為[12]:

(4)

對圖的切分目標(biāo)是使lcut(A1,A2,…,Ak)最小,但為了避免出現(xiàn)最小切圖并非最優(yōu)切圖的情況,需要限定子圖的規(guī)模。依據(jù)不同限定方式,目前常用切圖方式的損失函數(shù)有RatioCut和Ncut兩種,其中:RatioCut考慮使每個(gè)子圖中樣本點(diǎn)個(gè)數(shù)最大化,但仍存在子圖樣本點(diǎn)最多時(shí)權(quán)重值非最大值情況;而Ncut切圖用子圖權(quán)重來代替子圖點(diǎn)個(gè)數(shù)。因此,一般來說,Ncut切圖優(yōu)于RatioCut。Ncut定義如下:

(5)

式中:ωvol(Ai)為子圖內(nèi)所有連接邊的權(quán)重和。

當(dāng)子圖數(shù)量k>2,即聚類簇?cái)?shù)為2個(gè)以上時(shí),定義k個(gè)指示向量hj(hj=(h1j,h2j,…,hnj)T)如下:

(6)

其中:i=1,2,…,n;j=1,2,…,k。

(HTLH)ii

(7)

結(jié)合式(7),可將Ncut問題轉(zhuǎn)化為:

tr(HTLH)

(8)

式中:tr(HTLH)表示矩陣的跡。因此,最小化Ncut問題可表示為:

(9)

令F=D1/2H,最終將最小化Ncut問題轉(zhuǎn)化為[13]:

(10)

其中:D-1/2LD-1/2相當(dāng)于對拉普拉斯矩陣L進(jìn)行規(guī)范化。

之后計(jì)算D-1/2LD-1/2從小到大排列的前K個(gè)特征值對應(yīng)的特征向量,并組成特征矩陣F,最后對F進(jìn)行傳統(tǒng)的K-Means聚類。計(jì)算流程見圖3。

圖3 圖Laplacian矩陣聚類計(jì)算流程

2.3 基于語義空間的故障文本主題譜聚類算法

本文采用Ncut損失函數(shù)切圖的譜聚類算法對軌道電路電務(wù)、工務(wù)及供電3種故障因素文本數(shù)據(jù)進(jìn)行故障主題聚類分析。鄰接矩陣W基于全連接法構(gòu)建時(shí),相似矩陣等同于鄰接矩陣,因此在語義空間上采用Word2vec向量表示的故障文本相似矩陣作為鄰接矩陣,然后計(jì)算規(guī)范化Laplacian矩陣并進(jìn)行特征值求解,選取從小到大排列的前K個(gè)特征值的特征向量組成特征矩陣F,其中K值選取與最優(yōu)聚類個(gè)數(shù)相關(guān)。相對于Word2vec向量表示的文本向量維度,特征矩陣F維度更低。最后對特征矩陣F進(jìn)行K-Means聚類,直到算法收斂。聚類算法主要過程如下:

數(shù)據(jù):電務(wù)、工務(wù)及供電等因素的軌道電路的故障文本數(shù)據(jù)

輸入:字符級分詞處理后3種故障因素的故障文本數(shù)據(jù)

輸出:聚成的不同故障主題簇

1) Word2vec模型訓(xùn)練、學(xué)習(xí)語義特征;

2) 依據(jù)Word2vec訓(xùn)練后向量表示的文本特征矩陣計(jì)算相似度矩陣,即為鄰接矩陣W;

3) 根據(jù)式(3)計(jì)算Laplacian矩陣L并規(guī)范化;

4) 利用式(11)輪廓系數(shù)計(jì)算最優(yōu)聚類個(gè)數(shù)K;

5) 計(jì)算規(guī)范化后Laplacian矩陣L從小到大前K個(gè)特征值及對應(yīng)的K個(gè)特征向量,組成特征矩陣F;

“啊，海峰沒跟你說？誰都知道，紫藤是蔣家的。”夏梓桑故作驚詫，掏出一個(gè)上海的戶口本，接著說道：“紫藤絕對不是林志的孩子，可以到醫(yī)院去鑒定。他不姓林，跟著媽媽姓紫，道理就在這里。紫藤的戶口，從一出生就在上海注冊了，還是海峰托我辦的，你看這戶口簿?！?/p>

6) 將矩陣F作為輸入進(jìn)行K-Means聚類;

7) 直至算法收斂。

3 實(shí)驗(yàn)分析

本文實(shí)驗(yàn)數(shù)據(jù)選取某鐵路局2015-2018年軌道電路的故障日志,其中:電務(wù)因素故障文本數(shù)據(jù)566條,工務(wù)因素故障文本數(shù)據(jù)268條,供電因素故障文本數(shù)據(jù)352條。由于電務(wù)、工務(wù)及供電等因素的軌道電路故障文本數(shù)據(jù)內(nèi)容差異,本文將其作為不同的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,分別記為D0、D1及D2。實(shí)驗(yàn)算法模型采用Python3.6語言及Scikit-learn庫實(shí)現(xiàn)。

3.1 最優(yōu)K值

(11)

式中:a(k)為樣本k在類內(nèi)與其他點(diǎn)的距離平均值,反映類內(nèi)的緊密性;b(k)為樣本k與不同類間樣本的最小平均距離,反映類間的分離程度;Q為樣本總數(shù)。

對字符級分詞后的3種故障因素軌道電路故障文本數(shù)據(jù)采用Word2vec模型訓(xùn)練并獲取其語義特征的向量表示。訓(xùn)練模型參數(shù)中Word2vec文本字向量維度為128,窗口長度為12。通過式(11)對D0、D1及D2故障文本數(shù)據(jù)集分別計(jì)算輪廓系數(shù)與聚類數(shù)目K的關(guān)系(見圖4),以確定最優(yōu)聚類個(gè)數(shù)。選取輪廓系數(shù)最大值時(shí)的聚類數(shù)目K0=5,K1=4及K2=3,作為D0、D1及D2故障文本數(shù)據(jù)集的最優(yōu)聚類個(gè)數(shù)。

圖4 D0、D1及D2故障文本數(shù)據(jù)集不同K值時(shí)的輪廓系數(shù)

3.2 評價(jià)指標(biāo)

為評估聚類模型效果,結(jié)合最優(yōu)K值由專家對D0、D1及D2故障文本數(shù)據(jù)集中故障主題類別標(biāo)簽進(jìn)行人工標(biāo)注,采用SFMI(fowlkes-mallows index)、準(zhǔn)確率(SAcc)[15]及純度(Spurity)作為故障主題聚類效果的評估標(biāo)準(zhǔn),其中SAcc反映聚類結(jié)果簇與真實(shí)類別間的一對一關(guān)系,衡量一個(gè)簇包含相應(yīng)真實(shí)類別樣本的程度。SAcc越高意味著聚類性能越好,其計(jì)算公式如下:

(12)

式中:map為將每個(gè)簇索引、映射到一個(gè)類標(biāo)簽的函數(shù),基于Hungarian算法[16]實(shí)現(xiàn);li為xi的真實(shí)類別標(biāo)簽;ri為聚類索引;δ(a,b)為一函數(shù),當(dāng)a等于b時(shí)其值為1,否則其值為0。

SFMI為精確率和召回率的幾何平均值,其計(jì)算公式如下:

(13)

式中:TP為真實(shí)正類被預(yù)測為正類的數(shù)量;FP為真實(shí)負(fù)類被預(yù)測為正類的數(shù)量;FN為真實(shí)正類被預(yù)測為負(fù)類的數(shù)量。

純度為聚類正確的樣本數(shù)與總樣本數(shù)的比值,其值越接近1聚類效果越好,其計(jì)算公式如下:

(14)

式中:N為總樣本數(shù),Ω={ω1,ω2,…,ωk}為聚類結(jié)果簇,C={c1,c2,…,cj}為正確的類別標(biāo)簽,ωk為聚類結(jié)果第k個(gè)簇中的所有樣本,cj為第j個(gè)類別中的真實(shí)樣本。

3.3 不同聚類方法的結(jié)果分析

為驗(yàn)證譜聚類算法在D0、D1及D2故障文本數(shù)據(jù)集上的聚類效果,分別采用Word2vec特征向量表示矩陣基于K-Means聚類方法(W-KM)、Word2vec特征向量表示矩陣經(jīng)過非負(fù)矩陣分解(non-negative matrix factorization,NMF)算法得到的特征矩陣基于K-Means聚類方法(W-NMF-KM)與本文W-SC(Word2vec-spectral clustering)譜聚類方法進(jìn)行對比實(shí)驗(yàn)。NMF和K-Means利用原始空間中的歐幾里得距離來度量數(shù)據(jù)點(diǎn)之間的相似性,而譜聚類方法利用變換空間中的歐幾里得距離來定義相似性,因此可能會揭示數(shù)據(jù)集中的一些隱藏結(jié)構(gòu)[17]。

由于采用全連接方法計(jì)算鄰接矩陣時(shí)需選擇合適的核函數(shù)及相應(yīng)參數(shù),因此本文通過網(wǎng)格搜索方法分別獲取了相應(yīng)核函數(shù)及核函數(shù)參數(shù)γ。對于電務(wù)因素故障文本數(shù)據(jù),采用Sigmoid核函數(shù)且γ為4.5;對于工務(wù)因素故障文本數(shù)據(jù),采用RBF核函數(shù)且γ為10;對于D2供電因素故障文本數(shù)據(jù),采用RBF核函數(shù)且γ為5。表1列舉了不同故障因素文本數(shù)據(jù)集下軌道電路故障主題的聚類結(jié)果,表中數(shù)值為經(jīng)過10次聚類實(shí)驗(yàn)后所得的平均值。

表1 不同故障因素?cái)?shù)據(jù)集下3種故障主題聚類模型的結(jié)果

由表1可知:對于電務(wù)、工務(wù)因素軌道電路故障文本數(shù)據(jù),采用W-SC算法聚類效果最優(yōu),其中準(zhǔn)確率較W-KM聚類模型提高約0.01;對于供電因素故障文本數(shù)據(jù),采用非負(fù)矩陣分解聚類算法效果最好;譜聚類算法對低維特征矩陣聚類效果與原始文本特征矩陣基于K-Means聚類算法聚類結(jié)果接近,說明了圖Laplacian算子對高維文本數(shù)據(jù)特征提取的有效性。

3.4 聚類性能評估

為評估各故障主題聚類模型算法性能,在聚類收斂性能方面采用迭代次數(shù)作為評估指標(biāo),并在3個(gè)故障文本數(shù)據(jù)集中隨機(jī)抽取不同規(guī)模的實(shí)驗(yàn)樣本數(shù)據(jù),對3種故障主題聚類模型進(jìn)行對比分析,以評估不同聚類算法在不同數(shù)據(jù)規(guī)模下的收斂性能。其中:在D0數(shù)據(jù)集中隨機(jī)抽取的實(shí)驗(yàn)樣本數(shù)據(jù)子集的規(guī)模范圍為[100,500],數(shù)據(jù)遞增間隔為100條;在D1及D2數(shù)據(jù)集中隨機(jī)抽取的實(shí)驗(yàn)樣本數(shù)據(jù)子集的規(guī)模范圍分別為[50,250]及[50,350],數(shù)據(jù)遞增間隔為50條。圖5為在D0、D1及D2故障文本數(shù)據(jù)集中隨機(jī)抽取的不同規(guī)模實(shí)驗(yàn)樣本數(shù)據(jù)子集分別進(jìn)行10次聚類實(shí)驗(yàn)所獲取的迭代次數(shù)的平均值。

圖5 3種聚類算法在不同規(guī)模故障因素文本實(shí)驗(yàn)數(shù)據(jù)子集下收斂性能對比

由圖5可知:不同聚類算法運(yùn)行的迭代次數(shù)隨著實(shí)驗(yàn)數(shù)據(jù)子集規(guī)模增加而增大;對比3種聚類算法,在D0、D1及D2不同規(guī)模實(shí)驗(yàn)數(shù)據(jù)子集的故障主題聚類過程中,譜聚類算法收斂速度均較快,表明譜聚類算法在收斂性能上具有一定優(yōu)勢。

綜上所述,基于圖Laplacian矩陣聚類特性的譜聚類算法,利用Word2vec向量表示的故障文本語義空間特征矩陣計(jì)算Laplacian矩陣,并求解特征值及特征向量,有效處理了傳統(tǒng)文本聚類過程中文本特征向量維度高的問題,并在保證聚類準(zhǔn)確率的條件下,其收斂性能更優(yōu)。

針對聚類結(jié)果,結(jié)合專家人工標(biāo)注的信息,人工歸納故障主題類型描述,并統(tǒng)計(jì)3種故障文本數(shù)據(jù)集聚類結(jié)果中不同故障主題類型樣本數(shù)據(jù)出現(xiàn)的頻率。表2給出了D0、D1及D2故障文本數(shù)據(jù)集聚類結(jié)果中不同故障主題類型描述及其出現(xiàn)頻率的平均值。

表2 不同故障文本數(shù)據(jù)集聚類結(jié)果中故障主題描述及平均頻率

由表2可知,3個(gè)數(shù)據(jù)集聚類結(jié)果均具有不平衡特征:電務(wù)因素D0數(shù)據(jù)集中器材不良相關(guān)故障主題類型占比最高,工務(wù)因素D1數(shù)據(jù)集中鋼軌絕緣處相關(guān)故障主題類型占比最高,供電因素D2數(shù)據(jù)集中電源停電轉(zhuǎn)換相關(guān)故障主題類型占比最高。

電務(wù)因素及工務(wù)因素故障文本數(shù)據(jù)中包含的故障主題類型,可以表征出軌道電路現(xiàn)場運(yùn)行中實(shí)際發(fā)生故障的故障區(qū)域位置或類型;供電因素故障文本數(shù)據(jù)中包含的故障主題類型,可反映出容易影響軌道電路正常工作的與供電相關(guān)的因素,如不平衡牽引電流沖擊干擾等[18]。通過統(tǒng)計(jì)不同故障主題類型的出現(xiàn)頻率,可以獲取現(xiàn)場軌道電路易發(fā)、多發(fā)性故障主題類型,并作為現(xiàn)場軌道電路綜合維護(hù)檢修及制定相應(yīng)預(yù)防性維護(hù)措施的重點(diǎn)方向。

3.5 可視化分析

為更加直觀地展示故障主題聚類過程及結(jié)果,采用t分布隨機(jī)鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法進(jìn)行降維。在3種故障文本數(shù)據(jù)集下,不同聚類算法在二維平面上的聚類可視化效果見圖6～8。t-SNE作為一種非線性降維算法[19],對于高維數(shù)據(jù)降維效果較好,有助于可視化分析。

圖6 在3種故障文本數(shù)據(jù)集下W-SC算法的聚類降維可視化結(jié)果

圖7 在3種故障文本數(shù)據(jù)集下W-KM算法的聚類降維可視化結(jié)果

圖8 在3種故障文本數(shù)據(jù)集下W-NMF-KM算法的聚類降維可視化結(jié)果

在圖6～8中,不同顏色樣本數(shù)據(jù)簇代表了不同的軌道電路故障主題類型,展示出3種故障因素文本數(shù)據(jù)采用不同聚類算法后,故障主題類型在二維空間的可視化映射。由圖6可以看出:聚類后不同故障主題類型簇之間具有較為明顯的劃分,表明各故障因素文本數(shù)據(jù)集在語義空間所包含的故障主題類型間具有一定的區(qū)分度;與其他2種聚類算法相比,采用W-SC算法聚類后的簇內(nèi)樣本數(shù)據(jù)點(diǎn)分布更加緊湊,說明故障主題類型特征更為明顯,而簇內(nèi)樣本數(shù)據(jù)點(diǎn)距離分散,反映相應(yīng)故障主題類型故障文本數(shù)據(jù)在語義表達(dá)上的多樣性及復(fù)雜性。

4 結(jié)論

根據(jù)語義空間上故障主題聚類結(jié)果可知:基于Word2vec的文本表示對相似詞匯以及故障文本語義特征有較好的學(xué)習(xí)效果,譜聚類算法在軌道電路故障文本主題聚類模型中準(zhǔn)確率較高且收斂性能優(yōu)于傳統(tǒng)聚類算法,適用于大規(guī)模的文本聚類。通過對電務(wù)、工務(wù)及供電等因素軌道電路故障文本數(shù)據(jù)聚類的挖掘,獲取了與3種軌道電路故障因素相關(guān)聯(lián)的故障主題,且故障主題類型間具有較高的語義區(qū)分度。結(jié)合軌道電路故障主題類型發(fā)生頻率,將易發(fā)、多發(fā)性故障主題作為有效信息,可為現(xiàn)場軌道電路故障處置分析及各部門制定維修決策提供很好的輔助指導(dǎo)。