基于混沌映射與飛行策略的短文本分類算法

2022-05-10 09:22:14苑津莎張衛(wèi)華班雙雙

電力科學(xué)與工程 2022年4期

苑津莎，張瑾，張衛(wèi)華，班雙雙

（華北電力大學(xué) 電子與通信工程系，河北保定 071003）

0 引言

隨著信息時代的到來，大數(shù)據(jù)分析已經(jīng)應(yīng)用到了許多生產(chǎn)生活領(lǐng)域。電力系統(tǒng)在運行過程中所產(chǎn)生的歷史數(shù)據(jù)經(jīng)過不斷積累，數(shù)據(jù)規(guī)模逐漸擴大。電力客服系統(tǒng)作為電力企業(yè)與客戶溝通的橋梁，其工作效率的提高意義重大。客服工單（下文簡稱，工單）記錄了電力系統(tǒng)在運行中所產(chǎn)生的諸如故障檢修、調(diào)度運行、客戶咨詢及投訴、運維記錄等大量數(shù)據(jù)信息。對工單進行數(shù)據(jù)分析，對于發(fā)現(xiàn)企業(yè)內(nèi)服務(wù)系統(tǒng)存在的漏洞具有重要意義。應(yīng)用文本分類技術(shù)將工單數(shù)據(jù)進行處理，快速準(zhǔn)確地分析客戶需求，有助于提升企業(yè)工作效率。

傳統(tǒng)的數(shù)據(jù)分析方法存在信息讀取效率問題。近年來，基于機器學(xué)習(xí)與深度學(xué)習(xí)的自然語言處理方法發(fā)展快速，且在工單文本分類處理方面得到了大量應(yīng)用。文獻[1]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的多任務(wù)學(xué)習(xí)框架，設(shè)置了3個不同信息共享機制，針對特定任務(wù)和共享層的文本建模，并在文本分類任務(wù)上驗證了模型的性能。文獻[2]針對電力投訴文本長度差異較大以及強專業(yè)性的特點，采用長短期記憶（LSTM）方法提取了電力文本語義特征，再通過卷積神經(jīng)網(wǎng)絡(luò)模型對其進行二次特征提取，有效提高了分類的準(zhǔn)確性。文獻[3]利用Word2Vec模型將詞語映射到高維特征空間，通過基于雙向 LSTM 的注意力機制（BiLSTM-attention）對電力設(shè)備缺陷文本進行分類。文獻[4]為了提取更具代表性的特征向量，融合文本循環(huán)神經(jīng)網(wǎng)絡(luò)（TextRNN）模型和文本卷積神經(jīng)網(wǎng)絡(luò)（TextCNN）模型，并引入注意力機制，解決了TextRNN模型、TextCNN模型的局限性，提高了文本分類的效果。文獻[5]提出了層次語義理解的方法，將工單中的字符、詞建模轉(zhuǎn)化為描述再進行分類，實現(xiàn)了工單隱藏語義的準(zhǔn)確表示。文獻[6]通過使用BERT模型對工單中具有設(shè)備缺陷的文本進行預(yù)訓(xùn)練，將生成詞嵌入向量，再利用BiLSTM網(wǎng)絡(luò)對該向量進行雙向編碼以提取語義表征，使用注意力機制增強設(shè)備缺陷領(lǐng)域的語義權(quán)重，提高了該領(lǐng)域文本分類的正確率。

為進一步深入對工單文本進行分析研究，提高工單文本分類的準(zhǔn)確性與效率，本文采用BERT模型提取特征向量，盡可能覆蓋輸入文本信息，并利用ELM[7]進行分類。由于ELM的初始權(quán)重和偏置隨機產(chǎn)生，故采用收斂速度較快、局部搜索能力較強的麻雀搜索算法[8]（SSA）尋找最優(yōu)初始權(quán)重和偏置以提高模型精度。針對SSA算法存在的全局搜索能力較弱、易陷入局部最優(yōu)的缺點，通過引入Lévy-CSSA算法來克服。

1 短文本分類算法

文本分類的關(guān)鍵，在于特征提取以及特征向量的表示。本文采用的BERT模型在表示詞向量時能夠加入上下文的語義信息，還可以減少字詞因無法通過語義區(qū)分而出現(xiàn)歧義的情況發(fā)生。該模型首先對大量未標(biāo)記語料進行訓(xùn)練以獲取包含大量語義信息的文本表示，然后對文本的語義表示進行微調(diào)，最終將其用于特定的自然語言處理任務(wù)。

1.1 RoBERTa-全詞Mask模型

RoBERTa-WWM[9]模型的輸入量E(E1,E2,···,EN)為工單文本內(nèi)容；輸入量經(jīng)過Trm模塊實現(xiàn)文本向量化后，輸出為向量T(T1,T2,···,)。Trm模塊是核心模塊，有多層結(jié)構(gòu)。

RoBERTa-WWM 模型的優(yōu)點在于其結(jié)合了中文全詞掩碼技術(shù)以及RoBERTa模型的優(yōu)勢。全詞掩碼技術(shù)的優(yōu)勢在于其更改了預(yù)訓(xùn)練階段的樣本生成策略，用[Mask]標(biāo)簽將組成同一個詞的漢字全部進行掩碼，示例如表1所示。

表1 WWM處理樣本示例Tab. 1 Example of sample processing with WWM

RoBERTa模型主要在3個方面進行了優(yōu)化：（1）優(yōu)化了 Adam算法的參數(shù)。（2）對訓(xùn)練策略進行了優(yōu)化。增加了每次訓(xùn)練所抓取的樣本數(shù)量；同時也將靜態(tài)掩碼改成了動態(tài)掩碼。（3）采用了更大的訓(xùn)練數(shù)據(jù)集，并使用了簡單高效的雙字母組合編碼壓縮了自然語言語料庫中的數(shù)據(jù)。

1.2 極限學(xué)習(xí)機

在神經(jīng)網(wǎng)絡(luò)算法中，反向傳播（BP）神經(jīng)網(wǎng)絡(luò)[10]的應(yīng)用非常廣泛。BP學(xué)習(xí)算法存在學(xué)習(xí)過程時間消耗過長，在處理經(jīng)BERT模型提取出的高維特征向量時速度較慢。

ELM是一種具有求解快速特點的新型單隱層前饋神經(jīng)網(wǎng)絡(luò)模型，具有輸入層、隱含層和輸出層3層結(jié)構(gòu)。ELM在計算過程中，首先對輸入層權(quán)重和隱藏層偏置進行隨機選取，對于輸出層權(quán)重則通過廣義逆矩陣?yán)碚撚嬎愕玫健LM模型結(jié)構(gòu)如圖1所示。

圖1 ELM結(jié)構(gòu)Fig. 1 ELM structure

在訓(xùn)練過程中，ELM無需如BP算法那樣不斷反向調(diào)整權(quán)重和偏置，所以學(xué)習(xí)速度較快；但其輸入層—隱藏層權(quán)重與偏置的隨機取值會影響模型精度，因此最優(yōu)權(quán)重與偏置選取對模型的建立有重要意義。

1.3 結(jié)合BERT和改進ELM模型的分類方法

本文提出的模型結(jié)構(gòu)如圖2所示，具體步驟如下。

城市的發(fā)展靠大量資本、勞力等外力因素推動，而鄉(xiāng)村的發(fā)展必須依靠內(nèi)生動力。星光村人才輩出，雖然創(chuàng)業(yè)在外，但他們依然眷念故土，為家鄉(xiāng)的建設(shè)投資投勞。但鄉(xiāng)村的發(fā)展更要投智，人才對于鄉(xiāng)村而言非常重要。星光村鄉(xiāng)村旅游的進一步發(fā)展需要他們的支持、回歸與帶動。建議實施星光村精英反哺計劃，鼓勵部分在外發(fā)展的干部、專家、文學(xué)作家、設(shè)計師、企業(yè)老板等回鄉(xiāng)創(chuàng)業(yè)，為家鄉(xiāng)發(fā)展獻計納策，以本土化的力量增強自我造血功能，實現(xiàn)真正意義上的鄉(xiāng)村振興。

圖2 分類建模流程Fig. 2 Classification modeling flow

步驟1：對訓(xùn)練集M進行預(yù)處理，累加位置編碼后，得到M′。

步驟2：將M′輸入BERT模型，根據(jù)訓(xùn)練集M′對預(yù)訓(xùn)練語言模型進行微調(diào)，最終獲取對應(yīng)訓(xùn)練集的特征向量 T。T=(T1,T2,···,TN),i=1,2,···,N。

步驟3：將步驟2中的特征向量T輸入到ELM進行訓(xùn)練，得到文本分類結(jié)果，并與數(shù)據(jù)集標(biāo)簽進行比較，得到尋優(yōu)算法適應(yīng)度函數(shù)如式（1）所示。

式中：F1,train是指訓(xùn)練集的 F1值；F1,test是指測試集的F1值

步驟4：通過ELM實現(xiàn)工單文本分類。

2 Lévy-CSSA算法

由于對 ELM 輸入層權(quán)重和隱藏層偏置進行隨機選取會影響模型性能，所以本文提出 Lévy-CSSA算法，通過改進SSA算法優(yōu)化了種群初始值，并使用Lévy飛行搜索策略提高算法的全局尋優(yōu)能力。該算法對ELM中輸入層—隱藏層權(quán)重與偏置的初始值尋優(yōu)，得到最優(yōu)值使適應(yīng)度函數(shù)值達到最大，進而提升模型的分類性能。

2.1 改進SSA算法

SSA算法是由文獻[8]根據(jù)麻雀種群的覓食和反捕食行為提出的一種新型智能優(yōu)化算法。在SSA算法中，將D維空間中的n只麻雀區(qū)分為發(fā)現(xiàn)者、跟隨者和警戒者。發(fā)現(xiàn)者負(fù)責(zé)尋找食物并提供尋找的方向，適應(yīng)度較好的發(fā)現(xiàn)者會優(yōu)先獲取食物；跟隨者依靠發(fā)現(xiàn)者獲取食物，且跟隨者要比發(fā)現(xiàn)者的搜索范圍小；警戒者則在危險降臨時做出反捕食行為。

SSA算法局部搜索能力極強，但全局搜索能力較弱且不易跳出局部最優(yōu)，從而導(dǎo)致其收斂精度較低。為了克服SSA算法全局搜索能力較弱的缺陷，本文利用logistic混沌映射[11]對SSA算法進行初始化，初始化產(chǎn)生的混沌麻雀具有隨機性、遍歷性等特點，提高初始種群的多樣性。

2.2 Lévy飛行

2.3 Lévy-CSSA算法流程

本文定義Lévy-CSSA算法為：在麻雀種群位置信息初始化過程中加入logistic混沌映射，以增加初始種群的多樣性；在麻雀位置信息更新時引入Lévy飛行策略，以提升全局搜索能力，避免陷入局部最優(yōu)。具體流程如圖4所示。

圖3 Lévy-CSSA算法流程圖Fig. 3 Flow chart of Lévy-CSSA algorithm

2.4 Lévy-CSSA極限學(xué)習(xí)機

針對 ELM 隨機賦予輸入層—隱藏層的權(quán)重與偏置的初始值會影響模型精度的問題，對ELM進行改進，具體流程如圖4所示。

圖4 Lévy-CSSA極限學(xué)習(xí)機Fig. 4 The Lévy-CSSA extreme learning machine

3 實驗及分析

3.1 Lévy-CSSA算法性能測試

選取如表2所示的固定維度函數(shù)、高維單峰函數(shù)以及高維多峰函數(shù)進行仿真實驗，并與GA、DE和SSA群體智能算法進行對比來驗證Lévy-CSSA算法的可行性和優(yōu)越性。通用條件設(shè)置為：種群規(guī)模設(shè)為30，迭代總數(shù)設(shè)為300。分別對各算法單獨進行100次仿真實驗并記錄最優(yōu)值Tb、平均值Tav和方差V。計算結(jié)果如表3所示，收斂曲線如圖5所示。

圖5 收斂曲線Fig. 5 Convergence curve

表2 測試函數(shù)Tab. 2 Test functions

表3 測試函數(shù)尋優(yōu)結(jié)果Tab. 3 Results of test function optimization

由表3可以看出：Lévy-CSSA算法在不同類型的測試函數(shù)中均可搜索至非常接近理論最優(yōu)值；且相比于其他2種算法與原算法，其求解精度更高，表現(xiàn)更加穩(wěn)定，尤其是在高維函數(shù)中凸顯了算法優(yōu)勢。從圖5可以看出：Lévy-CSSA能夠清楚地顯示出算法跳出局部尋優(yōu)的能力，在收斂速度以及收斂精度上均優(yōu)于其他算法。

工單經(jīng)BERT模型提取到的特征向量具有高維度、高耦合特點，導(dǎo)致其在ELM中輸入層—隱藏層權(quán)重與偏置維度較高，因此尋優(yōu)時應(yīng)使用適用于高維度的算法。本文算法對其具有適用性。

3.2 分類實驗過程

實驗所用數(shù)據(jù)來源于國家電網(wǎng)全國供電服務(wù)呼叫中心提供的文本分類數(shù)據(jù)集，其內(nèi)容為某省客戶向國家電網(wǎng)客服反映情況工單，包括電量異常、接觸不良、電能表異常、安全隱患等8個類別[15]，共計23 289條。現(xiàn)選取其中75%作為訓(xùn)練集，25%作為測試集進行實驗，具體如表4所示。

表4 實驗數(shù)據(jù)Tab. 4 Experimental data 條

采用中文RoBERTa-WWM模型：有24層網(wǎng)絡(luò)結(jié)構(gòu)，其中隱含層有1 024維，共有3.3×108個參數(shù)。將訓(xùn)練集文本與測試集文本作為輸入，通過預(yù)訓(xùn)練模型進行編碼；每條文本數(shù)據(jù)均編碼為 1 024維向量，并將訓(xùn)練集標(biāo)簽與測試集標(biāo)簽編碼為8維向量。將1 024維文本向量作為輸入，8維標(biāo)簽向量作為輸出，對ELM進行訓(xùn)練；其中ELM輸入層—隱藏層的權(quán)重與偏置的初始值通過本文提出的Lévy-CSSA算法進行優(yōu)化。

3.3 分類評價指標(biāo)

本文所研究的問題為分類問題，常用的評價指標(biāo)為查準(zhǔn)率（P）、查全率（R）與F1值[16]：

式中：TP表示預(yù)測為正，實際為正；FP表示預(yù)測為正，實際為負(fù)；FN表示預(yù)測為負(fù)，實際為正。

F1值是模型查準(zhǔn)率和查差率的一種調(diào)和平均，可以更加全面地反映分類性能。

3.4 實驗結(jié)果

結(jié)合BERT和改進ELM模型所獲取的訓(xùn)練結(jié)果，分別與TextRNN、TextCNN以及結(jié)合BERT與隨機森林模型的文本分類結(jié)果進行對比，實驗結(jié)果如表5、圖6所示。評價指標(biāo)主要采用F1值。

圖6 分類結(jié)果對比圖Fig. 6 Comparison of classification results

表5 不同模型的實驗結(jié)果Tab. 5 Experimental results of different models %

由表5可以看出，對于工單，在模型的查準(zhǔn)率、查全率和F1值評價指標(biāo)方面，結(jié)合BERT和改進ELM模型的分類效果相比于其他模型均有明顯提升。本文所提出模型的F1值達到了95.16%，相比于原始的TextRNN、TextCNN模型分別提高了3.08%、1.04%，可見本文模型綜合性能更好。結(jié)合BERT和ELM模型相比于TextRNN、TextCNN模型效果較差，其原因是：即使通過BERT模型提取出更加全局的特征向量，但ELM模型的輸入層—隱藏層權(quán)重與偏置的隨機取值影響了模型精度，這更加體現(xiàn)出對模型進行優(yōu)化的重要性。

由圖6可以看出：本文提出的模型在8個類別上的分類性能均優(yōu)于其他4種模型。結(jié)合BERT與隨機森林模型表現(xiàn)不穩(wěn)定，對于不同的類別，分類性能相差較大。結(jié)合BERT和 ELM模型相比于TextRNN在電量異常、接觸不良、電能表異常、停電、缺相、欠費停復(fù)電這些類別分類表現(xiàn)均較差，且在各個類別中均比TextCNN分類效果差。通過Lévy-CSSA算法對模型尋優(yōu)后，本文算法對每個類別的分類能力均有明顯提升，在“安全隱患”類別的分類水平提升效果最為明顯。

4 結(jié)論

為提高工單分類模型的分類效果，本文提出結(jié)合BERT和改進ELM模型的分類方法，并通過具體的工單分類實驗驗證了方法的有效性。

（1）本文提出的 Lévy-CSSA 算法提高了結(jié)合BERT和改進ELM模型的分類精度。3類經(jīng)典測試函數(shù)優(yōu)化對比實驗的結(jié)果表明了Lévy-CSSA算法具有明顯優(yōu)越性。

（2）建立了BERT和改進ELM模型。使用Lévy-CSSA算法對ELM進行優(yōu)化，并通過工單分類實驗驗證了模型效果。與TextRNN、TextCNN等模型的對比結(jié)果表明：模型在查準(zhǔn)率、查全率以及F1值等分類指標(biāo)上均有所提高；該模型可以更好地表達工單語義信息，能夠有效地進行工單分類。

以上結(jié)論表明了本文結(jié)合BERT和改進ELM模型的工單分類方法的可行性。